期刊文章详细信息
基于自扩展与最大熵的领域实体关系自动抽取
Domain of automatic entity relation extraction based on seed self-expansion and the maximum entropy machine learning
文献类型:期刊文章
机构地区:[1]云南昆明理工大学信息工程与自动化学院,云南昆明650051 [2]云南省计算机技术应用重点实验室智能信息处理研究所,云南昆明650051
基 金:国家自然科学基金资助项目(60863011);云南省自然科学基金重点项目资助项目(2008CC023);云南省中青年学术技术带头人后备人才项目资助项目(2007PY01-11)
年 份:2010
卷 号:40
期 号:5
起止页码:141-145
语 种:中文
收录情况:BDHX、BDHX2008、CAS、CSA、CSA-PROQEUST、IC、RCCSE、UPD、ZGKJHX、核心刊
摘 要:实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。
关 键 词:实体关系抽取 最大熵 自扩展 特征
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...