登录    注册    忘记密码

期刊文章详细信息

基于自扩展与最大熵的领域实体关系自动抽取    

Domain of automatic entity relation extraction based on seed self-expansion and the maximum entropy machine learning

  

文献类型:期刊文章

作  者:雷春雅[1] 郭剑毅[1,2] 余正涛[1,2] 毛存礼[1,2] 张少敏[1] 黄甫[1]

机构地区:[1]云南昆明理工大学信息工程与自动化学院,云南昆明650051 [2]云南省计算机技术应用重点实验室智能信息处理研究所,云南昆明650051

出  处:《山东大学学报(工学版)》

基  金:国家自然科学基金资助项目(60863011);云南省自然科学基金重点项目资助项目(2008CC023);云南省中青年学术技术带头人后备人才项目资助项目(2007PY01-11)

年  份:2010

卷  号:40

期  号:5

起止页码:141-145

语  种:中文

收录情况:BDHX、BDHX2008、CAS、CSA、CSA-PROQEUST、IC、RCCSE、UPD、ZGKJHX、核心刊

摘  要:实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。

关 键 词:实体关系抽取 最大熵 自扩展  特征  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心