登录    注册    忘记密码

期刊文章详细信息

关键词自动提取方法的研究与改进    

Research and Improvement of TFIDF Text Feature Weighting Method

  

文献类型:期刊文章

作  者:黄磊[1,2] 伍雁鹏[2] 朱群峰[2]

机构地区:[1]湖南大学信息科学与工程学院,长沙410082 [2]邵阳学院信息工程系,邵阳422000

出  处:《计算机科学》

基  金:湖南省教育厅一般项目(09C887):基于语义网的网络教学资源检索系统研究资助

年  份:2014

卷  号:41

期  号:6

起止页码:204-207

语  种:中文

收录情况:BDHX、BDHX2011、CSA、CSCD、CSCD2013_2014、IC、JST、RCCSE、UPD、ZGKJHX、核心刊

摘  要:关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。

关 键 词:关键词提取 特征权重  TFIDF DI-TFIDF  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心