期刊文章详细信息
文献类型:期刊文章
机构地区:[1]湖南大学信息科学与工程学院,长沙410082 [2]邵阳学院信息工程系,邵阳422000
基 金:湖南省教育厅一般项目(09C887):基于语义网的网络教学资源检索系统研究资助
年 份:2014
卷 号:41
期 号:6
起止页码:204-207
语 种:中文
收录情况:BDHX、BDHX2011、CSA、CSCD、CSCD2013_2014、IC、JST、RCCSE、UPD、ZGKJHX、核心刊
摘 要:关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。
关 键 词:关键词提取 特征权重 TFIDF DI-TFIDF
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...