登录    注册    忘记密码

期刊文章详细信息

基于词频统计的文本关键词提取方法    

Text keyword extraction method based on word frequency statistics

  

文献类型:期刊文章

作  者:罗燕[1,2,3] 赵书良[1,2,3] 李晓超[1,2,3] 韩玉辉[1,2,3] 丁亚飞[1,2,3]

机构地区:[1]河北师范大学数学与信息科学学院,石家庄050024 [2]河北师范大学河北省计算数学与应用重点实验室,石家庄050024 [3]河北师范大学移动物联网研究院,石家庄050024

出  处:《计算机应用》

基  金:国家自然科学基金资助项目(71271067);国家社会科学基金资助项目(13BTY011);国家社会科学基金重大项目(13&ZD091);河北省高等学校科学技术研究项目(QN2014196);河北师范大学硕士基金资助项目(201402002)~~

年  份:2016

卷  号:36

期  号:3

起止页码:718-725

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。

关 键 词:词频统计 齐普夫定律 同频词  关键词提取 TF-IDF算法  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心