期刊文章详细信息
基于正态分布的词频分析法高频词阈值研究
The Research on the Threshold of High-Frequency Words Based on the Normal Distribution in Word Frequency Analysis
文献类型:期刊文章
机构地区:[1]内蒙古科技大学图书馆,包头014010
年 份:2014
卷 号:33
期 号:10
起止页码:129-136
语 种:中文
收录情况:BDHX、BDHX2011、CSSCI、CSSCI2014_2016、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:词频分析法高频关键词或主题词的界定是开展信息分析的重要基础。首先,在文献统计分析的基础上,总结了目前词频分析法高频词确定的四种方法:TOPN方法、WF>=M方法、%WF=P方法以及T计算方法,这些方法存在着经验性、随意性、理论基础和适用性上的问题。接着,通过实证方法,验证了关键词和主题词在文献库中的分布符合正态分布,并根据正态分布的特性,提出了词频分析法高频词阈值的F计算方法。最后,在多个数据样本基础上,将F方法与T方法进行了对比分析,认为基于正态分布的高频词阈值F计算方法在理论基础和适用性上都能达到较好的效果。
关 键 词:词频分析法 正态分布 高频词 齐普夫定律
分 类 号:G350]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...