期刊文章详细信息
文献类型:期刊文章
机构地区:[1]湖南环境生物职业技术学院信息技术系,湖南衡阳421005
基 金:湖南省教育科技计划项目(07D036);湖南省教育厅;财政厅联合资助项目(12C1056)
年 份:2014
卷 号:24
期 号:9
起止页码:128-132
语 种:中文
收录情况:JST、RCCSE、ZGKJHX、普通刊
摘 要:TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。
关 键 词:文本分类 特征项 权重 改进
分 类 号:TP301]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...