期刊文章详细信息
文献类型:期刊文章
机构地区:[1]解放军信息工程大学信息研究系,河南郑州450002
年 份:2005
卷 号:26
期 号:6
起止页码:1616-1618
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式。改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度。
关 键 词:文本分类 TF-IDF 向量空间 特征项 特征权重
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...