期刊文章详细信息
文献类型:期刊文章
机构地区:[1]辽宁信息职业技术学院,辽宁辽阳111000 [2]解放军炮兵学院运筹教研组,安徽合肥230031
年 份:2005
卷 号:10
期 号:1
起止页码:76-78
语 种:中文
收录情况:CAS、CSA、DOAJ、JST、RCCSE、ZGKJHX、普通刊
摘 要:在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%.
关 键 词:文本分类 特征选取 文本表示
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...