登录    注册    忘记密码

期刊文章详细信息

中文文本分类的特征选取评价    

An Evaluation of Feature Selection Methods for Text Categorization

  

文献类型:期刊文章

作  者:孙国菊[1] 张杰[2]

机构地区:[1]辽宁信息职业技术学院,辽宁辽阳111000 [2]解放军炮兵学院运筹教研组,安徽合肥230031

出  处:《哈尔滨理工大学学报》

年  份:2005

卷  号:10

期  号:1

起止页码:76-78

语  种:中文

收录情况:CAS、CSA、DOAJ、JST、RCCSE、ZGKJHX、普通刊

摘  要:在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%.

关 键 词:文本分类 特征选取 文本表示

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心