期刊文章详细信息

中文文本分类中特征抽取方法的比较研究
A Comparative Study on Feature Selection in Chinese Text Categorization

文献类型：期刊文章

作　　者：代六玲[1] 黄河燕[2] 陈肇雄[2]

机构地区：[1]南京理工大学计算机科学系,南京210094 [2]中国科学院计算机语言信息工程研究中心,北京100083

出　　处：《中文信息学报》

基　　金：国家自然科学基金资助项目 (6 0 2 72 0 88)

年　　份：2004

卷　　号：18

期　　号：1

起止页码：26-32

语　　种：中文

收录情况：BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊

摘　　要：本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

关键词：计算机应用中文信息处理文本自动分类特征抽取支持向量机 KNN

分类号：TP18]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

中文文本分类中特征抽取方法的比较研究
A Comparative Study on Feature Selection in Chinese Text Categorization

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

中文文本分类中特征抽取方法的比较研究 A Comparative Study on Feature Selection in Chinese Text Categorization

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

中文文本分类中特征抽取方法的比较研究
A Comparative Study on Feature Selection in Chinese Text Categorization