登录    注册    忘记密码

期刊文章详细信息

中文文本分类中的特征选择研究    

Study on Feature Selection in Chinese Text Categorization

  

文献类型:期刊文章

作  者:周茜[1] 赵明生[1] 扈旻[1]

机构地区:[1]清华大学电子工程系,北京100084

出  处:《中文信息学报》

基  金:国家自然科学基金资助项目 ( 6 0 0 0 30 14;6 0 1710 37)

年  份:2004

卷  号:18

期  号:3

起止页码:17-23

语  种:中文

收录情况:BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊

摘  要:本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。

关 键 词:计算机应用 中文信息处理 文本分类 特征选择  类别区分词  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心