登录    注册    忘记密码

期刊文章详细信息

训练集类别分布对文本分类的影响  ( EI收录)  

Effects of category distribution in a training set on text categorization

  

文献类型:期刊文章

作  者:张启蕊[1] 张凌[1] 董守斌[1] 谭景华[2]

机构地区:[1]华南理工大学广东省计算机网络重点实验室,广州510640 [2]中国电信集团广州研发中心,广州510630

出  处:《清华大学学报(自然科学版)》

基  金:高等学校优秀青年教师教学科研奖励计划资助项目

年  份:2005

卷  号:45

期  号:S1

起止页码:1802-1805

语  种:中文

收录情况:AJ、AMR、BDHX、BDHX2004、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇。在复旦大学语料库上使用类别均衡法,分别用N a ve B ayes和R occh io方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%。实验结果显示,类别均衡法显著提高了分类性能。

关 键 词:文本分类 训练集 类别均衡法  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心