期刊文章详细信息
文献类型:期刊文章
机构地区:[1]华南理工大学广东省计算机网络重点实验室,广州510640 [2]中国电信集团广州研发中心,广州510630
基 金:高等学校优秀青年教师教学科研奖励计划资助项目
年 份:2005
卷 号:45
期 号:S1
起止页码:1802-1805
语 种:中文
收录情况:AJ、AMR、BDHX、BDHX2004、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇。在复旦大学语料库上使用类别均衡法,分别用N a ve B ayes和R occh io方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%。实验结果显示,类别均衡法显著提高了分类性能。
关 键 词:文本分类 训练集 类别均衡法
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...