期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院研究生院,北京100049 [3]北京大学软件与微电子学院,北京102600 [4]北京语言大学网络信息与教育技术中心,北京100083
基 金:国家"九七三"重点基础研究发展计划基金项目(2007CB311103);国家自然科学基金项目(60873166;60603094);国家"八六三"高技术研究发展计划基金项目(2006AA010105)~~
年 份:2009
卷 号:46
期 号:9
起止页码:1586-1593
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro和Micro F1效果都优于IG,CHI和OCFS.
关 键 词:特征选择 非平衡语料 特征降维 文本分类 数据挖掘
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...