期刊文章详细信息
基于类别层次结构的多层文本分类样本扩展策略 ( EI收录)
Expanding Training Dataset with Class Hierarchy in Hierarchical Text Categorization
文献类型:期刊文章
机构地区:[1]河南工业大学计算机科学系,郑州450001
基 金:河南省基础与前沿技术研究项目(112300410007);河南工业大学高层次人才基金(2012BS027)资助
年 份:2015
卷 号:51
期 号:2
起止页码:357-366
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CAS、CSCD、CSCD2015_2016、EI、IC、INSPEC、JST、MR、PROQUEST、RCCSE、RSC、SCOPUS、WOS、ZGKJHX、ZMATH、ZR、核心刊
摘 要:针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。
关 键 词:多层文本分类 大规模中文新闻分类 中文新闻信息分类 类别层次体系
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...