登录    注册    忘记密码

期刊文章详细信息

基于类别层次结构的多层文本分类样本扩展策略  ( EI收录)  

Expanding Training Dataset with Class Hierarchy in Hierarchical Text Categorization

  

文献类型:期刊文章

作  者:李保利[1]

机构地区:[1]河南工业大学计算机科学系,郑州450001

出  处:《北京大学学报(自然科学版)》

基  金:河南省基础与前沿技术研究项目(112300410007);河南工业大学高层次人才基金(2012BS027)资助

年  份:2015

卷  号:51

期  号:2

起止页码:357-366

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CAS、CSCD、CSCD2015_2016、EI、IC、INSPEC、JST、MR、PROQUEST、RCCSE、RSC、SCOPUS、WOS、ZGKJHX、ZMATH、ZR、核心刊

摘  要:针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。

关 键 词:多层文本分类  大规模中文新闻分类  中文新闻信息分类  类别层次体系  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心