登录    注册    忘记密码

期刊文章详细信息

一种基于频繁词集的短文本特征扩展方法  ( EI收录)  

Short text feature extension method based on frequent term sets

  

文献类型:期刊文章

作  者:袁满[1] 欧阳元新[2] 熊璋[1] 罗建辉[1]

机构地区:[1]北京航空航天大学计算机学院,北京 100191 [2]北京航空航天大学深圳研究院,深圳518000

出  处:《东南大学学报(自然科学版)》

基  金:国家自然科学基金资助项目(61103095);国家国际科技合作专项资助项目(2010DFB13350);国家高技术研究发展计划(863计划)资助项目(2011AA010502);中央高校基本科研业务费专项资金资助项目

年  份:2014

卷  号:44

期  号:2

起止页码:256-260

语  种:中文

收录情况:AJ、BDHX、BDHX2011、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、EI(收录号:20141917700337)、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.

关 键 词:频繁项目集 短文本分类  特征扩展  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心