登录    注册    忘记密码

期刊文章详细信息

基于LDA高频词扩展的中文短文本分类    

A New Method of Key words Extraction for Chinese Short-text Classification

  

文献类型:期刊文章

作  者:胡勇军[1] 江嘉欣[2] 常会友[3]

机构地区:[1]中山大学管理学院,广州510275 [2]中山大学信息科学与技术学院,广州510006 [3]中山大学软件学院,广州510006

出  处:《现代图书情报技术》

基  金:国家863计划基金项目"农产品全供应链多源信息感知技术与产品开发"(项目编号:2012AA101701-03)的研究成果之一

年  份:2013

期  号:6

起止页码:42-48

语  种:中文

收录情况:BDHX、BDHX2011、CSSCI、CSSCI2012_2013、RWSKHX、核心刊

摘  要:针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法。

关 键 词:短文本分类  高频词 LDA 特征扩展  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心