期刊文章详细信息
文献类型:期刊文章
机构地区:[1]同济大学计算机科学与技术系,上海201804 [2]同济大学嵌入式系统与服务计算教育部重点实验室,上海201804
基 金:国家自然科学基金资助项目(60970061;61075056;61103067);中央高校基本科研业务费专项资金资助项目
年 份:2013
卷 号:33
期 号:6
起止页码:1587-1590
语 种:中文
收录情况:AJ、BDHX、BDHX2011、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。
关 键 词:短文本 分类 K近邻 相似度 隐含狄列克雷分配
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...