期刊文章详细信息
文献类型:期刊文章
机构地区:[1]东北师范大学信息科学与技术学院,长春130117 [2]智能信息处理吉林省高校重点实验室,长春130117 [3]解放军报社,北京100832
基 金:国家自然科学基金(批准号:11501095);吉林省科技发展计划项目(批准号:20170204002GX);吉林省发改委引导项目(批准号:2015Y56)
年 份:2018
卷 号:56
期 号:1
起止页码:114-118
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2017_2018、INSPEC、JST、MR、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:通过改进的Single-Pass增量文本聚类算法,以话题为粒度对新闻信息进行组织,实现网络新闻话题的发现.该方法考虑了新闻的动态性和时间特性,在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化,同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量.应用基于主题的网络爬虫构建的新闻等语料作为测试数据集,实验结果表明,改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%,验证了改进算法的有效性和准确性.
关 键 词:话题发现 文本聚类 Single—Pass算法
分 类 号:TP311.5]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...