登录    注册    忘记密码

期刊文章详细信息

基于主题模型的科技报告文档聚类方法研究    

Research on the Text Clustering Method of Science and Technology Reports Based on the Topic Model

  

文献类型:期刊文章

作  者:曲靖野[1,2] 陈震[1] 郑彦宁[2]

机构地区:[1]北华大学信息技术与传媒学院,吉林132013 [2]中国科学技术信息研究所,北京100038

出  处:《图书情报工作》

基  金:吉林省教育科学“十三五”规划项目“项目教学法在高校基础计算机教学中的应用研究”(项目编号:GH170061)研究成果之一

年  份:2018

卷  号:62

期  号:4

起止页码:113-120

语  种:中文

收录情况:BDHX、BDHX2017、CSSCI、CSSCI2017_2018、JST、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。

关 键 词:科技报告  主题模型 LDA 文本聚类

分 类 号:G203]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心