期刊文章详细信息
不同语料下基于LDA主题模型的科学文献主题抽取效果分析
Effect Analysis of Scientific Literature Topic Extraction Based on LDA Topic Model with Different Corpus
文献类型:期刊文章
机构地区:[1]南京理工大学经济管理学院,南京210094 [2]巢湖学院应用数学学院,合肥238000
基 金:国家自然科学基金研究项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(项目编号:71373124);安徽省高校自然科学基金研究项目(项目编号:KJ2013B165、KJ2015A270)研究成果之一
年 份:2016
卷 号:60
期 号:2
起止页码:112-121
语 种:中文
收录情况:BDHX、BDHX2014、CSSCI、CSSCI2014_2016、JST、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。
关 键 词:主题模型 LDA 主题抽取 效果分析 科学文献
分 类 号:G254[图书情报与档案管理类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...