期刊文章详细信息
文献类型:期刊文章
机构地区:[1]合肥工业大学计算机与信息学院,合肥230009 [2]合肥师范学院计算机学院,合肥230061 [3]佛蒙特大学计算机科学系,伯灵顿vt05405
基 金:国家自然科学基金-海外及港澳学者合作研究基金:"带有通配符和长度约束的模式匹配和挖掘"(61229301)
年 份:2016
卷 号:35
期 号:6
起止页码:664-672
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSSCI、CSSCI2014_2016、INSPEC、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:关键词是表达文档核心内容的最小单元。自动抽取一篇或多篇文档的关键词,较传统的人工标注关键词,能节省大量的时间和人力消耗。本文提出了一种基于图和主题模型的关键词抽取算法,首先利用LDA主题模型,计算出词与词之间的相似性,作为词与词之间的权重并构建一个带权无向词图。与传统TextRank不同的是,图的节点不再是单个的词,而是选择短语作为图的节点。最后,再从这些短语节点中选择Top K个词作为文章的关键词。我们选择了两个公开数据集进行了实验,结果表明我们的算法优于现有的关键词抽取算法。
关 键 词:关键词抽取 LDA主题模型 TextRank图
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...