登录    注册    忘记密码

期刊文章详细信息

主题模型LDA的多文档自动文摘    

Automatic multi-document summarization based on the latent Dirichlet topic allocation model

  

文献类型:期刊文章

作  者:杨潇[1] 马军[2] 杨同峰[2] 杜言琦[2] 邵海敏[2]

机构地区:[1]山东经济学院信息管理学院,山东济南250014 [2]山东大学计算机科学与技术学院,山东济南250101

出  处:《智能系统学报》

基  金:国家自然科学基金资助项目(60970047);山东省自然科学基金资助项目(Y2008G19);山东省科技计划资助项目(2007GG10001002;2008GG10001026)

年  份:2010

卷  号:5

期  号:2

起止页码:169-176

语  种:中文

收录情况:CSA、CSA-PROQEUST、IC、INSPEC、JST、RCCSE、ZGKJHX、普通刊

摘  要:近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.

关 键 词:多文档自动文摘 句子分值计算  主题模型 LDA 主题数目  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心