期刊文章详细信息
文献类型:期刊文章
机构地区:[1]长春工业大学计算机科学与工程学院,长春130012 [2]长春工业大学科研处,长春130012 [3]吉林大学计算机科学与技术学院,长春130012
基 金:长春工业大学博士基金(2008A02)资助~~
年 份:2009
卷 号:35
期 号:12
起止页码:1586-1592
语 种:中文
收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、EI(收录号:20100312641430)、IC、INSPEC、JST、MR、PUBMED、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理.
关 键 词:主题分析 LDA模型 文本分割 GIBBS抽样
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...