期刊文章详细信息
基于概念统计和语义层次分析的英文自动文摘研究
Research on Automatic Summarization Based on Concept Countingand Semantic Hierarchy Analysis for English Texts
文献类型:期刊文章
机构地区:[1]清华大学人文学院计算语言学研究室,北京100084
基 金:国家自然科学基金资助项目 (6 9972 0 2 5 )
年 份:2003
卷 号:17
期 号:2
起止页码:14-20
语 种:中文
收录情况:BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、ZGKJHX、核心刊
摘 要:传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。
关 键 词:计算机应用 中文信息处理 概念统计 主题概念 向量空间模型 句子重要度 意义块划分
分 类 号:TP391.3]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...