期刊文章详细信息
文献类型:期刊文章
机构地区:[1]汕头大学计算机系,广东汕头515063 [2]IBM华生研究中心,美国纽约ny10532
年 份:2007
卷 号:21
期 号:6
起止页码:109-115
语 种:中文
收录情况:BDHX、BDHX2004、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:传统文本聚类的向量空间模型中,认为词的权重只和词频有关,而与词语出现的上下文无关。本文介绍了如何借助按词语之间关系组织的本体论词典对文章进行上下文分析,得到文章中词语之间意义上的相互关系,进而用相关词语的词频以及关系的权重量化地给出一个词语受到上下文的支持程度,所以在衡量词语权重时不仅考虑其词频,而且考虑上下文的支持情况。文章还介绍了如何用自动构建的方法得到本文所需的词典,使得在本体论词典资源还不太丰富的汉语中也能应用上面的方法。实验数据表明,本文的方法能有效的消除噪音,提高文本聚类的效果。
关 键 词:计算机应用 中文信息处理 文本聚类 上下文 词语权重 本体论词典
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...