期刊文章详细信息
文献类型:期刊文章
机构地区:[1]山东大学计算机科学与技术学院,山东济南250061 [2]山东轻工业学院物理系,山东济南250014
基 金:山东省教育厅项目 (J0 0F0 4 )
年 份:2004
卷 号:18
期 号:1
起止页码:42-47
语 种:中文
收录情况:BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法 ,我们能找出不损失文本有效信息的最小特征词语集 ,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准———元打分法 。
关 键 词:计算机应用 中文信息处理 信息检索 文本集密度 权重计算方案 元打分法
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...