登录    注册    忘记密码

期刊文章详细信息

基于VSM的文本相似度计算的研究    

Similarity computing of documents based on VSM

  

文献类型:期刊文章

作  者:郭庆琳[1,2] 李艳梅[1] 唐琦[1]

机构地区:[1]华北电力大学计算机科学与技术学院,北京102206 [2]北京大学计算机系,北京100871

出  处:《计算机应用研究》

基  金:国家自然科学基金资助项目(90412010,70572090);NSCF(60573166);华北电力大学博士学位教师科研基金资助项目(H0585)

年  份:2008

卷  号:25

期  号:11

起止页码:3256-3258

语  种:中文

收录情况:AJ、BDHX、BDHX2004、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊

摘  要:文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。

关 键 词:文本相似度 特征选择  词频—逆文档频率法  向量空间模型

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心