登录    注册    忘记密码

期刊文章详细信息

基于改进的Jaccard系数文档相似度计算方法    

Text Similarity Method Based on the Improved Jaccard Coefficient

  

文献类型:期刊文章

作  者:俞婷婷[1] 徐彭娜[1] 江育娥[1] 林劼[1]

机构地区:[1]福建师范大学软件学院,福州350108

出  处:《计算机系统应用》

基  金:国家自然科学基金(61472082);福建省自然科学基金(2014J01220)

年  份:2017

卷  号:26

期  号:12

起止页码:137-142

语  种:中文

收录情况:CSA、IC、ZGKJHX、普通刊

摘  要:文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.

关 键 词:文本相似度 Jaccard系数  文本分析 文本查重  文本检索

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心