期刊文章详细信息
文献类型:期刊文章
机构地区:[1]福建师范大学软件学院,福州350108
基 金:国家自然科学基金(61472082);福建省自然科学基金(2014J01220)
年 份:2017
卷 号:26
期 号:12
起止页码:137-142
语 种:中文
收录情况:CSA、IC、ZGKJHX、普通刊
摘 要:文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.
关 键 词:文本相似度 Jaccard系数 文本分析 文本查重 文本检索
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...