登录    注册    忘记密码

期刊文章详细信息

基于特征迭代的短文本去重算法    

Short Text Duplicate Removal Algorithm Based on Feature Iteration

  

文献类型:期刊文章

作  者:曹海[1] 孙婧[1] 史喜斌[1]

机构地区:[1]复旦大学计算机科学技术学院上海市数据科学重点实验室,上海201203

出  处:《计算机工程》

基  金:国家科技支撑计划基金资助项目(2012BAH13F02);上海市科委基金资助项目(12511502403;12511509602)

年  份:2015

卷  号:41

期  号:12

起止页码:54-57

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CAS、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊

摘  要:由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。

关 键 词:SimHash算法  共享最近邻 迭代 特征选择  短文本  去重

分 类 号:TP311]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心