期刊文章详细信息
文献类型:期刊文章
机构地区:[1]复旦大学计算机科学技术学院上海市数据科学重点实验室,上海201203
基 金:国家科技支撑计划基金资助项目(2012BAH13F02);上海市科委基金资助项目(12511502403;12511509602)
年 份:2015
卷 号:41
期 号:12
起止页码:54-57
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CAS、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊
摘 要:由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。
关 键 词:SimHash算法 共享最近邻 迭代 特征选择 短文本 去重
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...