期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京大学网络与信息系统研究所,北京100871 [2]淘宝(中国)软件有限公司,杭州312000 [3]北京理工大学,北京100081
基 金:国家"九七三"重点基础研究发展计划基金项目(2014CB340400);国家自然科学基金项目(61272340);江苏未来网络创新研究院项目-云服务数字资源搜索(BY2013095-4-02)
年 份:2015
卷 号:52
期 号:5
起止页码:995-1004
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD2015_2016、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能.
关 键 词:单指令多数据流 倒排索引 压缩 整数编码 信息检索
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...