登录    注册    忘记密码

期刊文章详细信息

基于指令级并行的倒排索引压缩算法  ( EI收录)  

SIMD-Based Inverted Index Compression Algorithms

  

文献类型:期刊文章

作  者:闫宏飞[1] 张旭东[1] 单栋栋[2] 毛先领[3] 赵鑫[1]

机构地区:[1]北京大学网络与信息系统研究所,北京100871 [2]淘宝(中国)软件有限公司,杭州312000 [3]北京理工大学,北京100081

出  处:《计算机研究与发展》

基  金:国家"九七三"重点基础研究发展计划基金项目(2014CB340400);国家自然科学基金项目(61272340);江苏未来网络创新研究院项目-云服务数字资源搜索(BY2013095-4-02)

年  份:2015

卷  号:52

期  号:5

起止页码:995-1004

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD2015_2016、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能.

关 键 词:单指令多数据流  倒排索引 压缩  整数编码 信息检索

分 类 号:TP301.6]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心