期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京大学网络与信息系统研究所,北京100871 [2]哈尔滨医科大学附属第一医院信息中心,哈尔滨150001
基 金:国家自然科学基金资助项目(61272340;61073082);人人游戏基金资助项目(QXWJ-YX-201206017)
年 份:2014
卷 号:40
期 号:2
起止页码:71-76
语 种:中文
收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊
摘 要:在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。
关 键 词:倒排索引 索引压缩 64位体系结构 搜索引擎 信息检索
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...