会议论文详细信息
文献类型:会议
作者单位:北京大学 深圳研究生院 互联网信息工程研发中心,广东 深圳,518055 深圳大学城 网络信息中心,广东 深圳,518055
会议文献:中国教育和科研计算机网CERNET第十七届学术年会论文集
会议名称:中国教育和科研计算机网CERNET第十七届学术年会
会议日期:20101027
会议地点:长沙
主办单位:中国教育和科研计算机网
出版日期:20101027
语 种:中文
摘 要:针对天网FTP搜索引擎搜集系统存在全量搜集周期过长导致检索误差大、效率低的不足,基于真实实验数据分析和总结FTP站点分布和变化特征,提出一种高效的FTP站点RANK模型以及相应的增量搜集策略;设计并实现增量搜集模型和站点的更新度预测算法。同时,针对模型和算法建立测试集和定义评测标准,对增量搜集模型不同参数组合的运行效果进行实验评测,最终得出一种适合FTP增量搜集系统的最优扫描策略:基于站点RANK及上次变化历史的更新度预测算法组合能够以较低成本抓取每天变化的主要数据,并很好地缩短索引更新周期,取得较好的增量搜集效果。目前,本设计系统已部署在深圳大学城网络中心的FTP搜索引擎上,并取得了很好的运行效果。
关 键 词:FTP搜索引擎 站点分布 增量搜集 系统构架
分 类 号:TP393.09] TP391.3[计算机类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...