期刊文章详细信息
基于维基百科和网页相似度分析的主题爬行策略
Topic crawling strategies based on Wikipedia and analysis of web-page similarity
文献类型:期刊文章
机构地区:[1]中国人民解放军第三二三医院网络中心 [2]中国人民解放军68303部队
年 份:2014
卷 号:37
期 号:20
起止页码:35-37
语 种:中文
收录情况:IC、RCCSE、ZGKJHX、普通刊
摘 要:针对当前常用爬虫爬行策略的不足,提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理,结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明,该爬虫搜索结果与主题相关度明显高于传统爬虫,爬虫爬全率有一定提高。该主题爬虫主题描述方法和爬行策略有一定的推广价值,尤其在转基因生物领域中,该爬虫中有一定的创新性。
关 键 词:维基百科 文本相关性 链接分析 相似度计算
分 类 号:TN911-34] TP391.4]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...