期刊文章详细信息
基于Shark-Search和Hits算法的主题爬虫研究
Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm
文献类型:期刊文章
机构地区:[1]海南大学信息科学技术学院,海南海口570228 [2]海南软件职业技术学院,海南琼海571400
基 金:海南省自然科学基金资助项目(609003);海南大学科研项目(hd09xm84)
年 份:2010
卷 号:20
期 号:11
起止页码:76-79
语 种:中文
收录情况:JST、RCCSE、ZGKJHX、普通刊
摘 要:主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。
关 键 词:主题爬虫 爬行策略 垂直搜索引擎
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...