期刊文章详细信息
文献类型:期刊文章
机构地区:[1]山东大学网络中心,山东济南250100 [2]山东大学计算机科学与技术学院,山东济南250061
基 金:国家科技支撑计划子课题资助项目(2006BAH02A29);山东省博士基金资助项目(2006BS01016)
年 份:2007
卷 号:42
期 号:9
起止页码:62-66
语 种:中文
收录情况:BDHX、BDHX2004、CAS、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、JST、MR、PROQUEST、RCCSE、RSC、ZGKJHX、ZMATH、核心刊
摘 要:Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.
关 键 词:Shark-Search算法 主题爬取 页面分块 相关性计算
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...