会议论文详细信息
文献类型:会议
作者单位:吉林大学计算机科学与技术学院教育部符号计算与知识工程重点实验室
基 金:国家自然科学基金项目(60373099);教育部“符号计算与知识工程”重点实验室资助项目
会议文献:第二十三届中国数据库学术会议论文集(技术报告篇)
会议名称:第二十三届中国数据库学术会议
会议日期:20061110
会议地点:中国广东广州
主办单位:中国计算机学会数据库专业委员会
出版单位:《计算机科学》杂志社
出版日期:20061110
学会名称:中国计算机学会数据库专业委员会
语 种:中文
摘 要:There is an intuition that the text surrounding a link or the link context on the HMTL page is a good summary of the target page.This paper presents a focused Web crawling technique based on link-contexts guided by SVM classifier with uneven margins.This work utilizes the beneficial link context information about the seed URLs before actual crawling and collects specific-domain resources beforehand to steer the focused Web crawling.Experimental results show obviously that this approach outperforms Best-First and Breath-First algorithm both in harvest rate and efficiency.
关 键 词:Link-context Focused Web crawling SVM classifier
分 类 号:TP391.3]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...