登录    注册    忘记密码

会议论文详细信息

基于链接上下文的分类器主题爬行技术(英文)       

文献类型:会议

作  者:彭涛 左万利 赫枫龄

作者单位:吉林大学计算机科学与技术学院教育部符号计算与知识工程重点实验室

基  金:国家自然科学基金项目(60373099);教育部“符号计算与知识工程”重点实验室资助项目

会议文献:第二十三届中国数据库学术会议论文集(技术报告篇)

会议名称:第二十三届中国数据库学术会议

会议日期:20061110

会议地点:中国广东广州

主办单位:中国计算机学会数据库专业委员会

出版单位:《计算机科学》杂志社

出版日期:20061110

学会名称:中国计算机学会数据库专业委员会

语  种:中文

摘  要:There is an intuition that the text surrounding a link or the link context on the HMTL page is a good summary of the target page.This paper presents a focused Web crawling technique based on link-contexts guided by SVM classifier with uneven margins.This work utilizes the beneficial link context information about the seed URLs before actual crawling and collects specific-domain resources beforehand to steer the focused Web crawling.Experimental results show obviously that this approach outperforms Best-First and Breath-First algorithm both in harvest rate and efficiency.

关 键 词:Link-context  Focused Web crawling  SVM classifier  

分 类 号:TP391.3]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心