登录    注册    忘记密码

会议论文详细信息

基于多分类器的DEEP WEB入口发现       

文献类型:会议

作者单位:吉林大学计算机科学与技术学院,长春,130012 教育部符号计算与知识工程重点实验室长春工程学院软件学院,长春,130012

会议文献:第六届全国信息检索学术会议论文集

会议名称:第六届全国信息检索学术会议

会议日期:2010年8月12日

会议地点:黑龙江镜泊湖

主办单位:中国中文信息学会

语  种:中文

摘  要:DEEP WEB入口发现是DEEP WEB数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域DEEP WEB入口表 单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域DEEP WEB数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的DEEP WEB入口发现方法是可行的。

关 键 词:本体 主题爬行 决策树 DEEP WEB  

分 类 号:TP3[计算机类] ] TP1

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心