会议论文详细信息
文献类型:会议
作者单位:吉林大学计算机科学与技术学院,长春,130012 教育部符号计算与知识工程重点实验室长春工程学院软件学院,长春,130012
会议文献:第六届全国信息检索学术会议论文集
会议名称:第六届全国信息检索学术会议
会议日期:2010年8月12日
会议地点:黑龙江镜泊湖
主办单位:中国中文信息学会
语 种:中文
摘 要:DEEP WEB入口发现是DEEP WEB数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域DEEP WEB入口表 单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域DEEP WEB数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的DEEP WEB入口发现方法是可行的。
关 键 词:本体 主题爬行 决策树 DEEP WEB
分 类 号:TP3[计算机类] ] TP1
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...