期刊文章详细信息

模板化网页主题信息的提取方法 ( EI收录)
Topic information extraction from template web pages

文献类型：期刊文章

作　　者：欧健文[1] 董守斌[1] 蔡斌[1]

机构地区：[1]华南理工大学广东省计算机网络重点实验室,广州510640

出　　处：《清华大学学报（自然科学版）》

基　　金：中国教育科研网格计划ChinaGrid资助项目(CG2003-CG005)

年　　份：2005

卷　　号：45

期　　号：S1

起止页码：1743-1747

语　　种：中文

收录情况：AJ、AMR、BDHX、BDHX2004、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘　　要：为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取。对国内2 588个新闻网页进行了检测。实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%。将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高。

关键词：万维网网页信息提取模板搜索引擎

分类号：TP391.1]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

模板化网页主题信息的提取方法 ( EI收录)
Topic information extraction from template web pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

模板化网页主题信息的提取方法 ( EI收录) Topic information extraction from template web pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

模板化网页主题信息的提取方法 ( EI收录)
Topic information extraction from template web pages