期刊文章详细信息

一种基于模板的快速网页文本自动抽取算法
Fast Web automatic text extraction algorithm based on template

文献类型：期刊文章

作　　者：陈治昂[1] 周知予[2] 李大学[1]

机构地区：[1]重庆邮电大学计算机学院,重庆400065 [2]贝尔实验室基础科学研究院(中国),北京100080

出　　处：《计算机应用研究》

基　　金：重庆市科委科研项目(2006BB3041);重庆市教委科研项目(KJ060518)

年　　份：2009

卷　　号：26

期　　号：7

起止页码：2646-2649

语　　种：中文

收录情况：AJ、BDHX、BDHX2008、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊

摘　　要：针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。

关键词：噪声非结构化文本抽取模板阈值

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

一种基于模板的快速网页文本自动抽取算法
Fast Web automatic text extraction algorithm based on template

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

一种基于模板的快速网页文本自动抽取算法 Fast Web automatic text extraction algorithm based on template

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

一种基于模板的快速网页文本自动抽取算法
Fast Web automatic text extraction algorithm based on template