期刊文章详细信息

基于分块的网页正文信息提取算法研究

文献类型：期刊文章

作　　者：黄文蓓[1] 杨静[1] 顾君忠[1]

机构地区：[1]华东师范大学计算机科学技术系,上海200062

出　　处：《计算机应用》

基　　金：上海市科学技术委员会科技攻关项目(055115001)

年　　份：2007

卷　　号：27

期　　号：B06

起止页码：24-26

语　　种：中文

收录情况：AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘　　要：提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。

关键词：Web网页正文提取内容块标签树噪音

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于分块的网页正文信息提取算法研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：