登录    注册    忘记密码

期刊文章详细信息

基于分块的网页正文信息提取算法研究    

  

文献类型:期刊文章

作  者:黄文蓓[1] 杨静[1] 顾君忠[1]

机构地区:[1]华东师范大学计算机科学技术系,上海200062

出  处:《计算机应用》

基  金:上海市科学技术委员会科技攻关项目(055115001)

年  份:2007

卷  号:27

期  号:B06

起止页码:24-26

语  种:中文

收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。

关 键 词:Web网页正文提取  内容块  标签树  噪音  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心