登录    注册    忘记密码

期刊文章详细信息

基于统计与正文特征的中文网页正文抽取研究    

Research on Content Extraction from Chinese Web Page Based on Statistic and Content-Features

  

文献类型:期刊文章

作  者:周佳颖[1,2] 朱珍民[1] 高晓芳[1,3]

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]湘潭大学信息工程学院,湖南湘潭411105 [3]首都师范大学计算机科学联合研究院,北京100037

出  处:《中文信息学报》

基  金:国家"十一五"863计划资助项目(2006AA01Z112)

年  份:2009

卷  号:23

期  号:5

起止页码:80-85

语  种:中文

收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊

摘  要:该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。

关 键 词:计算机应用 中文信息处理 正文抽取 单正文体  多正文体  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心