期刊文章详细信息
基于网页格式信息量的博客文章和评论抽取模型 ( EI收录)
Extraction Model Based on Web Format Information Quantity in Blog Post and Comment Extraction
文献类型:期刊文章
机构地区:[1]中国科学院计算技术研究所网络科学与技术研究部,北京100190 [2]中国科学院研究生院,北京100049 [3]厦门大学智能科学系,福建厦门361005
基 金:国家重点基础研究发展计划(973)Nos.2004CB318109,2007CB311100;国家高技术研究发展计划(863)No.2007AA01Z441~~
年 份:2009
卷 号:20
期 号:5
起止页码:1282-1291
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI(收录号:20092212102163)、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率.
关 键 词:博客信息抽取 最小正文子树 有效信息率 网页格式信息 视觉信息 切分位置信息量
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...