登录    注册    忘记密码

期刊文章详细信息

维吾尔文网页正文抽取系统的研究与实现    

Research and implementation of Uyghur web content extraction system

  

文献类型:期刊文章

作  者:蔡李[1,2] 单艳[1,2] 薛化建[1] 苏国平[3]

机构地区:[1]中国科学院新疆理化技术研究所,新疆乌鲁木齐830011 [2]中国科学院研究生院,北京100049 [3]新疆维吾尔自治区经济和信息化委员会,新疆乌鲁木齐830011

出  处:《计算机工程与设计》

基  金:中国科学院"西部行动计划高新技术基金项目"(KGCX2-YW-507)

年  份:2012

卷  号:33

期  号:2

起止页码:551-555

语  种:中文

收录情况:AJ、BDHX、BDHX2011、CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘  要:从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。

关 键 词:维吾尔文 网页正文抽取  语料库 文本句长特征  WEB文本挖掘

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心