期刊文章详细信息

维吾尔文网页正文抽取系统的研究与实现
Research and implementation of Uyghur web content extraction system

文献类型：期刊文章

作　　者：蔡李[1,2] 单艳[1,2] 薛化建[1] 苏国平[3]

机构地区：[1]中国科学院新疆理化技术研究所,新疆乌鲁木齐830011 [2]中国科学院研究生院,北京100049 [3]新疆维吾尔自治区经济和信息化委员会,新疆乌鲁木齐830011

出　　处：《计算机工程与设计》

基　　金：中国科学院"西部行动计划高新技术基金项目"(KGCX2-YW-507)

年　　份：2012

卷　　号：33

期　　号：2

起止页码：551-555

语　　种：中文

收录情况：AJ、BDHX、BDHX2011、CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘　　要：从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。

关键词：维吾尔文网页正文抽取语料库文本句长特征 WEB文本挖掘

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

维吾尔文网页正文抽取系统的研究与实现
Research and implementation of Uyghur web content extraction system

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

维吾尔文网页正文抽取系统的研究与实现 Research and implementation of Uyghur web content extraction system

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

维吾尔文网页正文抽取系统的研究与实现
Research and implementation of Uyghur web content extraction system