期刊文章详细信息

基于字频分布的中文网页编码识别算法
Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

文献类型：期刊文章

作　　者：侯整风[1] 张浩[1] 张娜[2]

机构地区：[1]合肥工业大学计算机与信息学院,合肥230009 [2]安徽移动淮南分公司,安徽淮南232001

出　　处：《计算机工程》

基　　金：教育部广东省产学研基金资助项目(2009B090200049)

年　　份：2014

卷　　号：40

期　　号：12

起止页码：199-204

语　　种：中文

收录情况：AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊

摘　　要：编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。

关键词：中文编码网页过滤高频字符模式匹配有限状态自动机

分类号：TP18]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于字频分布的中文网页编码识别算法
Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于字频分布的中文网页编码识别算法 Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于字频分布的中文网页编码识别算法
Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution