登录    注册    忘记密码

期刊文章详细信息

基于字频分布的中文网页编码识别算法    

Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

  

文献类型:期刊文章

作  者:侯整风[1] 张浩[1] 张娜[2]

机构地区:[1]合肥工业大学计算机与信息学院,合肥230009 [2]安徽移动淮南分公司,安徽淮南232001

出  处:《计算机工程》

基  金:教育部广东省产学研基金资助项目(2009B090200049)

年  份:2014

卷  号:40

期  号:12

起止页码:199-204

语  种:中文

收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊

摘  要:编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。

关 键 词:中文编码 网页过滤 高频字符  模式匹配  有限状态自动机

分 类 号:TP18]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心