期刊文章详细信息
基于字频分布的中文网页编码识别算法
Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution
文献类型:期刊文章
机构地区:[1]合肥工业大学计算机与信息学院,合肥230009 [2]安徽移动淮南分公司,安徽淮南232001
基 金:教育部广东省产学研基金资助项目(2009B090200049)
年 份:2014
卷 号:40
期 号:12
起止页码:199-204
语 种:中文
收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊
摘 要:编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。
关 键 词:中文编码 网页过滤 高频字符 模式匹配 有限状态自动机
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...