登录    注册    忘记密码

期刊文章详细信息

Nutch中庖丁解牛中文分词的实现与评测    

Realization and Evaluation of Paodingjieniu Chinese Segmentation in Nutch

  

文献类型:期刊文章

作  者:孙殿哲[1] 魏海平[2] 陈岩[1]

机构地区:[1]辽宁石油化工大学研究生学院,辽宁抚顺113001 [2]辽宁石油化工大学计算机与通讯工程学院,辽宁抚顺113001

出  处:《计算机与现代化》

年  份:2010

期  号:6

起止页码:187-190

语  种:中文

收录情况:IC、ZGKJHX、普通刊

摘  要:中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。

关 键 词:中文分词 评分机制 庖丁解牛

分 类 号:TP311.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心