期刊文章详细信息
文献类型:期刊文章
机构地区:[1]辽宁石油化工大学研究生学院,辽宁抚顺113001 [2]辽宁石油化工大学计算机与通讯工程学院,辽宁抚顺113001
年 份:2010
期 号:6
起止页码:187-190
语 种:中文
收录情况:IC、ZGKJHX、普通刊
摘 要:中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。
关 键 词:中文分词 评分机制 庖丁解牛
分 类 号:TP311.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...