期刊文章详细信息
文献类型:期刊文章
机构地区:[1]新疆师范大学计算机科学技术学院,新疆乌鲁木齐830054
基 金:新疆师范大学研究生科技创新活动基金(20091208)
年 份:2011
卷 号:28
期 号:3
起止页码:195-197
语 种:中文
收录情况:CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、JST、ZGKJHX、普通刊
摘 要:正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。
关 键 词:中文分词 分词词典 正向最大匹配算法
分 类 号:TP391.3]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...