期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中科院计算技术研究所数字化实验室,北京100080 [2]富士通研究开发中心有限公司,北京100081 [3]烟台师范学院中文系,山东烟台264025
年 份:2004
卷 号:18
期 号:6
起止页码:1-9
语 种:中文
收录情况:BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
关 键 词:计算机应用 中文信息处理 新词语 自动检测
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...