期刊文章详细信息

基于上下文词频词汇量指标的新词发现方法
A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ON CONTEXTUAL WORD FREQUENCY-CONTEXTUAL WORD COUNT

文献类型：期刊文章

作　　者：邢恩军[1,2] 赵富强[2]

Xing Enjun;Zhao Fuqiang(College of Management and Economics, Tianjin University, Tianjin 300072 , China;Department of Information Science and Technology, Tianjin University of Finance and Economics , Tianjin 300222 , China)

机构地区：[1]天津大学管理与经济学部,天津300072 [2]天津财经大学信息科学与技术系,天津300222

出　　处：《计算机应用与软件》

基　　金：国家自然科学基金青年基金项目(61004056);天津自然科学基金资助项目(15JCYBJC16000);天津市哲学社会科学研究规划基金资助项目(TJTJ15-002)

年　　份：2016

卷　　号：33

期　　号：6

起止页码：64-67

语　　种：中文

收录情况：CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、JST、ZGKJHX、普通刊

摘　　要：提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的字符串连接方法,克服了N-gram方法采用固定滑动窗口大小的缺点。实证分析表明该新词发现方法有较高的准确率,通过选取不同的词频词汇量指标值作为阈值,能够在发现更多新词和提高发现新词的准确率方面进行灵活调整,为新词发现提供一种实用的方法。

关键词：新词发现上下文信息熵词频词汇量指标

分类号：TP391.1]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于上下文词频词汇量指标的新词发现方法
A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ON CONTEXTUAL WORD FREQUENCY-CONTEXTUAL WORD COUNT

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于上下文词频词汇量指标的新词发现方法 A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ON CONTEXTUAL WORD FREQUENCY-CONTEXTUAL WORD COUNT

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于上下文词频词汇量指标的新词发现方法
A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ON CONTEXTUAL WORD FREQUENCY-CONTEXTUAL WORD COUNT