登录    注册    忘记密码

期刊文章详细信息

融合词频特性及邻接变化数的微博新词识别    

Weibo newword recognition combining frequency characteristic and accessor variety

  

文献类型:期刊文章

作  者:周超[1] 严馨[1] 余正涛[1] 洪旭东[1] 线岩团[1]

机构地区:[1]昆明理工大学信息工程与自动化学院计算机系、云南省计算机技术应用重点实验室,云南昆明650500

出  处:《山东大学学报(理学版)》

基  金:国家自然科学基金资助项目(61462055,61462054,61175068,61363044)

年  份:2015

卷  号:50

期  号:3

起止页码:6-10

语  种:中文

收录情况:BDHX、BDHX2014、CAS、CSA-PROQEUST、CSCD、CSCD2015_2016、IC、JST、MR、PROQUEST、RCCSE、RSC、ZGKJHX、ZMATH、核心刊

摘  要:大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。

关 键 词:邻接变化数  微博新词  字串频率统计  成词规则  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心