登录    注册    忘记密码

期刊文章详细信息

藏文停用词选取与自动处理方法研究    

Research on Tibetan Stop Words Selection and Automatic Processing Method

  

文献类型:期刊文章

作  者:珠杰[1,2] 李天瑞[1]

机构地区:[1]西南交通大学信息科学与技术学院,四川成都610031 [2]西藏大学工学院计算机科学系,西藏拉萨850000

出  处:《中文信息学报》

基  金:国家自然基金(61262058;60763010);CCF中文信息技术开放基金项目(CCF2012-02-01);藏文信息技术教育部"长江学者与创新团队发展计划"(IRT0975)

年  份:2015

卷  号:29

期  号:2

起止页码:125-132

语  种:中文

收录情况:BDHX、BDHX2014、CSCD、CSCD2015_2016、JST、RCCSE、ZGKJHX、核心刊

摘  要:停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。

关 键 词:藏文停用词  词频统计 文档频数  熵  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心