期刊文章详细信息
文献类型:期刊文章
机构地区:[1]西南交通大学信息科学与技术学院,四川成都610031 [2]西藏大学工学院计算机科学系,西藏拉萨850000
基 金:国家自然基金(61262058;60763010);CCF中文信息技术开放基金项目(CCF2012-02-01);藏文信息技术教育部"长江学者与创新团队发展计划"(IRT0975)
年 份:2015
卷 号:29
期 号:2
起止页码:125-132
语 种:中文
收录情况:BDHX、BDHX2014、CSCD、CSCD2015_2016、JST、RCCSE、ZGKJHX、核心刊
摘 要:停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。
关 键 词:藏文停用词 词频统计 文档频数 熵
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...