登录    注册    忘记密码

期刊文章详细信息

维吾尔文Bigram文本特征提取    

Bigram feature extraction for Uyghur text

  

文献类型:期刊文章

作  者:阿力木江.艾沙[1,2] 库尔班.吾布力[3,2] 吐尔根.依布拉音[3,2]

机构地区:[1]新疆大学网络与信息技术中心,乌鲁木齐830046 [2]新疆多语种信息技术重点实验室,乌鲁木齐830046 [3]新疆大学信息科学与工程学院,乌鲁木齐830046

出  处:《计算机工程与应用》

基  金:国家自然科学基金(No.61363064;No.61163028)

年  份:2015

卷  号:51

期  号:3

起止页码:216-221

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘  要:文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。

关 键 词:Bigram文本特征  χ2统计量  互信息 维吾尔语

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心