期刊文章详细信息
文献类型:期刊文章
机构地区:[1]新疆大学网络与信息技术中心,乌鲁木齐830046 [2]新疆多语种信息技术重点实验室,乌鲁木齐830046 [3]新疆大学信息科学与工程学院,乌鲁木齐830046
基 金:国家自然科学基金(No.61363064;No.61163028)
年 份:2015
卷 号:51
期 号:3
起止页码:216-221
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。
关 键 词:Bigram文本特征 χ2统计量 互信息 维吾尔语
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...