登录    注册    忘记密码

期刊文章详细信息

基于统计极差和变异系数的特征抽取研究    

Research on Feature Extraction Based on Statistical Range and Coefficient of Variation

  

文献类型:期刊文章

作  者:甄志龙[1] 张居晓[2]

Zhen Zhilong;Zhang Juxiao(School of Computer Science,Tonghua Normal University,Tonghua Jilin 134002,China;School of Mathematics and Information Science,Nanjing Normal University of Special Education,Nanjing 210038,China)

机构地区:[1]通化师范学院计算机学院,吉林通化134002 [2]南京特殊教育师范学院数学与信息科学学院,南京210038

出  处:《统计与决策》

基  金:吉林省教育厅科学研究项目(JJKH20210533KJ);江苏省高等学校自然科学研究重大项目(19KJA310002);江苏省高等学校自然科学研究项目(17KJD520006)。

年  份:2022

期  号:23

起止页码:43-47

语  种:中文

收录情况:BDHX、BDHX2020、CSSCI、CSSCI2021_2022、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:经典的文本频数DF从全局角度统计某个单词特征出现的文本数,而忽略了局部信息。文章针对传统DF文本特征抽取方法存在的不足,对DF方法进行了改进和优化,通过考虑单词特征的局部信息和全局信息,利用类别信息从局部统计单词在各个类上的分布,并结合分散性和变异性利用极差、变异系数和变形KL散度三种方式从全局角度度量单词重要性,提出了一种基于统计极差和变异系数的文本特征抽取方法。在英文文本数据集路透社Reuters-21578财经新闻和20Newsgroups新闻组以及中文文本数据集搜狗新闻语料库中进行了实验和测试,结果表明,该方法能够提升文本特征抽取的效果,与其他方法相比在多类别平衡文本数据集上更能显示其优越性。

关 键 词:极差  变异系数  文本频数  特征抽取

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心