期刊文章详细信息
文献类型:期刊文章
Ding Yue;Wang Xueming(College of Computer Science&Technology,Guizhou University,Guiyang 550025,China)
机构地区:[1]贵州大学计算机科学与技术学院
基 金:国家自然科学基金资助项目([2011]61163049);贵州省自然科学基金资助项目(黔科合J字[2014]7641)
年 份:2019
卷 号:36
期 号:12
起止页码:3597-3600
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊
摘 要:传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值代入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。
关 键 词:文本分类 朴素贝叶斯 JS散度 词频 文本频率 类别频率
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...