登录    注册    忘记密码

期刊文章详细信息

基于TF-IDF和余弦相似度的文本分类方法    

Text Classification Method Based on TF-IDF and Cosine Similarity

  

文献类型:期刊文章

作  者:武永亮[1,2] 赵书良[1,2] 李长镜[1,2] 魏娜娣[3] 王子晏[4]

机构地区:[1]河北师范大学数学与信息科学学院,河北石家庄050024 [2]河北省计算数学与应用重点实验室,河北石家庄050024 [3]河北师范大学汇华学院,河北石家庄050091 [4]中国科学技术大学计算机科学与技术学院,安徽合肥230022

出  处:《中文信息学报》

基  金:国家自然科学基金(71271067);国家社科基金重大项目(13&ZD091);河北省高等学校科学技术研究项目(QN2014196);河北省科技计划项目(15210403D)

年  份:2017

卷  号:31

期  号:5

起止页码:138-145

语  种:中文

收录情况:BDHX、BDHX2014、CSCD、CSCD2017_2018、JST、RCCSE、ZGKJHX、核心刊

摘  要:文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。

关 键 词:文本分类 大数据 TF-IDF 余弦相似度 类别关键词  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心