期刊文章详细信息

基于TF-IDF和余弦相似度的文本分类方法
Text Classification Method Based on TF-IDF and Cosine Similarity

文献类型：期刊文章

作　　者：武永亮[1,2] 赵书良[1,2] 李长镜[1,2] 魏娜娣[3] 王子晏[4]

机构地区：[1]河北师范大学数学与信息科学学院,河北石家庄050024 [2]河北省计算数学与应用重点实验室,河北石家庄050024 [3]河北师范大学汇华学院,河北石家庄050091 [4]中国科学技术大学计算机科学与技术学院,安徽合肥230022

出　　处：《中文信息学报》

基　　金：国家自然科学基金(71271067);国家社科基金重大项目(13&ZD091);河北省高等学校科学技术研究项目(QN2014196);河北省科技计划项目(15210403D)

年　　份：2017

卷　　号：31

期　　号：5

起止页码：138-145

语　　种：中文

收录情况：BDHX、BDHX2014、CSCD、CSCD2017_2018、JST、RCCSE、ZGKJHX、核心刊

摘　　要：文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。

关键词：文本分类大数据 TF-IDF 余弦相似度类别关键词

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于TF-IDF和余弦相似度的文本分类方法
Text Classification Method Based on TF-IDF and Cosine Similarity

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于TF-IDF和余弦相似度的文本分类方法 Text Classification Method Based on TF-IDF and Cosine Similarity

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于TF-IDF和余弦相似度的文本分类方法
Text Classification Method Based on TF-IDF and Cosine Similarity