期刊文章详细信息
文献类型:期刊文章
机构地区:[1]河北师范大学数学与信息科学学院,河北石家庄050024 [2]河北省计算数学与应用重点实验室,河北石家庄050024 [3]河北师范大学汇华学院,河北石家庄050091 [4]中国科学技术大学计算机科学与技术学院,安徽合肥230022
基 金:国家自然科学基金(71271067);国家社科基金重大项目(13&ZD091);河北省高等学校科学技术研究项目(QN2014196);河北省科技计划项目(15210403D)
年 份:2017
卷 号:31
期 号:5
起止页码:138-145
语 种:中文
收录情况:BDHX、BDHX2014、CSCD、CSCD2017_2018、JST、RCCSE、ZGKJHX、核心刊
摘 要:文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。
关 键 词:文本分类 大数据 TF-IDF 余弦相似度 类别关键词
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...