期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中南大学软件学院,长沙410075
基 金:国家自然科学基金资助项目(61379057;61309001;61379110;61103202;61301136);国家教育部博士点基金优先发展领域课题(20120162130008)
年 份:2016
卷 号:33
期 号:11
起止页码:3374-3377
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊
摘 要:传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ~2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。
关 键 词:文本分类 KNN 聚类化 训练集
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...