期刊文章详细信息
一种采用聚类技术改进的KNN文本分类方法 ( EI收录)
An Improved KNN Text Categorization Algorithm by Adopting Cluster Technology
文献类型:期刊文章
机构地区:[1]中国科学院计算机语言信息工程研究中心,北京100097
基 金:国家自然科学基金项目(No.60672149);国家863计划项目(No.2006AA010109)资助
年 份:2009
卷 号:22
期 号:6
起止页码:936-940
语 种:中文
收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、EI(收录号:20100512678360)、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.
关 键 词:k-最近邻(KNN) 文本分类 文本聚类 聚类中心 自然语言处理
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...