登录    注册    忘记密码

期刊文章详细信息

一种采用聚类技术改进的KNN文本分类方法  ( EI收录)  

An Improved KNN Text Categorization Algorithm by Adopting Cluster Technology

  

文献类型:期刊文章

作  者:张孝飞[1] 黄河燕[1]

机构地区:[1]中国科学院计算机语言信息工程研究中心,北京100097

出  处:《模式识别与人工智能》

基  金:国家自然科学基金项目(No.60672149);国家863计划项目(No.2006AA010109)资助

年  份:2009

卷  号:22

期  号:6

起止页码:936-940

语  种:中文

收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、EI(收录号:20100512678360)、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.

关 键 词:k-最近邻(KNN)  文本分类 文本聚类 聚类中心 自然语言处理  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心