期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081
基 金:国家973课题(2013CB329605)的资助
年 份:2016
卷 号:2
期 号:6
起止页码:8-16
语 种:中文
收录情况:NSSD、ZGKJHX、普通刊
摘 要:文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(KNearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。
关 键 词:文本分类 特征选择 信息增益 最近邻分类算法
分 类 号:TP391] TP181[计算机类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...