登录    注册    忘记密码

期刊文章详细信息

文本分类特征权重改进算法    

Improved Feature Weighting Algorithm for Text Categorization

  

文献类型:期刊文章

作  者:台德艺[1] 王俊[1]

机构地区:[1]合肥学院机器视觉与智能控制技术重点实验室,合肥230601

出  处:《计算机工程》

基  金:安徽省高校省级自然科学基金资助项目(KJ2008B120)

年  份:2010

卷  号:36

期  号:9

起止页码:197-199

语  种:中文

收录情况:AJ、BDHX、BDHX2008、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊

摘  要:TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。

关 键 词:向量空间模型 文本分类 特征权重  特征分布  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心