登录    注册    忘记密码

期刊文章详细信息

文本分类TF-IDF算法的改进研究    

Improved Approach to TF-IDF Algorithm in Text Classification

  

文献类型:期刊文章

作  者:叶雪梅[1,2] 毛雪岷[1,2] 夏锦春[1,2] 王波[1,2]

YE Xuemei;MAO Xuemin;XIA Jinchun;WANG Bo(School of Management,Hefei University of Technology,Hefei 230009,China;Key Laboratory of Process Optimization and Intelligent Decision-Making(MoE),Hefei University of Technology,Hefei 230009,China)

机构地区:[1]合肥工业大学管理学院,合肥230009 [2]合肥工业大学过程优化与智能决策教育部重点实验室,合肥230009

出  处:《计算机工程与应用》

基  金:安徽省年度重点科研项目计划(No.JZ2016AKKG0825);国家自然科学基金创新群体项目(No.71521001)

年  份:2019

卷  号:55

期  号:2

起止页码:104-109

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘  要:中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。

关 键 词:新词 词频-逆文档频率(TF-IDF)  向量空间模型 文本分类

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心