期刊文章详细信息
文献类型:期刊文章
YE Xuemei;MAO Xuemin;XIA Jinchun;WANG Bo(School of Management,Hefei University of Technology,Hefei 230009,China;Key Laboratory of Process Optimization and Intelligent Decision-Making(MoE),Hefei University of Technology,Hefei 230009,China)
机构地区:[1]合肥工业大学管理学院,合肥230009 [2]合肥工业大学过程优化与智能决策教育部重点实验室,合肥230009
基 金:安徽省年度重点科研项目计划(No.JZ2016AKKG0825);国家自然科学基金创新群体项目(No.71521001)
年 份:2019
卷 号:55
期 号:2
起止页码:104-109
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。
关 键 词:新词 词频-逆文档频率(TF-IDF) 向量空间模型 文本分类
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...