期刊文章详细信息
文献类型:期刊文章
机构地区:[1]重庆大学计算机学院,重庆400044 [2]重庆大学信息与网络管理中心,重庆400044
基 金:重庆市自然科学基金资助项目(cstc2011jjA40023)
年 份:2013
卷 号:33
期 号:8
起止页码:2280-2282
语 种:中文
收录情况:AJ、BDHX、BDHX2011、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用。针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法。该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。
关 键 词:短文本 特征权重 不均衡样本 文本分类
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...