期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中国科学院大学,北京100190 [2]中国科学院计算机网络信息中心,北京100190 [3]北龙中网(北京)科技有限责任公司,北京100190
年 份:2017
卷 号:37
期 号:A01
起止页码:292-294
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSCD、CSCD_E2017_2018、IC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:针对移动营销文本中长度偏短、用词多变、语句残缺等问题,提出了在文本表示过程中采用word2vec进行词项加权语义映射的方法。首先在全语料库中采用word2vec训练词向量,对整体词向量进行聚类操作来汇聚相近语义词语形成语义簇特征空间,在文本向量化过程中,将词语与聚类中心的相似度和词语本身权重结合完成特征权值计算,向量化之后的文本采用欧氏距离计算相似度。将该算法应用于移动营销短文本测试集,通过K近邻(KNN)分类实验表明,该方法在分类性能上比基于词统计特征的方法在各类的F1值有平均6%的提升,能够更有效地衡量移动营销类别短文本的相似度。
关 键 词:移动营销 短文本向量化 相似度计算 word2vec K近邻
分 类 号:TP391.4]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...