登录    注册    忘记密码

期刊文章详细信息

基于word2vec和LSTM的饮食健康文本分类研究  ( EI收录)  

Diet Health Text Classification Based on word2vec and LSTM

  

文献类型:期刊文章

作  者:赵明[1] 杜会芳[1] 董翠翠[1] 陈长松[2]

ZHAO Ming DU Huifang DONG Cuicui CHEN Changsong(College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China The Third Research Institute, Ministry of Public Security, Shanghai 200031 , China)

机构地区:[1]中国农业大学信息与电气工程学院,北京100083 [2]公安部第三研究所,上海200031

出  处:《农业机械学报》

基  金:信息网络安全公安部重点实验室开放课题项目(61503386)

年  份:2017

卷  号:48

期  号:10

起止页码:202-208

语  种:中文

收录情况:BDHX、BDHX2014、CAB、CAS、CSCD、CSCD2017_2018、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。

关 键 词:文本分类 word2vec  词向量  长短期记忆网络  K-means++  

分 类 号:TP182]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心