登录    注册    忘记密码

期刊文章详细信息

基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法  ( EI收录)  

Transformer encoder-based multilevel representations with fusion feature input for speech emotion recognition

  

文献类型:期刊文章

作  者:贺正然[1] 沈起帆[1] 吴佳欣[2] 徐梦瑶[3] 赵力[1]

He Zhengran;Shen Qifan;Wu Jiaxin;Xu Mengyao;Zhao Li(School of Information Science and Engineering,Southeast University,Nanjing 210096,China;School of Electronic Science and Engineering,Southeast University,Nanjing 210096,China;School of Computer Science and Software Engineering,University of Stirling,Stirling FK94LA,UK)

机构地区:[1]东南大学信息科学与工程学院,南京210096 [2]东南大学微电子学院,南京210096 [3]School of Computer Science and Software Engineering,University of Stirling,Stirling FK94LA,UK

出  处:《Journal of Southeast University(English Edition)》

基  金:The Key Research and Development Program of Jiangsu Province(No.BE2022059-3).

年  份:2023

卷  号:39

期  号:1

起止页码:68-73

语  种:中文

收录情况:CAS、EI、IC、JST、MR、SCOPUS、ZMATH、普通刊

摘  要:为了提高语音情感识别的准确度,探讨了将Transformer应用于语音情感识别的可能性.将对数梅尔尺度谱图及其一阶差分特征相融合作为输入,使用Transformer来提取分层语音表示,分析注意头个数和Transformer编码器层数的变化对识别精度的影响.结果表明,在ABC、CASIA、DES、EMODB和IEMOCAP语音情感数据库上,相比以MFCC为特征的Transformer,所提模型的精度分别提高了13.98%、8.14%、24.34%、8.16%和20.9%.该模型表现优于递归神经网络(RNN)、卷积神经网络(CNN)、Transformer等其他模型.

关 键 词:语音情感识别 TRANSFORMER 多头注意力机制  融合特征  

分 类 号:TP391.42]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心