期刊文章详细信息
基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法 ( EI收录)
Transformer encoder-based multilevel representations with fusion feature input for speech emotion recognition
文献类型:期刊文章
He Zhengran;Shen Qifan;Wu Jiaxin;Xu Mengyao;Zhao Li(School of Information Science and Engineering,Southeast University,Nanjing 210096,China;School of Electronic Science and Engineering,Southeast University,Nanjing 210096,China;School of Computer Science and Software Engineering,University of Stirling,Stirling FK94LA,UK)
机构地区:[1]东南大学信息科学与工程学院,南京210096 [2]东南大学微电子学院,南京210096 [3]School of Computer Science and Software Engineering,University of Stirling,Stirling FK94LA,UK
出 处:《Journal of Southeast University(English Edition)》
基 金:The Key Research and Development Program of Jiangsu Province(No.BE2022059-3).
年 份:2023
卷 号:39
期 号:1
起止页码:68-73
语 种:中文
收录情况:CAS、EI、IC、JST、MR、SCOPUS、ZMATH、普通刊
摘 要:为了提高语音情感识别的准确度,探讨了将Transformer应用于语音情感识别的可能性.将对数梅尔尺度谱图及其一阶差分特征相融合作为输入,使用Transformer来提取分层语音表示,分析注意头个数和Transformer编码器层数的变化对识别精度的影响.结果表明,在ABC、CASIA、DES、EMODB和IEMOCAP语音情感数据库上,相比以MFCC为特征的Transformer,所提模型的精度分别提高了13.98%、8.14%、24.34%、8.16%和20.9%.该模型表现优于递归神经网络(RNN)、卷积神经网络(CNN)、Transformer等其他模型.
关 键 词:语音情感识别 TRANSFORMER 多头注意力机制 融合特征
分 类 号:TP391.42]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...