会议论文详细信息
文献类型:会议
作者单位:[1] 西北工业大学计算机学院陕西省语音与图像处理重点实验室 [2] 微软亚洲研究院
基 金:国家自然科学基金项目(61175018)
会议文献:第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集
会议名称:第十三届全国人机语音通讯学术会议(NCMMSC2015)
会议日期:20151025
会议地点:中国天津
主办单位:中国中文信息学会语音信息专业委员会
出版日期:20151000
学会名称:清华信息科学与技术国家实验室(筹)
语 种:中文
摘 要:本文提出了一种基于深度BLSTM(bidirectional long short-term memory)的语音驱动面部动画合成方法。BLSTM是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。本文利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出。本文研究了网络结构、不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验表明,具有BLSTM层的网络效果明显优于前向网络,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBANK和基频、能量组合可以进一步提升动画合成效果。
关 键 词:虚拟说话人 面部动画 双向长短时记忆 递归神经网络 主动外观模型
分 类 号:TP391.41]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...