登录    注册    忘记密码

会议论文详细信息

基于BLSTM-RNN的语音驱动逼真面部动画合成       

文献类型:会议

作  者:阳珊 樊博 谢磊 王丽娟 宋謌平

作者单位:[1] 西北工业大学计算机学院陕西省语音与图像处理重点实验室 [2] 微软亚洲研究院

基  金:国家自然科学基金项目(61175018)

会议文献:第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集

会议名称:第十三届全国人机语音通讯学术会议(NCMMSC2015)

会议日期:20151025

会议地点:中国天津

主办单位:中国中文信息学会语音信息专业委员会

出版日期:20151000

学会名称:清华信息科学与技术国家实验室(筹)

语  种:中文

摘  要:本文提出了一种基于深度BLSTM(bidirectional long short-term memory)的语音驱动面部动画合成方法。BLSTM是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。本文利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出。本文研究了网络结构、不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验表明,具有BLSTM层的网络效果明显优于前向网络,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBANK和基频、能量组合可以进一步提升动画合成效果。

关 键 词:虚拟说话人  面部动画  双向长短时记忆  递归神经网络 主动外观模型

分 类 号:TP391.41]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心