登录    注册    忘记密码

期刊文章详细信息

多模式汉语连续语音识别中视觉特征的提取和应用    

To Extract and Apply Visual Features in Mandarin Multimodal Continuous Speech Recognition

  

文献类型:期刊文章

作  者:刘鹏[1] 王作英[1]

机构地区:[1]清华大学电子工程系网络与人机语音通信研究所,北京100084

出  处:《中文信息学报》

基  金:国家 8 6 3计划资助项目 (2 0 0 1AA1 1 4 0 71 )

年  份:2004

卷  号:18

期  号:4

起止页码:79-84

语  种:中文

收录情况:BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊

摘  要:本文对在汉语多模式汉语语音识别系统中利用视觉特征进行了研究 ,给出了基于多流隐马尔科夫模型 (Multi streamHMM ,MSHMM)的听视觉融合方案 ,并对有关视觉特征的两项关键技术 :嘴唇定位和视觉特征提取进行了详细讨论。首先 ,我们研究了基于模板匹配的嘴唇跟踪方法 ;然后研究了基于线性变换的低级视觉特征 ,并与基于动态形状模型的特征作了比较 ;实验结果表明 ,引入视觉信息后无噪环境下语音识别声学层首选错误率相对下降 36 0 9% 。

关 键 词:计算机应用 中文信息处理 多模式 听一视觉融合  视觉特征提取  鲁棒性

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心