期刊文章详细信息
多模式汉语连续语音识别中视觉特征的提取和应用
To Extract and Apply Visual Features in Mandarin Multimodal Continuous Speech Recognition
文献类型:期刊文章
机构地区:[1]清华大学电子工程系网络与人机语音通信研究所,北京100084
基 金:国家 8 6 3计划资助项目 (2 0 0 1AA1 1 4 0 71 )
年 份:2004
卷 号:18
期 号:4
起止页码:79-84
语 种:中文
收录情况:BDHX、BDHX2000、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:本文对在汉语多模式汉语语音识别系统中利用视觉特征进行了研究 ,给出了基于多流隐马尔科夫模型 (Multi streamHMM ,MSHMM)的听视觉融合方案 ,并对有关视觉特征的两项关键技术 :嘴唇定位和视觉特征提取进行了详细讨论。首先 ,我们研究了基于模板匹配的嘴唇跟踪方法 ;然后研究了基于线性变换的低级视觉特征 ,并与基于动态形状模型的特征作了比较 ;实验结果表明 ,引入视觉信息后无噪环境下语音识别声学层首选错误率相对下降 36 0 9% 。
关 键 词:计算机应用 中文信息处理 多模式 听一视觉融合 视觉特征提取 鲁棒性
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...