登录    注册    忘记密码

期刊文章详细信息

Transformer在语音识别任务中的研究现状与展望    

Research Status and Prospect of Transformer in Speech Recognition

  

文献类型:期刊文章

作  者:张晓旭[1] 马志强[1,2] 刘志强[1] 朱方圆[1] 王春喻[1]

ZHANG Xiaoxu;MA Zhiqiang;LIU Zhiqiang;ZHU Fangyuan;WANG Chunyu(College of Data Science and Application,Inner Mongolia University of Technology,Hohhot 010080,China;Inner Mongolia Autonomous Region Engineering&Technology Research Centre of Big Data Based Software Service,Hohhot 010080,China)

机构地区:[1]内蒙古工业大学数据科学与应用学院,呼和浩特010080 [2]内蒙古自治区基于大数据的软件服务工程技术研究中心,呼和浩特010080

出  处:《计算机科学与探索》

基  金:国家自然科学基金(61762070,61862048);内蒙古自然科学基金(2019MS06004);内蒙古自治区科技重大专项(2019ZD015);内蒙古自治区关键技术攻关计划项目(2019GG273);内蒙古自治区科技成果转化专项资金项目(2020CG0073)。

年  份:2021

卷  号:15

期  号:9

起止页码:1578-1594

语  种:中文

收录情况:BDHX、BDHX2020、CSCD、CSCD2021_2022、IC、JST、ZGKJHX、核心刊

摘  要:Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点。Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习。对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本。过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题。因此,探讨Transformer在语音识别任务中存在的问题是非常有必要的。首先介绍Transformer的模型结构,并且从输入语音序列、深层模型结构和模型推理过程三方面对语音识别任务面临的问题进行分析;其次对现阶段解决语音识别中Transformer模型存在输入语音序列、深层模型结构和模型推理过程的问题进行方法总结和简要概述;最后对Transformer在语音识别任务中的应用方向进行总结和展望。

关 键 词:TRANSFORMER 深度学习  端到端 语音识别

分 类 号:TP18] TN912.34]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心