登录    注册    忘记密码

期刊文章详细信息

多模态视觉语言表征学习研究综述  ( EI收录)  

Survey on Multimodal Visual Language Representation Learning

  

文献类型:期刊文章

作  者:杜鹏飞[1,2] 李小勇[1,2] 高雅丽[1,2]

DU Peng-Fei;LI Xiao-Yong;GAO Ya-Li(Key Laboratory of Trustworthy Distributed Computing and Service(Beijing University of Posts and Telecommunications),Ministry of Education,Beijing 100876,China;School of Cyberspace Security,Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区:[1]可信分布式计算与服务教育部重点实验室(北京邮电大学),北京100876 [2]北京邮电大学网络空间安全学院,北京100876

出  处:《软件学报》

基  金:国家自然科学基金(U1836215)。

年  份:2021

卷  号:32

期  号:2

起止页码:327-348

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD2021_2022、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化,然后与文本特征通过一个强大的特征抽取器产生出表征,其中,Transformer作为主要的特征抽取器被应用表征学习的各类任务中.分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.

关 键 词:多模态表征学习  表征学习  多模态机器学习  深度学习  

分 类 号:TP18]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心