登录    注册    忘记密码

期刊文章详细信息

视觉语言多模态预训练综述    

Comprehensive review of visual-language-oriented multimodal pre-training methods

  

文献类型:期刊文章

作  者:张浩宇[1] 王天保[1] 李孟择[1] 赵洲[1] 浦世亮[2] 吴飞[1]

Zhang Haoyu;Wang Tianbao;Li Mengze;Zhao Zhou;Pu Shiliang;Wu Fei(College of Computer Science and Technology,Zhejiang University,Hangzhou 310013,China;Hangzhou Hikvision Digital Technology Co.,Ltd.,Hangzhou 310051,China)

机构地区:[1]浙江大学计算机与科学技术学院,杭州310013 [2]杭州海康威视数字技术股份有限公司,杭州310051

出  处:《中国图象图形学报》

基  金:国家重点研发计划资助(2020YFC0832500);浙江省科技计划项目(2022C01044)。

年  份:2022

卷  号:27

期  号:9

起止页码:2652-2682

语  种:中文

收录情况:BDHX、BDHX2020、CSCD、CSCD2021_2022、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。

关 键 词:多模态机器学习  视觉语言多模态  预训练  自监督学习  图像文本预训练  视频文本预训练  

分 类 号:TP37]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心