布灵Get了新技能！让AI像孩子一样学习：第二代文澜多模态预训练模型

布灵 RUC AI Box 2022-07-04

什么是快乐星球？欢迎来到布灵星球！

（睿智犀利的大眼睛之外，是充满无穷想象的世界）

叮叮叮！还记得我们软萌Q弹、可可爱爱的小布灵吗？

听说积极上进的TA又get了新技能！

继《AI心情电台》之后，

布灵带来了TA的《想象世界》

还在为票圈文案配图发愁吗？

还在为文章插图一筹莫展吗？

不妨来问问布灵吧，

看TA又能带来什么惊喜！

布灵脑海中的精美画卷

这一次，布灵致力于解决我们的配图问题，给大家解锁《布灵的想象世界》神技能。当布灵看到一段文案或者是读完一篇长文时，会发挥自己的想象力，然后把脑海中浮现出的画面呈现给大家。是不是听起来就很酷！

布灵大开脑洞时，犹如一幅绘制了整个世界的画卷。对于各种各样奇奇怪怪的文案，它都会从小脑袋瓜里像变魔术一样，拿出五光十色的各种图象，就像这样↓

点击边框调出视频工具条 https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=n3248wqsol8

扫码抢先体验，进入布灵的想象世界吧！

朋友圈的配图神器

一起来瞅瞅布灵都在想些什么。首先和布灵聊聊北京下雨的事情：

同学：北京的雨，伴随着雷鸣，来得那么得突然。

【布灵】：我想到了黑压压的乌云笼罩着整个城市，还有轰隆隆的雷鸣。

同学感慨道，爱情要是也能那么突然就好了

同学：爱情要是也能那么突然就好了

【布灵】：我想到了一辆有轨电车飞驰而过。

同学：你是说我的爱情会说走就走吗？

【布灵】：为什么不是说来就来呢？

再和布灵聊聊5.20情人节：

同学：5.20到了，不买束花吗？

【布灵】：将我脑海中所有美丽的花朵送给你～

同学：小布灵好温柔，送你一句温柔的歌词吧～

同学：温柔懒懒的海风，吹向高高的山峰，温的风山的锋，吹成了山风

【布灵】：我想到了在海边吹风的场景，一定要一起去看一次海呀

约小布灵一起打篮球：

同学：不想学习，想打篮球

【布灵】：我已经开始在脑海中打球了

和小布灵聊鸡汤：

同学：把烂事放下，把琐事放下，做到心无挂碍，自然能心生欢喜。

【布灵】：将温暖的阳光照进你的心房

和小布灵聊生活：

同学：看得我口水都要流下来了

【布灵】：我现在满脑子只有干饭，请叫我干饭灵。

小布灵大开脑洞，配图总会带给我们出乎意料的惊喜。

文章插图信手拈来

除了为短文案配图外，小布灵也可以读懂长文，读到精彩部分时，小布灵也会大开脑洞，为文章插入精美的配图。来让布灵读一下老舍先生的《草原》：

【布灵】：我想到了广阔的草原和清新的空气

【布灵】：我仿佛真的在小山丘下看到了一群马儿！

再让布灵读一下老舍先生的《猫》：

【布灵】：小猫咪是不是在想，镜子里那只和自己很像的喵喵是谁？（还真是古怪咧）

看到这里，热爱技术的你一定好奇这项酷炫应用背后的神奇算法和过硬的技术内核是怎样？接下来我们将为大家揭秘支撑「布灵的想象世界」系统的跨模态深度学习模型。让AI像孩子一样学习：第二代文澜多模态预训练模型

2021年6月1日，北京智源大会的首日，悟道·文澜2.0发布，中国人民大学的文继荣教授、卢志武教授和金琴教授联合做了主题报告《像孩子一样学习：第二代文澜多模态预训练模型》。

悟道·文澜是由北京智源人工智能研究院支持，中国人民大学、中科院计算所和清华大学的研究团队共同承担，在中国人民大学高瓴人工智能学院执行院长文继荣教授的带领下，合作开展的超大规模多模态预训练模型的研究项目，第一代文澜在2021年3月发布，打破之前对图文强相关的假设，用双塔结构和对比学习将弱相关的图像和文字，映射到同一空间，并进行语义对齐，通过3000万通用图文数据对的预训练，获得图文互通的表示。它的性能和易部署的特性已经展示在布灵的第一个技能《AI心情电台》中。

短短两个月的时间，随着Google发布多模态预训练模型，这一领域继续升温，那么，这次第二代文澜具有哪些新的亮点呢？和国际同行发布的OpenAI CLIP和Google ALIGN比，效果怎么样？‍

亿级巨模型文澜BriVL-2诞生

多模态双塔模型BriVL-2架构图

为了进一步增强文澜的泛化性，卢志武老师团队改进了第一代文澜BriVL模型，推出第二代通用多模态预训练模型。

第二代文澜实现了训练数据规模从3000万到6.5亿的飞跃。我们仍然采用图文弱相关假设，6.5亿图文数据来自互联网和移动互联网，不经过图文相关性的数据清洗。在模型上，我们考虑到物体检测的存在会影响模型的效率与鲁棒性，选择使用Multi-Grid Split池化方法来替换检测器，从而显著减少计算代价，并保持模型的细节捕捉能力。同时，我们采用了高效的分布式多模态预训练框架，提出基于DeepSpeed的多模态预训练算法，最大化利用GPU和CPU，并最优地支持跨模态对比学习。我们在MSCOCO公开的400万数据预训练数据集上做了对比实验。其中，在图检索文的任务上，文澜BriVL-2以67.4%的Recall@1，超越OpenAI CLIP的63.2%，和Google ALIGN的63.5%；在文检索图的任务上，文澜BriVL-2以50.3%的Recall@1，超越OpenAI CLIP的49.6%，和Google ALIGN的49.2%。

Unseen/seen	21/0	5/16	8/13	11/10	14/7
Li et al, TGRS‘17	-	58.7	35.4	19.6	15.1
OpenAI CLIP	50.2	72.0	64.7	59.9	57.1
第一代文澜	43.8	72.2	61.2	56.2	51.8
第二代文澜	52.1	74.7	68.2	61.0	59.2

第二代文澜在众多下游任务上都取得了非常惊人的结果，甚至在跨域的UC Merced Land-Use遥感数据集（共21类）上直接使用翻译成中文的文本做零样本分类，对比使用原生态英文信息的OpenAI CLIP和TGRS’17达到了最好的效果。

多语言多模态模型

文澜MLMM首次亮相

我们正处在一个多模态的世界里，声音、文字、图像视频都传递着丰富的语义信息。除了理解多模态信息外，具备多语言的能力更是十分重要的。事实上，无论是不同媒介，还是不同语言，都传达着相同的语义信息。比如小狗的图片，中文“小狗”，或是英文“dog”，都在描述着狗这一生物。基于这样的原理，我们可以让机器学习到通用的知识，从而同时具备理解多模态和多语言信息的能力。

在悟道·文澜2.0的发布中，金琴老师团队也发布了多语言多模态预训练模型MLMM（Multi-Lingual Multi-Model）。在Mult30K多语言检索（en,de,fr,cs四种语言）中，用mean Recall为指标，文澜MLMM以87.3 超越当前国际最佳多语言多模态模型UC2 的80.7%和M3P的75.5%；在MSCOCO多语言图文检索（en,zh,ja三种语言）中，文澜MLMM以90.2%超越UC2的86.8%和M3P的81.5%。

为了实现这样的多模态多语言机器模型，我们让机器像孩子一样从海量丰富的多模态多语言数据中学习通用的语义知识，凭借其远超于人类的强大计算力和记忆力，获得处理多模态多语言信息的能力。我们在已有的英语图文数据集Conceptual Caption的基础上，加上文澜自采的图像和对应中文文本数据，并将所有的文本数据翻译至额外的6种语言。最终我们获得了2.1亿个图文数据对，涉及中、英、日、韩、德、法、捷克语共七种语言，每种语言有约3000万图文训练数据。在这些海量的多模态多语言数据上，我们搭建了一个10亿参数量的多模态多语言预训练模型，通过多个预训练任务让机器学习理解视觉和多种语言的文本。

为了满足不同下游任务对不同多模态特征层次的需求，我们采用了四个预训练任务来分别学习视觉与文本的全局匹配关系和细粒度匹配关系。其中， ITM（Image-Text Matching）任务主要判断图文在全局层次上是否匹配，MLM（Masked language Modeling）任务主要根据图像内容和文本序列的上下文信息预测文本序列中被遮蔽的词。MRC（Masked Region Classification）任务则是判断图像的某个区域的特征对应的对象类别，比如小狗等。MRFR（Masked Region Feature Regression）任务则是根据文本信息和已知的图像信息重构出某个被遮蔽的图像区域的特征。我们使用24层Transformer模型，初始化于多语言预训练模型XLM-RoBERTa large。在训练过程中，我们依次进行不同语言设置下的四种任务的训练，以视觉作为桥梁，有效建立起不同语言之间的关联关系。

53亿参数巨模型竟然可以做到单卡落地

虽然模型变大一个量级，考虑到易部署的需求，我们仍然通过设计，把模型维持在一张显卡能存放的大小，正如前面所看到的，《布灵的想象世界》和中科院计算所团队成员设计的《只言片语∙AI版》才得以轻松落地。

未来，「悟道·文澜」团队还将继续模仿孩子探索世界的方式，做更多大规模多模态预训练模型的研究成果和有趣应用，敬请期待！

第二代文澜团队成员

项目负责人：文继荣

学术带头人：宋睿华

团队主要成员：卢志武、金琴、赵鑫、庞亮、兰艳艳、窦志成

【数据组】刘沛羽、龚政、李军毅

【模型组】BriVL模型：高一钊，霍宇琦，卢浩宇，温静远，杨国兴，宋昊暘，张曼黎；MLMM模型：张良，胡安文，李瑞晨，宋宇晴，赵金明，赵一达

【分析评测组】费楠益，孙宇冲

【应用组】金楚浩，洪鑫，崔婉清，侯丹阳，李英彦，隰宗正，刘光镇

（感谢金楚浩同学等对本文初始文案的贡献）

更多推荐

上下求索——基于双向推理的多跳知识库问答技术

Learning to Learn: GNN上的元学习

论坛报名 | 智能信息检索与挖掘

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

布灵Get了新技能！让AI像孩子一样学习：第二代文澜多模态预训练模型

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

生成图片，分享到微信朋友圈

布灵Get了新技能！让AI像孩子一样学习：第二代文澜多模态预训练模型

您可能也对以下帖子感兴趣