例如,今年4月,谷歌发布了5400亿参数的语言模型PaLM(Pathways Language Model),在一系列语言和推理测试中成功超越人类,特别是在少样本小样本学习场景中表现出色。 PaLM被认为是下一代语言模型的发展方向。

同样,视觉语言模型实际上可以产生奇迹,并且可以通过增加模型的规模来提高性能。

当然,如果只是一个多任务视觉语言模型,显然通用性不是很强,必须支持多种语言的输入输出。

近日,谷歌将PaLM扩展升级为PALI(Pathways Language and Image model),兼具多语言和图像理解能力,支持100+语言跨视觉、语言和多模态执行各种图像和语言应用。如视觉问答、图像标题、目标检测、图像分类、OCR、文本推理等。

论文链接:https://arxiv.org/abs/2209.06794

该模型使用公共图像集进行训练,其中包括自动爬取的109 种语言的注释,在文章中也称为WebLI 数据集。

在WebLI 上预训练的PaLI 模型在多个图像和语言基准上实现了最先进的性能,例如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA 等,在多方面也超越了之前的模型。语言视觉描述(多语言视觉字幕)和视觉问答基准。

模型架构

PALI的目标之一是研究语言和视觉模型在性能和规模上的关系是否相同,特别是语言-图像模型的可扩展性。

因此,模型的架构设计非常简单,主要是为了实验的方便,特别是为了可重用性和可扩展性。

该模型由处理输入文本的Transformer 编码器和生成输出文本的自回归Transformer 解码器组成。

处理图像时,Transformer 编码器的输入还包括表示ViT 处理的图像的视觉单词。

PaLI模型的一个关键设计是重用。研究人员使用之前训练的单模态视觉和语言模型(例如mT5-XXL 和大型ViT)的权重作为模型的种子。这种重用不仅可以实现单模态训练功能的迁移,还可以节省计算成本。

该模型的视觉组件使用ViT-e,这是迄今为止最大的ViT 架构。它与18亿参数的ViT-G模型具有相同的结构,并使用相同的训练参数。不同的是,它扩展至40亿个参数。

尽管在视觉和语言领域都研究了缩放定律,但在组合视觉和语言模型中对缩放行为的探索较少,并且扩大视觉主干模型的大小可能会导致分类任务中增益的饱和。

研究人员也进一步证实了这一点,可以观察到ViT-e在ImageNet上仅比ViT-G稍好一些,但ViT-e在PaLI的视觉语言任务上有很大的进步。例如,在COCO 字幕任务上,ViT-e 的表现比ViT-G 高出近3 个CIDEr 点。任务上比ViT-G 多3 分。这也暗示了未来在视觉语言任务中使用更大的ViT 骨架模型的空间。

研究人员采用mT5 主干作为语言建模组件,使用预训练的mT5-Large(10 亿个参数)和mT5-XXL(130 亿个参数)来初始化PaLI 的语言编码器-解码器,然后在许多语言任务上执行混合训练,包括纯粹的语言理解任务,也将有助于避免mT5 的语言理解和生产能力发生灾难性遗忘。

最终得到了三个不同尺寸的PALI模型。

109种语言的数据集

训练史上最大规模的ViT 怎么样?升级视觉语言模型PaLI:支持100+语言

深度学习相关的扩展研究表明,模型越大,需要的训练数据集越大。

因此,为了全面研究和释放语言-图像预训练模型的潜力,研究人员从互联网上爬取了大量的图像和文本数据,构建了一个新的数据集WebLI,其中包含109种语言的120亿条替代文本和100 亿张图像。

除了使用网页文本进行标注外,研究人员还应用云视觉API对图像进行OCR识别,从而获得290亿个图像-OCR数据对。

使用接近重复的方式对来自68 个常见视觉和视觉语言数据集的训练、验证和测试部分的图像进行重复数据删除,以避免下游评估任务的数据泄漏。

为了进一步提高数据质量,研究人员还将根据“图像和替代文本”的跨模态相似度进行评分并调整阈值。最终仅保留10%的图像,总共10亿张图像用于训练PaLI。

训练大模型

由于视觉语言任务是多模态的,因此模型需要具有多种语义处理能力,并且会有不同的目标。例如,某些任务需要对象的局部定位才能准确地解决任务,而其他任务可能需要更多的全局语义信息。

同样,某些语言任务可能需要较长的答案,而其他语言任务可能需要紧凑的答案。

为了解决所有这些不一致的目标,研究人员利用丰富的WebLI 预训练数据并引入预训练任务混合来为各种下游应用程序准备模型。

用于预训练的目标作为加权组合投影到相同的API 中,目的是在训练模型执行新任务的同时保持重用模型组件的能力。

该模型使用开源T5X 和Flaxformer 框架,并在JAX 中使用Flax 进行训练。 ViT-e的视觉部分使用开源的BigVision框架,将语言部分的词向量和视觉部分生成的patch向量级联起来,一起作为多模态编码器- 输入到解码器,编码器初始化使用mT5-XXL 预训练。在PaLI的训练过程中,视觉组件的权重被冻结,仅更新多模态编码器-解码器的权重。

在实验部分,研究人员在常见的视觉语言基准上对PaLI进行了比较,PaLI模型在这些任务上取得了state-of-the-art的结果,甚至超越了之前文献中提出的非常大的模型。

例如,在某些VQA 和图像字幕任务上,170 亿参数的PALI 比800 亿参数的Flamingo 模型表现更好。

而且PALI在单语言或单视觉任务上也保持了良好的表现,尽管这不是PALI的主要训练目标。

我们还研究了图像和语言模型组件在模型缩放方面如何相互作用,以及模型在哪里产生最大的收益。

最终的结论是,这两个组件的联合缩放(scaling)会产生最佳性能。具体来说,缩放需要相对较少参数的视觉组件是最关键的,而缩放对于提高多维缩放至关重要。语言任务的表现也很重要。

在基准Crossmodal-3600 上对35 种语言的PaLI 进行评估后可以发现,多语言标题生成任务更多地受益于PaLI 模型的扩展。

为了避免在大型语言和图像模型中产生或强化不公平的偏见,我们需要对所使用的数据以及模型如何使用这些数据保持透明,并测试模型的公平性并进行负责任的数据分析,因此本文也提供了数据卡和模型卡

用户评论

花海

哇,这个ViT模型规模真的很大啊!我一直很好奇,升级后的PaLI模型在处理多种语言时表现如何,期待看到实际效果。

    有20位网友表示赞同!

花开丶若相惜

训练这么大的ViT模型,技术难度一定很高吧?PaLI支持100+语言,感觉以后翻译工作都要靠它了。

    有5位网友表示赞同!

浅笑√倾城

ViT模型升级了,PaLI也能支持更多语言了,这对于多语言学习和研究的人来说是个大福音啊!

    有20位网友表示赞同!

﹏櫻之舞﹏

100+语言的视觉语言模型,听起来好厉害!不过,这么大的规模,训练过程是不是很漫长啊?

    有6位网友表示赞同!

淡抹烟熏妆丶

ViT和PaLI的结合,感觉未来在图像识别和语言处理上会有更多的突破!期待看到更多实际应用。

    有19位网友表示赞同!

玩味

这个ViT模型规模那么大,是不是意味着计算资源需求也跟着上涨了?对于小型团队来说,这可能是个挑战。

    有15位网友表示赞同!

花容月貌

PaLI支持100+语言,这对全球化的项目来说是个巨大的助力。希望这个模型能尽快落地,造福更多人。

    有8位网友表示赞同!

惦着脚尖摘太阳

训练这么大规模的ViT,肯定有很多技术细节值得探讨。希望作者能分享一些经验。

    有11位网友表示赞同!

断秋风

ViT升级,PaLI多语言支持,感觉这个项目前途无量。不过,这么强大的模型,价格会不会很高呢?

    有10位网友表示赞同!

罪歌

100+语言的视觉语言模型,听起来好酷!不过,对于非专业人士来说,使用起来会不会有些困难呢?

    有19位网友表示赞同!

半梦半醒i

这个PaLI模型支持这么多语言,是不是意味着它的翻译准确性也会更高?期待看到测试数据。

    有18位网友表示赞同!

抓不住i

ViT模型升级,感觉人工智能在视觉识别领域又迈出了重要一步。PaLI的多语言支持,更是让人惊喜。

    有7位网友表示赞同!

刺心爱人i

训练这么大规模的ViT,是不是需要用到最新的GPU技术?希望作者能分享一些硬件配置方面的建议。

    有8位网友表示赞同!

巷口酒肆

100+语言的视觉语言模型,对于跨国企业来说,无疑是一个强大的工具。希望这个模型能迅速普及。

    有5位网友表示赞同!

あ浅浅の嘚僾

ViT和PaLI的结合,让我对未来的智能设备充满了期待。不知道它们能在哪些场景中得到应用呢?

    有12位网友表示赞同!

拥菢过后只剰凄凉

PaLI支持100+语言,这对于国际交流来说是个巨大的进步。希望这个模型能帮助打破语言障碍。

    有18位网友表示赞同!

赋流云

ViT模型规模那么大,训练效果一定很不错。希望看到更多关于它在实际应用中的案例分享。

    有8位网友表示赞同!

红尘滚滚

这个项目看起来很棒,不过,对于普通用户来说,升级后的ViT和PaLI模型,操作难度会不会增加呢?

    有5位网友表示赞同!

限量版女汉子

期待看到ViT和PaLI在实际场景中的应用,比如自动翻译、跨语言搜索等,感觉潜力无限。

    有6位网友表示赞同!

暮光薄凉

100+语言的视觉语言模型,听起来好像科幻小说里的东西。不过,现在它真的实现了,感觉离未来不远了!

    有11位网友表示赞同!

标签: