智源大会产品之一“悟道·视界”：点亮国内绘画通用模型科技树

2025-04-24 来源：AI图库吧

AI奇点网6月9日报道 | 转载自智东西

除了发布开源语言大模型及评测体系外，智源研究院还一连发布了“悟道·视界”视觉大模型系列的6项先进技术成果。

据黄铁军分享，从技术路线而言，通用视觉模型与语言模型的方法论类似，但视觉涌现与语言涌现的形式有所差别。传统视觉模型属于判别式模型，通用视觉模型则更看重对未知事物的通用辨别能力和生成预测能力。

“悟道·视界”由悟道3.0的视觉大模型团队打造，是一套具备通用场景感知和复杂任务处理能力的智能视觉和多模态大模型系列。6项国际领先技术中，前5个是基础模型，最后1个是应用技术。

1、Emu：在多模态序列中补全一切的多模态大模型

Emu是一个多模态-to-模态的大模型，输入输出均可为多模态，可以接受和处理不同模态的数据，并输出各类的多模态数据。

基于多模态上下文学习技术路径，Emu能从图文、交错图文、交错视频文本等海量多模态序列中学习。训练完成后，Emu能在多模态序列的上下文中补全一切，也就是可通过多模态序列做prompting（提示），对图像、文本和视频等多种模态的数据进行感知、推理和生成。

相比其他多模态模型，Emu能进行精准图像认知，完成少样本图文理解，根据图片或者视频进行问答和多轮对话。它也具备文图生成、图图生成、多模态上下文生成等生成能力。

2、EVA：最强十亿级视觉基础模型

如何让通用视觉模型兼顾更高效和更简单？抓住语义学习和几何结构学习这两个关键点，基本可以解决绝大部分的视觉任务。

智源的十亿级视觉基础模型EVA便将最强语义学习（CLIP）与最强几何结构学习（MIM）结合，再将标准的ViT模型扩大规模至10亿参数进行训练，一举在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当时最强性能。

论文地址：

https://arxiv.org/abs/2211.07636

代码地址：

https://github.com/baaivision/EVA

3、EVA-CLIP：性能最强开源CLIP模型

EVA-CLIP基于通用视觉模型EVA开发，相关工作入选2023 CVPR Highlight论文。 EVA极大地稳定了巨型CLIP的训练和优化过程，仅需使用FP16混合精度，就能帮助训练得到当前最强且最大的开源CLIP模型。

此前多模态预训练模型CLIP作为零样本学习基础模型，广受业界认可。智源视觉团队在今年年初发布的EVA-CLIP 5B版本，创造了零样本学习性能新高度，超越了此前最强的Open CLIP模型，在ImageNet1K零样本top1达到最高的82.0%准确率。此外，智源去年发布的EVA-CLIP 1B版本，今年才被Meta发布的DINOv2模型追平ImageNet kNN准确率指标。

论文地址：

https://arxiv.org/abs/2303.15389

代码地址：

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

4、Painter：首创“上下文图像学习”技术路径的通用视觉模型

研究者相信，表达图像信息最好的方式就是图像，图像理解图像、图像解释图像、图像输出图像，可以避免图像-语言翻译过程中产生的信息误差和成本消耗。

智源将NLP中的上下文学习概念引入视觉模型，打造了将“以视觉为中心”作为建模核心思想的通用视觉模型Painter。Painter把图像作为输入和输出，从而获得了上下文视觉信息，完成不同的视觉任务。该模型目前可完成7种主流视觉任务，已在深度估计、语义分割等核心视觉任务中，相比同类模型有11%~25%的性能提升。

论文地址：

https://arxiv.org/abs/2212.02499

代码地址：

https://github.com/baaivision/Painter

5、视界通用分割模型：一通百通，分割一切

从影像中分割出各种各样的对象，是视觉智能的关键里程碑。今年年初，智源研发的首个利用视觉提示（prompt）完成任意分割任务的“视界通用分割模型”，与Meta的SAM模型同时发布，点亮了通用视觉GPT曙光。