腾讯开源首个AI绘画模型：混元文生图大模型，国内首个中英双语DiT架构文生图模型，号称超越SD

2025-01-27 来源：AI图库吧

AI奇点网5月14日报道丨5月14日下午，腾讯发布今年第二季度业绩财报，并宣布宣布旗下的混元文生图AI大模型升级并对外正式开源，目前开源代码已经在 Hugging Face 及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，腾讯表示，混元 DiT 是首个中英双语 DiT 架构。

混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力，混元 DiT 能够与用户进行多轮对话，根据上下文生成并完善图像。这也是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解，参数量 15 亿。

运行该模型需要支持 CUDA 的英伟达 GPU，单独运行混元 DiT 所需的最低显存为 11GB，同时运行 DialogGen（腾讯推出的文本转图像多模态交互式对话系统）和混元 DiT 则至少需要 32GB 的显存，腾讯表示他们已经在 Linux 上测试了英伟达的 V100 和 A100 GPU。

这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。

评测数据显示，最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型，是目前效果最好的开源文生图模型；整体能力属于国际领先水平。

升级后的腾讯混元文生图大模型采用了全新的DiT架构（DiT，即Diffusion With Transformer），这也是Sora和 Stable Diffusion 3 的同款架构和关键技术，是一种基于Transformer架构的扩散模型。

过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量的提升，基于 Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。

腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起，腾讯混元文生图团队就明确了基于DiT架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型已全面升级为DiT架构。

在DiT架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，能够支持最多 256 字符的内容输入。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

中文原生也是腾讯混元文生图大模型的一大亮点，此前，像 Stable Diffusion 等主流开源模型核心数据集以英文为主，对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型，具备中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

评测结果显示，新一代腾讯混元文生图大模型视觉生成整体效果，相比前代提升超过 20%，在语义理解、画面质感与真实性方面全面提升，在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。