突发!Stable Diffusion 3可以通过API直接使用丨未来或将开源
4月18日,著名开源大模型平台Stability.ai在官网宣布,最新文生图模型Stable Diffusion 3 (简称“SD3”)和 SD3 Turbo可以在API中使用。
据悉,本次继续由知名API管理平台Fireworks AI提供服务。与前两代相比,SD3除了生成的图片质量更高之外,可以更好地理解提示文本中嵌入到图片中的文字。
例如,一个色彩缤纷的魔法世界,天空的中央写着“欢迎来到魔法世界”。
前两个模型版本可能无法将“欢迎来到魔法世界”精准嵌入到图片的指定位置或出现扭曲的文字,而SD3可以轻松实现。
此外,SD3的模型权重将很快向Stability AI会员提供,可以在本地部署、运行SD3.
API地址:https://platform.stability.ai/docs/api-reference?_gl=1*1ldjred*_ga*ODY1NjAxMzA1LjE3MDcyNTYwMTM.*_ga_W4CMY55YQZ*MTcxMzM5NDE4OS40NC4xLjE3MTMzOTQyNTUuMC4wLjA.#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post
Stable Diffusion 3架构简单介绍
今年2月22日,Stability.ai在官网首次展示了SD3并开启候补测试。随后3月5日在arxiv上公布了其论文。
根据其论文介绍,SD3与前两代相比最大技术创新在于,使用了MM-DiT和Flow Matching两种方法来增强模型的输出、训练、优化等,同时支持文本或图像作为提示实现多模态能力。
通常多数文生图模型在生成的过程中,只考虑图像本身而没有充分利用文本信息,所以,输出结果时经常出现“驴头不对马嘴”的情况,甚至是一些无法理解的乱码或者扭曲的图像。
而MM-DiT通过结合Transformer的自注意力机制强大的文本和图像序列处理能力,帮助模型在生成图像时能与文本实现更好的匹配。
当用户输入文本或图像提示时,首先被转换为嵌入表示。文本通过预训练的文本模型编码,而图像则通过预训练的自动编码器转换为潜在空间表示。
MM-DiT会使用一种调制机制来整合时间步和文本条件信息,会将时间步和文本嵌入与图像的潜在表示进行整合。
接着,MM-DiT会利用一系列的调制注意力和多层感知力进一步混合文本和图像特征。这些块允许模型在保留各自模态特征的同时,进行跨模态的信息交流。
为了帮助SD3更好地处理多模态数据,MM-DiT采用了多头注意力机制,允许模型在不同的表示子空间中并行处理信息。
这也是SD3能深度理解文本提示中的嵌入文字主要原因,MMDiT不仅能将文字转换成图片,还能确保图片能够反映出文字中的所有细节。
根据测试数据显示,与DiT、CrossDiT、UViT等方法相比,MM-DiT所有指标上表现都非常出色,并且在内部共享权重集。
Flow Matching是一种用于训练Rectified Flow模型的方法,通过最小化生成路径上的误差来改善模型性能,同时帮助模型学习从随机噪声快速转换到目标图像。
在训练过程中,Flow Matching会先定义一个从数据分布到噪声分布的前向过程,这个过程通过一系列的时间步骤来模拟,每个步骤都对应着数据向噪声的逐渐转变。
接着,通过对每个时间步的噪声样本生成一个向量场,可以在概率空间中模拟数据到噪声的转换。
最后,Flow Matching通过最小化一个目标函数来优化生成向量场。该目标函数的作用是帮助模型预测的向量场和真实向量场之间的差异。优化的过程中会尽量减小这个差异,从而提高模型的生成图像预测准确性。
关于SD3更详细的技术解读,小伙伴们可以查看论文。
SD3生成图片展示
根据Stability.ai展示的效果,SD3生成的图片有一些甚至比Midjourney更好,尤其是文字嵌入方面。
一座白色建筑顶部放着一张红色沙发。涂鸦强上写着“城市最佳景观”。
一个印有“他们说在这里思考不好”的纸板箱,纸板箱很大,放在剧场舞台上。
半透明的猪,肚子里有一只更小的猪。
一只奶酪制作的螃蟹,在盘子中。
在山顶上有一位巫师创作了一幅令人惊叹的艺术作品,他用魔法创造了文字"Stable Diffusion 3 API"。
-
突发!Stable Diffusion 3可以通过API直接使用丨未来或将开源
4月18日,著名开源大模型平台Stability ai在官网宣布,最新文生图模型Stable Diffusion 3 (简称“SD3”)和 SD3 Turbo可以在API中使用。
2025-02-02 21:24:51 -
联合国科技大会:OpenAI、腾讯、百度、蚂蚁、谷歌、Meta、科大讯飞、OPPO等国内外大厂编制大模型国际安全规范
世界数字技术院(WDTA)发布了一系列突破性成果,包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。
2025-02-02 21:04:48 -
Perplexity、InflectionAI、Stability AI等明星级AI创业公司濒临倒闭,再多人使用也没赚到钱
搞 AI 的创业公司们,现在都变着法儿的搞钱了。在 AI 这个激烈的战场里,并不是产品出彩救能挺到最后,谁能笑到最后,只能说一切皆有可能。
2025-02-02 20:35:00 -
人形机器人“天花板”波士顿动力发布新一代电动Atlas机器人:能走会跳,躯干运动能力超越人类
知名的机器人研发公司“波士顿动力”对外发布了一款全新的纯电动驱动的人形机器人。新一代 Atlas 机器人拥有比前辈更广的运动范围,能够胜任更多任务。
2025-02-02 20:09:34 -
钉钉APP上线「AI助理市场」:首批200+AI助理应用上架,全方位AI功能服务赋能220万家企业员工
钉钉发文宣布,钉钉AI应用上新了。本次发布的更新,围绕钉钉 AI 助理市场上线,在钉钉搜索“AI 助理市场”,即可选择启用 200+ AI 助理
2025-02-02 19:44:14 -
Meta发布Llama 3开源大模型丨Llama大模型上线网页聊天版本丨月之暗面「Kimi智能助手」功能升级
【AI奇点网2024年4月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-02 19:21:16
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34