Meta AI开源SAM-2丨可进行商用化,随意分割视频、图像
2023年4月5日,Meta首次开源了视觉分割模型SAM,能够根据交互和自动化两种方式任意切割视频、图像中的所有元素,当时这个模型被誉为计算机视觉界的“ChatGPT时刻”。目前,SAM在Github超过45000颗星。
今天凌晨,Meta在SAM的基础之上对架构、功能以及准确率等进行大量更新,正式开源了SAM-2.并支持Apache 2.0规则的商业化。这也是继上周Llama 3.1之后,再次开源重磅模型。
同时Meta还分享了SAM-2的训练数据集SA-V,包含了51.000真实世界视频和超过600.000个时空遮罩,这比其他同类数据集大50倍左右,可帮助开发人员构建更好的视觉模型。
SAM-2开源地址:https://github.com/facebookresearch/segment-anything-2
在线demo:https://sam2.metademolab.com/
数据集地址:https://ai.meta.com/datasets/segment-anything-video/
SAM-2架构简单介绍
SAM-2基础架构是基于transformer模型并引入了流式记忆机制,主要由图像编码器、记忆编码器、记忆注意力模块、提示编码器和掩模解码器等模块组成。
图像编码器作为SAM-2处理视频帧的起点采用了流式处理方法,能够处理任意长度的视频,相比第一代可以使用更少的交互提升3倍效率。它使用的是一个预训练的Hiera模型,能够提供多尺度的特征表示,为后续的记忆注意力模块和掩模解码器提供丰富的上下文信息。
记忆编码器和记忆注意力模块是本次SAM-2的重要创新之一。记忆编码器负责将模型先前的预测和用户交互动作编码为记忆,并将这些记忆存储在记忆库中,用于影响后续帧的分割结果。
记忆注意力模块则利用这些记忆来增强当前帧的特征表示,使其能够更好地捕捉目标对象在时间序列中的动态变化。
记忆编码器通过将预测的分割掩模降采样并与当前帧的特征融合,生成记忆特征。随后通过一系列轻量级的卷积层进一步处理,以整合信息。记忆库则保留了目标对象在视频中的历史信息,通过维护一个先进先出队列来存储最近N帧的记忆。
提示编码器的设计遵循了SAM的原则,能够接受点击、框选或遮罩等不同类型的提示,以定义给定帧中对象的范围。这些稀疏提示通过位置编码和学习到的嵌入表示进行表示,而遮罩则通过卷积操作进行嵌入,并与帧嵌入相加。
掩模解码器的设计在很大程度上遵循了第一代SAM的架构,使用了双向transformer块,这些块更新提示和帧嵌入。为了处理可能存在多个兼容目标掩模的模糊提示,SAM-2预测每个帧上的多个掩模,这对于确保模型输出有效掩模至关重要。
SA – V训练数据集
现有的视频分割数据集通常存在一些限制,例如,注释对象主要集中在人、车辆和动物等特定类别,并且往往只覆盖整个对象而忽略了部分和子部分。
此外,这些数据集的规模相对较小,无法满足训练强大的视频分割模型的需求。为了解决这些难题,Meta开发了SA – V数据集并使用了三大阶段。
在第一阶段,使用了SAM模型来辅助人类标注。标注者的任务是在视频的每帧中以每秒6帧的速度使用SAM和像素精确的手动编辑工具来标注目标对象的掩码。
由于这是一种逐帧的方法,所有帧都需要从头开始标注掩码,因此流程非常缓慢,平均标注时间为每帧37.8秒。但这种方法能够产生高质量的空间标注,在这个阶段,共收集了16000个掩码片段,涵盖了1400个视频。
第二阶段,引入了SAM 2 Mask,它只接受掩码作为提示。标注者首先使用SAM和其他工具在第一帧中生成空间掩码,然后使用SAM 2 Mask将标注的掩码在时间上传播到其他帧,以获得完整的时空掩码片段。
通过这个阶段的工作,收集了635.000个掩码片段,标注时间下降到每帧7.4秒,相比第一阶段有了显著的提高,速度提升了约5.1倍。
第三阶段,使用了完全功能的SAM-2.它能够接受各种类型的提示,包括点和掩码。与前两个阶段不同,SAM-2受益于对象在时间维度上的记忆来生成掩码预测。
这意味着标注者只需要偶尔对SAM 2提供的预测掩码进行细化点击,就能够在中间帧中编辑预测的掩码片段,而不需要像在第一阶段那样从头开始标注。通过多次重新训练和更新SAM-2.标注时间进一步下降到每帧4.5秒,相比第一阶段速度提升了约8.4倍。
所以,SA – V在开发SAM-2过程中发挥了重要作用,也是目前最大视觉分割训练数据集之一。
-
Meta AI开源SAM-2丨可进行商用化,随意分割视频、图像
今天凌晨,Meta在SAM的基础之上对架构、功能以及准确率等进行大量更新,正式开源了SAM-2,并支持Apache 2 0规则的商业化。这也是继上周Llama 3 1之后,再次开源重磅模型。
2025-01-10 12:32:20 -
AI搜索按下加速键,爆改AI场景化能力让夸克率先突围
近日,国内专业数据分析平台七麦数据发布了《2024年第二季度iOS实力AI产品排行榜》,其中夸克作为AI搜索产品新兴势力,以99 71的高分在一众AI应用中跃居榜首。七麦数据提出,海内外均将AI搜索视作重要蓝海赛道,按下了加速键。
2025-01-10 12:11:54 -
OpenAI开始内测GPT-4o高级语音模式丨苹果回应国行iPhone无法使用「苹果AI」丨AI视频创作工具Vidu正式上线
【AI奇点网2024年7月31日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-10 11:46:58 -
Midjourney发布新版V6.1上线丨小米公司发布小爱大模型全设备全量升级丨微软已将OpenAI列为AI搜索领域的竞争对手
【AI奇点网2024年8月1日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-10 11:22:13 -
OpenAI测试长输出版GPT-4o丨谷歌发布开源小模型Gemma 2 2B版本丨AiPPT与月之暗面Kimi达成战略合作
【AI奇点网2024年8月2日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-10 10:55:03 -
中文多模态大模型SuperCLUE-V榜单发布丨Stability AI推出Stable Fast 3D模型丨Meta AI向好莱坞明星采买声音授权
【AI奇点网2024年8月5日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-10 10:33:21
-
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01