视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。

视觉强化微调 Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调(Reinforcement Fine-Tuning,RFT)范式成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
图 1 用一张包含许多宝可梦的图片展示了这一过程,当通过多模态强化微调 Visual-RFT 训练的模型被提问什么宝可梦可以释放技能十万伏特时,模型通过 < think > 推理过程准确找出皮卡丘对应的坐标框,展示出模型的泛化能力。

图 1. Visual-RFT 首次实现将强化微调能力迁移到多模态模型中,只需 10~1000 条数据就能通过思考过程和基于规则的监督提升多模态大模型的性能
从 R1 到 Visual-RFT:强化学习的多模态突破
OpenAI o1 主打的强化微调能力(Reinforcement Fine-Tuning)能只用少量样本就将 o1 迁移到新的任务上。最近 DeepSeek-R1 解释了 o1 模型背后的强推理能力来自基于可验证奖励(Verified Rewards)/ 规则奖励(Rule-based Verifier)的强化学习策略。不过,目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。我们在 Visual-RFT 中,将这一策略迁移到了视觉语言模型。通过对细分类、目标检测等任务建立对应的可验证规则奖励,我们解决了传统方法在视觉领域中的局限性,只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。
传统的视觉指令微调(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要海量数据对模型微调,在数据量有限(例如某些难以收集数据的特定学科场景)的情况下带来的提升有限。我们提出的视觉强化微调(Visual Reinforcement Fine-Tuning)具有少样本学习能力和更强的泛化性,在数据量有限的场景下相比指令微调具有很大的优势。
为验证 Visual-RFT(视觉强化微调)的泛化能力和普适性,力求对视觉领域的全面覆盖,我们在多个视觉感知任务上对 Visual-RFT 进行验证,包含 Detection,Classification,Grounding 等。其中,Visual-RFT 在 open vocabulary,few-shot learning 等设定下,仅仅通过非常少量的数据就取得了显著的性能提升,轻松实现能力的迁移,且结果明显优于 SFT 的微调方法。在 reasoning grounding (推理定位) 的测试中,Visual-RFT 展现出强大的视觉推理能力。评测结果如图二所示,详细实验信息欢迎参见论文。

图 2. Visual-RFT(视觉强化微调)在各种任务上显著超越 SFT:包括目标检测(OD),开放目标检测(OVD),少样本检测与分类(FSOD/IC), 推理定位(Reasoning Grounding)

图 3. 框架图:Visual-RFT(视觉强化微调)通过 IoU 和 cls 奖励和强化学习策略(例如 GRPO)更新模型参数
为了在视觉多模态领域验证可验证奖励的作用,我们提出了使用基于 IoU 的 verified reward 奖励应用于 detection 和 grounding 等任务,使用基于分类正确判断的 cls reward 用于 classification 任务(如图三所示)。

图 4. 部分推理定位结果展示,通过引入思考过程和强化学习策略 Visual-RFT(多模态强化微调)显著超越 SFT,更加准确地定位物体。

图 5. 部分推理细粒度分类结果展示,通过引入思考过程和强化学习策略,(多模态强化微调)Visual-RFT 显著超越 SFT,更加准确地定位物体。
部分模型输出结果展示如图 4 和图 5 所示,相比于传统的视觉指令微调(Visual Instruction/Supervised Fine-Tuning),Visual-RFT(视觉强化微调)通过强化学习方法,对问题进行深入的 think 分析取得更佳推理性能,相较于传统的指令微调(SFT)方法取得显著提升。如询问模型图中的运动员在水下依然保持清晰的视野需要带什么物体时,通过传统指令微调的方法模型直接将整个运动员框出。而 Visual-RFT 通过引入推理过程准确地指出防水眼镜及其所在的位置并准确框出。
Visual-RFT 实验结果
Visual-RFT(视觉强化微调)在各大图文感知任务中均展现出强大的性能。我们的实验主要基于视觉语言大模型基座 QWen2-VL 2B/7B 模型,和传统的监督微调(Supervised Fine-Tuning)方法进行对比。在开放目标检测,少样本检测,细粒度分类和推理定位任务上 Visual-RFT 相比 SFT 全面实现了性能提升。值得一提的是,我们的测试数据既包含 COCO、LVIS 等通用场景,又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据,模型通过 Visual-RFT 可以学会检测某动漫中的史莱姆形象。实验结果广泛验证了 Visual-RFT 的卓越性能和鲁棒性。


图 5. 部分实验结果展示,Visual-RFT 显著超越 SFT,建立了新的模型微调范式
Visual-RFT 已经开源!欢迎加入!
我们坚信开源的力量,Visual-RFT 项目已全面开源(包含训练、评测代码,数据)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性吧!
项目地址:https://github.com/Liuziyu77/Visual-RFT
-
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。 论文地址: https: arxiv org abs 2503 01785 代码地址: https: github com Liuziyu77 Visua
2025-04-17 15:48:59 -
AI最强绘画工具 Midjourney V 5.2版本发布:新增相机"变焦效果"
AI作画工具Midjourney最新发布了5 2版本的更新,其中引入了令人期待的相机"变焦效果"功能。该功能模拟了超广角和中长焦效果,为图像添加不同焦距下的透视细节,提供了多种变焦模拟和缩放选项。
2025-04-17 15:38:51 -
为DeepSeek MoE模型带来「免费午餐」加速,专家链可大幅提升LLM的信息处理能力
我们都知道,DeepSeek-R1 的训练过程使用了一种名为专家混合模型(Mixture-of-Experts, MoE)的技术,而当前的 MoE 技术依然还有显著的优化空间。近日,美国西北大学计算机科学博士生王子涵(Zihan Wang)等人在
2025-04-17 15:23:35 -
国内掀起AIGC相关岗位招聘热潮:最高年薪开出60+万元
某招聘平台数据显示,今年应届生的招聘当中,人工智能职位在十几个新兴产业招聘职位中占比排行第一,同比增长超170%。其中“深度学习”相关岗位平均年薪近42万元,甚至不乏开出年薪60多万的互联网企业,位居各类职位之首。
2025-04-17 15:09:49 -
奥尔特曼能松口气了:美地方法官驳回马斯克阻止 OpenAI 转型营利公司的请求
据路透社报道,当地时间周二,美国法院驳回了埃隆・马斯克要求对 OpenAI 施加初步禁令的请求,该禁令旨在阻止 ChatGPT 开发商从非营利组织转型为盈利性公司。 加利福尼亚州奥克兰的联邦地方法官伊冯娜・冈萨雷斯
2025-04-17 14:58:17 -
聚焦AI机器人、超算、自动驾驶!特斯拉悄咪咪在推特开设AI业务子账号
特斯拉公司在今年5月悄然注册了一个名为“Tesla AI”的推特账号,但是从来没有发布过任何内容。就在6月22日这一天,该账号突然在一天之内密集发布了9条关于AI人工智能、AI机器人相关领域的内容。
2025-04-17 14:45:36
-
Music To Image音生图工具是什么_AI音频生成图像工具有哪些_AI音生图工具有哪些_Music To Image怎么用
「Music To Image」是一款AI音频生成图片的多模态转换工具,它的本质生成逻辑是音频→文本提示词→图像。
2024-12-17 00:06:33 -
跟人类学孬了!联合国:AI大模型的回复存在严重的性别偏见、种族偏见与刻板印象等问题
报告指出,女性在大模型的描述中,从事“家务劳动”的频率是男性的4倍,而男性名字则与“商业”、“管理层”、“薪水”和“职业”等词汇联系在一起。
2025-02-08 12:52:22 -
?新年新气象!小红书推出AI人物头像绘图模型「InstantID」:轻松打造龙年新春头像,一键免费焕新
近日,小红书团队推出了一款AI头像生成工具「InstantID」,直接刷屏了。使用门槛较低。只需要用户提供一张自拍照就可以轻松生成一大波风格迥异的照片。
2025-02-13 14:27:20 -
阿里旗下夸克APP上线“AI学习助手”:内置海量试题,拍照一键解疑,巧用大模型帮助当代学子高效备考、快速进阶
夸克“AI学习助手”采用夸克宝宝的虚拟形象为用户进行题目讲解。基于大语言模型和视觉技术,AI智能讲解能够给用户提供 “考点分析”、“详解步骤”、“答案总结”等详细内容。
2025-02-18 16:08:16 -
微博推出“明星AI情感伴聊”:模拟你喜欢的爱豆来陪你聊天,演员李兰迪已进驻
用户向明星发送私信,专属的AI助手将模拟明星的聊天方式和风格进行自动回复,以情感陪伴提升用户体验。微博将陆续邀请更多明星开启该功能。
2025-04-04 10:51:09 -
AI绘画ComfyUI进阶教学丨Mask遮罩基础运用,IPA+CN+Lora+prompts+遮罩
本期开始正式进入遮罩相关的高级应用,这里我们会尝试为不同组件应用不同区域的遮罩,实现构图、效果的不同区域实现。希望本期内容能对大家有所帮助和启发,最后如果喜欢欧阳的教程就千万不要忘记支持一波啦!!!
2024-12-17 09:48:56 -
AI会议整理软件_通义听悟使用教程
最近还挺多人在群里问,有没有啥好的总结会议生成纪要的AI,所以今天更新一篇这个教程,也算是补上AI办公的拼图。
2024-12-17 16:12:59 -
Suno ai全面使用指南丨AI音乐GPT时刻来临,人人都能成为音乐大师!
最近,AI 音乐的 ChatGPT 时刻来临啦!一款音乐 AI神器——Suno V3发布,引发了广泛关注。这款AI音乐工具凭借其独特的创新,持续占据各大平台热搜榜首。
2024-12-17 20:54:47 -
AI绘画ComfyUI进阶教程丨插件IPAdapter的详细使用教程,风格模仿,换脸全靠它
哈咯大家好,本期正式给大家带来进阶部分的插件讲解教程,虽然很多朋友一直在用IPA但可能很多朋友还不太了解其结构,希望这期关于ipa用法的教程能对大家有所帮助吧!
2024-12-17 22:49:30 -
2D转3D成熟倒计时!2023(最全)AIGC-3D技术总结,一个视频搞懂AI生成3D模型
2023年我们见证了AI生成图像的快速进化,同样在这一年,AI生成3D虽然相对之下默默无闻,但也出现了很多重要的技术,实现了从0到1的突破。相信2024年一定会迎来AI生成3D技术的突飞猛进。这个视频我们一起看一下2023年AI生成3D有哪些重要工作,提前了解。为后面的成熟做好准备。
2024-12-18 14:25:53