人类图形验证码被AI攻破!苹果团队多模态大模型Ferret精准识别验证码
谷歌人机验证已经拦不住AI了!
最新的多模态大模型,能轻松找到下图的验证策略,找出图中的所有交通信号灯,还准确圈出了具体位置。
这款大模型的表现直接超越OpenAI的GPT-4V。
这就是由苹果和哥伦比亚大学研究团队带来的多模态大模型“雪貂”(Ferret)。
它具备更强的图文关联能力,提升了大模型在“看说答”任务中的精确度。比如,下图中非常细小的部件(region 1),它也可以分辨出来是避震。
GPT-4V没能回答正确,在细小部分上的表现不佳。
所以,Ferret是如何做到的呢?
只需点拨一下,图像大模型都懂!
Ferret解决的核心问题是,让引用(referring)和定位(grounding)两方面空间理解能力更加紧密。
引用是指让模型准确理解给定区域的语义,也就是指一个位置它能知道是什么。
定位则是给出语义,让模型在图中找到对应目标。
对于人类来说,这两种能力是自然结合的,但是现有很多多模态大模型却只会单独使用引用和定位。
所以Ferret提出了一种新型的混合区域表示方法,能将离散坐标和连续特征联合起来表示图像中的区域。
这样一来,模型就能分辨出边界框几乎一样的对象。
比如下图中两个物体的情况,如果只用离散边界框,模型会感到很“困惑”。和连续的自由形状混合表示相结合,能很好解决这一问题。
为了提取多样化区域的连续特征,论文提出了一种空间感知的视觉采样器,能够处理不同形状之间的稀疏性差异。
因此,Ferret可以接受各种区域输入,如点、边界框和自由形状,并理解其语义。
在输出中,它可以根据文本自动生成每个定位对象的坐标。
为了实现这一目标,Ferret模型的架构包括图像编码器、空间感知的视觉采样器和语言模型(LLM)等组成部分。
Ferret结合了离散坐标和连续特征,形成了一种混合区域表示。
这种表示方法旨在解决表示各种形状和格式的区域的挑战,包括点、边界框和自由形状。
离散坐标中每个坐标都被量化为一个目标框的离散坐标,这种量化确保了模型对不同图像大小的鲁棒性。
而连续特征则由空间感知视觉采样器提取,它利用二进制掩码和特征图在ROI内随机采样点,并通过双线性插值获得特征。
这些特征经过一个由3D点云模型启发的空间感知模块处理后,被浓缩成一个单一的向量, 并映射到大型语言模型(LLM)进行下一步处理。
为了增强Ferret的能力,论文还创建了一个名为GRIT的数据集。
这个数据集包含1.1M个样本,涵盖了个体对象、对象之间的关系、特定区域的描述以及基于区域的复杂推理等四个主要类别。
GRIT数据集包括了从公共数据集转换而来的数据、通过ChatGPT和GPT-4生成的指令调整数据,并额外提供了95K个困难的负样本以提高模型的鲁棒性。
实验结果表明,该模型不仅在经典的引用和定位任务中表现出优越性能,而且在基于区域和需要定位的多模态对话中远远超过现有其他MLLM模型。
此外,研究还提出了Ferret-Bench,可以评估图像局部区域的引用/定位、语义、知识和推理能力。
Ferret模型在LLaVA-Bench和Ferret-Bench上进行评估,在所有任务中都表现出色,特别是在需要指代和视觉grounding的三个新任务上,Ferret的表现很出色。
而且在描述图像细节上有明显提升,幻觉有明显下降。
最后值得一提的是,Ferret大模型由苹果AI/ML和哥伦比亚大学研究团队共同带来,而且是全华人阵容。
— 完 —
追踪人工智能新趋势,关注科技行业新突破
-
人类图形验证码被AI攻破!苹果团队多模态大模型Ferret精准识别验证码
相信大家网上冲浪的时候,都有遇到过需要输入图形验证码的时候。有时候是数字,有时候是需要辨识一张图片。现如今,人机验证已经拦不住AI了!
2025-04-01 14:57:29 -
谷歌搜索可以直接生成AI图像丨QQ浏览器加入PDF内容AI总结功能丨网易有道推出AI虚拟口语教练
【AI奇点网2023年10月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-01 14:34:03 -
谷歌在搜索引擎上线“生成式AI搜索服务”丨百度计划推出百度地图AI版丨今年毕业应聘季AI行业平均月薪高达1.8万元
【AI奇点网2023年10月16日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-01 14:08:50 -
百度发布文心大模型4.0丨vivo自研大模型11月1日发布丨OpenAI修改企业核心价值观,矢志打造AGI
【AI奇点网2023年10月17日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-01 13:47:15 -
文心大模型重塑百度文库:既能撰写稿件,还能帮写PPT丨李彦宏:这是AI重构最彻底的产品
今年4月,百度文库就宣布首批APP服务接入文心一言,创作文档仅需15秒。短短数月内,百度文库在智能PPT、智能创作、智能编辑、智能总结等功能上实现飞速进化。
2025-04-01 13:19:31 -
百度发布全新百度网盘、百度文库:AI重构应用,支持一键总结视频、论文
2023年百度世界大会现场,百度CEO李彦宏宣布,百度网盘、百度文库等产品已完成 AI 重构。能对视频精准定位、一键总结视频内容、提炼金句。
2025-04-01 12:54:55
-
小米公司开启小爱AI大模型多模态能力内测:支持图片内容问答、AI扩图、消除路人,适配小米14、Redmi K70等
3月15日,小米官方宣布小米社区开启新一轮的小爱AI大模型内测。现已开启“小爱同学多模态功能内测”。
2025-02-07 13:53:52 -
你已经是个“成熟的AI”,可以帮我代肝了:智谱AI联合清华大学团队打造视觉大模型CogAgent:可提供《原神》教学辅助
日,清华大学与旗下孵化的人工智能创企智谱AI合作,联合推出了新一代视觉GUI Agent图像理解大模型 CogAgent,可告知《原神》游戏操作步骤等
2025-02-20 17:54:39 -
AI代理将主导2025年,而不是ChatGPT
很多人工智能专家和预测者都认为,今年该领域最大的趋势之一是 AI 代理,它与 Claude 或 ChatGPT 等生成式 AI 模型不同。AI 代理也不同于定制 GPT。以下是它们各自的主要区别。 生成式 AI: 专注于根据用户输入创
2025-02-21 09:08:08 -
OPPO公布AndesGPT大模型最新升级:70亿参数端侧模型,OPPO Find X7系列首发搭载,小布助手能力全面提升
在会上,OPPO 公布了自研的”安第斯大模型“ AndesGPT 的全新升级,为行业内”首个端侧应用70亿参数大模型“的手机厂商。
2025-02-21 09:08:06 -
银河证券:DeepSeek的技术颠覆带来的是AI行业的多元化,有望加速AI行业的普及繁荣
每经快讯,银河证券研报认为,DeepSeek通过算法及工程创新,显著降低成本。结合银河证券对芯片、硬件、软件、应用端等的影响分析,DeepSeek的技术颠覆带来的是AI行业的多元化,有望加速AI行业的普及繁荣。建议关
2025-02-21 13:40:54 -
谷歌Gemini自称文心一言?!一个BUG牵出AI大模型重大难题:全球陷入高质量训练数据荒,2024年或将枯竭
当地时间12月22日,外网内网的网友们激动地奔走相告:Gemini承认自己是用文心一言训练中文语料的。这听起来就是个段子,简直魔幻。
2025-02-21 16:58:14 -
为人工智能发展提供要素支撑
长广溪智能制造(无锡)有限公司的协作机器人在进行汽车智能部件自动装配。孙 斌摄 数据来源:工业和信息化部等 习近平总书记强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能
2025-02-21 16:59:00 -
软银联手OpenAI成立合资公司 打造日本的人工智能帝国
当地时间周一(2月3日),软银集团在官网宣布,OpenAI将与其成立一家名为“SB OpenAI Japan”的合资公司,合作开发和推广高级企业人工智能“Cristal intelligence”。 另外,软银每年将投资30亿美元在集团内部部署Op
2025-02-24 09:40:05 -
加力支持人工智能发展 浙江将出台三年行动计划
发布会现场。浙江省政府新闻办 供图 中新网杭州1月23日电(记者 王逸飞)23日,在于杭州举行的浙江省2025年经济政策新闻发布会上,浙江省发展改革委党组书记、主任杜旭亮介绍,浙江近期将出台《浙江省“人工智能+”
2025-02-25 12:39:08 -
关注人工智能“一号创新工程” 四川省政协委员徐汝金:加强产业人才培养|委员在这里
四川省政府工作报告提到,大力推进人工智能“一号创新工程”;支持在川高校开展重大科技攻关和基础研究,加快引育一流科技领军人才、青年科技人才和高水平创新团队。这与四川省政协委员、绵阳市科创孵化器管理有限
2025-02-25 13:00:46