马斯克旗下xAI的多模态模型Grok-1.5V突然发布!轻松读懂梗图,对现实世界的理解力超越GPT-4V
以下文章节选自丨智东西
马斯克近期可谓大动作连连!
刚刚宣布推出开源Grok-1.0大模型,并且发布新一代Grok-1.5版本,马斯克旗下的大模型创企xAI就再次发布了一款多模态大模型Grok-1.5V。
这也是该公司首个多模态具备视觉能力的大模型,直接对标OpenAI的GPT-4V。
除了文本生成能力以外,Grok AI现在还可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科的推理任务。
xAI官方重点展示了新模式「Grok-1.5V」的7个视觉认知案例,在介绍之前让我们先来看下官方给的测评跑分成绩。
xAI晒出与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、谷歌Gemini Pro 1.5相比,Grok-1.5V的表现打得有来有往,在某些基准测试项目甚至略胜一筹。
在对标业界标杆GPT-4V的成绩,大部分测评基准都有领先。
值得一提的是,在真实世界空间理解能力「RealWorldQA」的QA基准测试中,Grok明显优于其他同类模型。
自从2023年11月xAI发布AI聊天机器人Grok以来,老**团队就在不断加速追赶OpenAI的步伐。目前马斯克掌控的推特(X)平**家向Grok提供训练数据。
官方发布了一系列Grok-1.5V的实战案例:
①看图表草图,生成网页前端代码
提供一张手绘的流程图,让Grok将手绘图转换成Python代码。这里边首先需要读懂手写体内容,并创建代码规则。
Grok返回内容:
「当然!您提供的流程图描述了一个简单的猜谜游戏,其中计算机生成一个随机数,用户必须猜测它。
下面为Python代码编写的逻辑流程图。」
「这段代码将运行流程图中描述的猜谜游戏。用户将被提示输入他们的猜测,直到他们猜对了数字。」
②计算菜品的卡路里
提问:「图中这个菜谱,5片这个(菜品)一共有多少卡路里?」
Grok回复:
「如果一份是3片,含有60卡路里,那么5片就含有大约100卡路里。这是通过首先确定每片的卡路里来计算的:60卡路里/3片=每片20卡路里。然后,将每片的卡路里乘以片数:每片20卡路里×5片= 100卡路里。」
③根据图像生成一个睡前故事
根据上传的图像,Grok创作一个睡前故事。
“啪~”的一下!
很快啊~来看看这个故事你喜欢吗?
翻译:
Grok编的故事
很久很久以前,在一片充满冒险和奇迹的土地上,有一个勇敢的小男孩,名叫蒂米。蒂米和家人住在一个舒适的小房子里,他最喜欢探索周围的世界。
一个阳光明媚的日子,蒂米决定去附近的森林里冒险。他收拾了他最喜欢的零食、指南针和他值得信赖的笔记本,画下了他将要看到的所有令人兴奋的东西。
当蒂米冒险深入森林时,他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人,以至于蒂米决定建造一艘小纸船,顺流而下,作为对森林精灵的特殊信息。
蒂米小心翼翼地折叠他的纸船,并在上面画了一个笑脸,给森林精灵带来欢乐。然后,他把船放在河上,看着它飘走,带着他对友谊和对大自然的热爱的信息。
当太阳开始落山时,蒂米知道是时候回家了。他对自己在森林里度过的神奇一天感到感激,他知道他将永远把冒险的记忆铭记在心。
回到家里,蒂米与家人分享了他的故事,他们很高兴听到他在森林里神奇的一天。他们都认为蒂米的勇敢和善良的精神是真正的灵感来源,他们知道他将来会继续有更多精彩的冒险。
于是,带着一颗充满爱的心和一颗充满梦想的头脑,蒂米渐渐睡着了,渴望发现在他想象的世界中等待着他的新冒险。
-
马斯克旗下xAI的多模态模型Grok-1.5V突然发布!轻松读懂梗图,对现实世界的理解力超越GPT-4V
马斯克的xAI公司近期大动作连连:开源Grok-1 0大模型,发布新一代Grok-1 5版本,xAI马不停蹄地再次发布了一款多模态大模型Grok-1 5V。
2025-02-03 19:00:37 -
性能骤降92%!英特尔公布5nm制程「中国特供版」AI算力芯片,最快6月上市
英特尔日前在官网发布一份24页的Ai芯片介绍白皮书,其中关于“Gaudi 3 AI加速器”的白皮书披露,英特尔将面向中国实测发售该系列的“特供版”AI芯片产品。
2025-02-03 18:39:37 -
专家研究称「经常使用生成式AI工具撰写论文会让人变蠢」,国外这份调研报告说清楚了
AI的能力,小到写一篇论文,大到通过司法考试,它都能做到。面对拥有超能力的AI,有些人甚至直接用AI写的内容当做自己写的投稿,改都不改。
2025-02-03 18:11:20 -
首款AI硬件AI Pin上市即遭翻车口碑丨刘强东AI数字人“采销东哥”今日亮相京东直播丨OpenAI成立东京办事处
【AI奇点网2024年4月16日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-03 17:43:52 -
全网沸腾!AI大模型「开源之王」Llama 3正式发布:性能比肩GPT-4
硅谷AI大厂Meta官网上新,官宣Llama 3正式发布。提供80亿和700亿参数两个版本。有意思的是,80亿版本在某些测评项目的成绩上还超过了70亿版本。
2025-02-03 17:20:56 -
周鸿祎怒怼李彦宏“胡说八道”:有些人说闭源大模型会越来越好,别让他们忽悠了,说开源不如闭源好
360董事长周鸿祎表示,“我一直相信开源的力量,网上有些人胡说八道,你们也别被他们忽悠了,说开源不如闭源好。今天没有开源,就没有Linux、没有互联网。”
2025-02-03 01:05:38
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34