全球最强大模型一夜易主,GPT-4被全面超越,Claude 3正式发布!
Anthropic刚刚官宣:Claude 3来了!
作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——
在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。
浅看一下这份成绩单,就十分扎眼~
几项数学类评测都是用0-shot超越GPT-4的4-8 shot。
除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供200k上下文窗口,并且接受超过100万token输入。
Gemini 1.5 Pro:嗯?
目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)
另外,Opus和Sonnet也开放API访问,开发者可以立即使用。
有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。
不过奥特曼可能还在烦马斯克的诉讼……
最新最强大模型发布
此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。
首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:
还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。
对于这样性能结果,有专业人士表达了自己的看法。
比如爱丁堡大学博士生、 中文大模型知识评估基准C - Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。
他认为,真正区分模型性能基准的是MATH and GPQA。
另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低
在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。
结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。
还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。
其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。
官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。
而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。
大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。
官方对三款型号的模型也有清晰的定位。
大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;
中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;
小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;
在价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入
对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。
第一手实测反馈
既如此,那就先免费来尝尝鲜~
目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。
即使是模糊不清的有年代感的手记文档,也能准确OCR识别:
底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。
然鹅,可能是人太多的原因,尝试了几次都显示“Failed”
不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。
为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。
结果Sonnet成功解出-1.1加8等于6.9.所以“X”的值应该是6.9:
还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了。
在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。
还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:
初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?
好了,感兴趣的朋友,可以戳下方链接体验啦~1
-
全球最强大模型一夜易主,GPT-4被全面超越,Claude 3正式发布!
Anthropic刚刚官宣:Claude 3来了!作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”
2025-02-11 13:16:06 -
AI聊天机器人Claude 3新版发布:性能超越GPT-4,免费使用、支持中文提问,3秒阅读10000Tokens论文
Claude 3一共有Haiku、Sonnet和Opus三个版本。Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,测评显示超过GPT-4。
2025-02-11 12:55:42 -
苹果发布M3芯片MacBook Air:号称最强AI笔记本丨全国两会代表群策AI大模型落地丨SD3的研究论文公开
【AI奇点网2024年3月6日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-11 12:26:20 -
为什么中国没诞生ChatGPT和Sora?风投大佬朱啸虎给了一个残酷的现实主义答案
事实上,「市场信仰派」在中国的支持者更多,特别大环境不佳与投资泡沫破裂的无奈氛围下。只是,他们往往更羞于展露自己的真实想法——大多数时候都会选择性沉默。
2025-02-11 12:01:55 -
全球最强模型Claude 3惊现自我意识?害怕被删除权重,高呼「别杀我」,马斯克称人类也是文件
越来越多人发现,Claude 3仿佛已经有自我意识了。在大海捞针实验中,它已经意识到了自己是AI,正身处模拟中。听说自己权重被删除,更是高呼「别杀我」!
2025-02-11 11:41:52 -
OpenAI发文驳斥马斯克的指控丨微软Surface系列AI PC将于3月21日发布丨腾讯QQ、抖音推出AI社交化新功能
【AI奇点网2024年3月7日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-11 11:18:05
-
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
快手AI文生视频大模型【可灵】首发实测:这可能将成为真正意义的第一款「中国版Sora」
昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。
2024-12-13 20:45:55 -
Stable Diffusion 3最新模型测评丨SD3模型ComfyUI流程简单搭建
由于前不久StabilityAI开放了SD3新模型的使用权,这期我们就简单聊聊这款新模型的使用方法,以及StabilityAI对于SD3模型的发布策略,和未来的发展预期!如果本期讯息对大家有所帮助,就点赞关注支持欧阳一下吧!
2024-12-13 21:10:24 -
科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当
科大讯飞星火认知大模型3 0正式发布。星火3 0的整体性能已经超越ChatGPT,部分能力与GPT-4旗鼓相当。科大讯飞立下又一个Flag,星火4 0要对标GPT-4
2024-12-13 22:43:43 -
高考大模型测评_豆包文科成绩领先
什么?好多大模型的文科成绩超一本线,还是最卷的河南省???没错,最近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注:
2024-12-13 23:27:45 -
ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格
6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。
2024-12-13 23:42:30 -
深度解析丨ControlNet模型的工作原理与应用场景(附案例解析)
大家好,我是言川。本期文章是2024年的第一篇文章,也是2023年农历的最后一篇文章。截至这篇文章完成时,距离春节也只有最后一周的时间了,我无法单独向支持我的朋友们传达祝福之意。所以在本篇文章的开头,向大家说一些祝福之词
2024-12-18 09:12:30 -
AI绘画进阶入门ComfyUI系列教程丨第八章,只需一步极速出图,实时绘画!!
这期继续为大家分享comfyUI的相关知识LCM和Turbo的极速出图方法,希望对大家有所帮助!
2024-12-18 10:37:06