SuperCLUE发布最新4月中文大模型测评:百川智能Baichuan 3综合评分位列国内第一,部分能力超OpenAI
AI奇点网5月6日报道丨日前,国内人工智能大模型研究公司百川智能发布公众号文章称,国内最权威的大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的 32 个大模型 4 月份的版本,通过**度综合性测评,对国内外大模型发展现状进行观察与思考。
报告显示,百川智能的 Baichuan 3 在国内大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、月之暗面(Kimi)等大模型位列其后。从全球范围来看,国外同行的 GPT-4、Claude3 得分更胜一筹。
测试结果显示,Baichuan3 的文科、理科能力均衡。在知识百科能力上 Baichuan 3 以 82 分的成绩超越了 GPT-4 Turbo,在所有 32 个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以 68.60 的成绩超越 Claude 3-Opus,也力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上 Baichuan 3 表现同样不俗,均排名国内前三。
SuperCLUE 是国内通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准 CLUE(The Chinese Language Understanding Evaluation)。据介绍,SuperCLUE 本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共 2194 题。
不同于传统测评通过选择题形式的测评,SuperCLUE 纳入了开放主观问题的测评。通过**度多视角多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE 通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。
-
SuperCLUE发布最新4月中文大模型测评:百川智能Baichuan 3综合评分位列国内第一,部分能力超OpenAI
国内最权威的大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的32个大模型4月份的版本。
2025-01-30 20:18:35 -
高通推出新一代骁龙X Elite / X Plus处理器,基于AI PC打造,赋能个人移动电脑转向人工智能时代
4月底,高通推出了面向移动AI PC的骁龙X系列产品线细化芯片平台新品,也就是全新骁龙 X Plus PC与骁龙 X Elite一起,构成了驱动AI PC释放创新之力的高能矩阵。
2025-01-30 19:54:20 -
Remini“黏土”滤镜玩法刷屏,幕后公司揭晓丨苹果将采用自研大模型改进iOS 18丨奥特曼MIT讲话:AI创业机会巨大
【AI奇点网2024年5月7日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-30 19:29:27 -
五一假期全网刷屏的人气AI修图软件「Remini」实测:除了生成丑萌的黏土人,我们还发现了更多玩法
今年的五一假期,一个名为「Remini」的AI修图软件,在各大社交平台上迅速走红。用户只需要上传一张照片,就可以生成“黏土”滤镜风格的图像。
2025-01-30 19:09:02 -
OpenAI与Stack Overflow合作,将增强ChatGPT编程能力
5月7日,OpenAI在官网宣布,与著名在线编码问答论坛Stack Overflow(类似国内CSDN)达成技术合作,以增强ChatGPT在编程领域的问答能力。
2025-01-30 18:44:36 -
5月爆款丨AI图像编辑软件Remini的前世今生:幕后公司是“炒冷饭”高手,长期霸榜下载之王,年入上亿美元
很多人把Remini的黏土风效果跟国内的其它产品做对比,大部分会认为这是一家国外公司,但Remin最开始其实是一家中国公司做的出海产品。
2025-01-30 18:17:34
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51