商汤「日日新4.0」大模型测评:性能逼近GPT-4,全新「Assistants API」能力连OpenAI都只能自叹不如
近日,商汤官宣新一代大模型「日日新SenseNova 4.0」。
大模型体系全面升级,宣称多项任务性能超越GPT-4!
不仅如此,商汤还领先推出全球首个支持不同模态下实现工具调用的Assistants API,伴随新版模型同时发布。
除了升级旗下的「商量」对话模型、「秒画」图像模型外,商汤还发布了数据分析大模型,以及医疗大模型「大医」等。
值得一提的是,商汤最新首发的Assistants API内置多种开发工具,可以实现「文生图」与「图生文」互相转换,属实全球首发。
这一构想最早由OpenAI提出,没想到是“起了个大早,赶了个晚集”。
当我们将大模型和各类工具应用结合起来,开发者就可以打造更强大的大模型,让模型拥有「眼睛」和「手臂」,轻松调用图+文多模态能力。
下边一起细细品味商汤大模型的华丽进展~
AI智能识图测评
图像内容理解,是一个多模态模型最基本的能力。
给商汤大模型一张普通的公路行车图像,它将图中字体特别小的指示牌信息提取出来,并进行推理,最终给出了「黄石东路」怎么走的决策。
再看下面这张油画图像,蝴蝶的动态、昆虫的颜色都能一一辨别,还能进行深入分析,辨别出作者的签名,提供评价供用户参考。
此外,上传一张海报进行识别,商汤的表现也是十分出色——它可以通过辨别文字信息,进而判断这是一张主题海报。
甚至还能通过结合文字信息和视觉信息,读懂整幅海报的氛围。
服装穿搭,它也非常拿手,让你穿着打扮更有范儿。
直接上传一张衣服的照片,询问该怎么穿搭?
它会识别出衣服颜色款式,并会提供合适的穿搭建议。
商汤的多模态模型不仅可以读懂一般的图像,甚至可以轻松拿捏表情包。
比如这只歪头凝视的猫咪,它的认知是准确的。
上传一张东方明珠的照片,它就会给出详细的景点介绍。
AI图片生成测评
除了图像理解“图生文”外,商汤大模型可以为你将东方明珠这个主题画面,制作一张相似场景的节日夜景。
注意看,这是在同一轮对话窗口内实现的多模态转换。
AI在线检索测评
借助在线检索工具,可以让我们拥有了访问互联网数据的能力。
比如,让它查询上海各区最新的人口数据,就能给出准确的回应。
AI数据分析测评
作为一个产品经理,想让各个APP的使用情况实现图表可视化,就只需要上传一份APP使用数据的Excel表格。
借助商汤大模型旗下的“小浣熊家族”办公工具,生成相应的Python代码,以及所要求的图表,并在右边给出对应的数据分析结果。
不管是简单的折线图,还是复杂的箱线图,都可以快速呈现。
除此之外,它还可以分析多个表格之间的关联关系。
比如各地的水资源分布与当地的人口是否存在相关性。
不仅可以针对多个表格文件进行关联分析,还能进行多轮对话。
如果对图表呈现感觉不满意,还能提出修改意见。
商汤“日日新”4.0:部分能力超越GPT-4
多模态能力的提升,有赖于最新升级的“日日新”大模型4.0.在整体表现上已经非常接近GPT-4的水平了。
更为全面的知识覆盖、更加可靠的推理能力,更长文本理解力,及稳定的数字推理能力和代码生成能力,并支持跨模态交互。
具体来说:
代码能力在HumanEval Coding测评标准上超越了GPT-4 Turbo多模态能力在MMBench评测上,整体性能超越GPT-4V代码解释器在数据分析领域以85.71%的正确率超越GPT-4部分垂直领域能力,实现对GPT-4 Turbo的领先推理能力则达到了GPT-4 Turbo 99%的水平商汤还针对“商量”大语言模型进行了高强度的针对性压力测试,数据全面对标GPT-4。
其中“商量”SenseChat-32k可支持约3万字以上的中文长文本总结,整体能力平均达到了GPT-4-32K 90%以上水平,并在中文内容理解能力上实现了超越。
「旗舰版的」“商量”SenseChat-128k,更是可以支持约12万以上的中文长文本总结,直接吞下一篇深度的学术报告。
压力性能测试下,128k、32k版本的“召回率”,整体表现超过GPT-4。
内置数据分析工具集
商汤数据分析工具应用「小浣熊家族」,能理解多种表格和文件类型以及复杂表格处理。
可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等),以及单表格、多表格、多文档类型、复杂表格等不同数据场景。
结果显示,商汤大模型在测试集上的语义理解精度超越GPT-4.强大的中文理解能力加持下,更能够满足国内数据分析的需求。
医疗垂直大模型后来居上
商汤还打造了医疗大模型「大医」,在多个垂类测试当中击败了同行。
有效实现专业医学问答以及复杂医学任务的推理,配合上丰富的工具调用能力,还能支持更多模态医学文件的智能解读和交互问答。
在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中,「大医」均跻身综合评分排名第二,性能接近GPT-4。
AI在线生图对提示词还原可圈可点
商汤旗下的“秒画”文生图大模型也得到了升级,细节大幅提升,可实现电影级质感的图像。
具体来说,相对于之前的版本,“秒画”的文生图大模型从十亿级的训练量上升到百亿级参数。
他们还进一步优化了图像模型的Turbo版本,出图提速10倍。
全球首发:Assistants API支持不同模态工具调用
对于更多的应用开发者来说,商汤“日日新”4.0此番升级带来了领跑OpenAI的工具落地能力。
开发者可以一站式调用“⽇⽇新”的图片生成(文生图)、智能识图(图生文)、数据分析(代码解释器)、在线检索工具这几项能力。
如此一来,大大降低了开发者想要在自己的应用中实现各种AI功能的门槛,使得API的调用效率产生了质的提高。
「Assistants API」的概念最早由OpenAI在去年11月的开发者大会上提出,直译过来就是:API调用助理。
然而,OpenAI官宣的API开发助手,并不支持多模态能力,这意味着开发者无法同时调用GPT对话模型与DALL·E 3图像模型。
作为国内领先的人工智能企业,商汤仅仅用了不到三个月,就做出全球首个支持不同模态工具调用的「Assistants API」,比OpenAI领先落地产品,先OpenAI一步让理想照进了现实。
与传统的对话机器人接口相比,商汤Assistants API的突出优势在于,支持图+文结合的多模态交互,以及代码执行结果的直观呈现。
医学上,我们认为人类的“左脑更理性,右脑更感性”。
商汤Assistants API赋予了大模型各项推理能力以及绘制图像的能力,让AI的“左右脑”同时协同起来。
Assistants API的创新,将推动大模型技术的商业格局发生巨变,增强自动化智慧决策能力。
正如商汤「日日新」之名,升级到4.0版本后,大语言模型、多模态大模型,以及图像生成大模型,全系完成一轮进化。
面向未来,大模型的根本在于重塑生产力,各位开发者不妨细细品读商汤正在做的技术赋能。
商汤Assistants API免费申请地址:
https://platform.sensenova.cn/
-
商汤「日日新4.0」大模型测评:性能逼近GPT-4,全新「Assistants API」能力连OpenAI都只能自叹不如
近日,商汤官宣新一代大模型「日日新4 0」。大模型体系全面升级,不仅如此,商汤还领先推出全球首个支持不同模态下实现能力调用的Assistants API
2025-02-13 11:37:00 -
OpenAI发布文生视频模型Sora震撼全球丨谷歌发布Gemini V1.5版本丨芯片设计公司ARM股价一周飙升93%
【AI奇点网2024年2月18日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-13 11:08:21 -
openai取消每日限制_GPT-4 turbo取消每日限制
2月17日,OpenAI在社交平台宣布,取消了GPT-4 Turbo的所有每日限制,并将速率限制提升1倍。现在,每分钟可处理高达150万TPM的数据。
2025-02-13 10:38:31 -
AI视频制作技术登上央视春晚舞台丨Stability AI推出文生图模型Stable Cascade丨OPPO魅族宣布聚焦AI手机
【AI奇点网2024年2月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-13 10:10:46 -
爆火Sora震惊威尔·史密斯,真人整活吃意面视频丨OpenAI技术路线或早在1月被成功预言
威尔·史密斯的这段视频,把全网都骗了!其实Sora的技术路线,早已被人预言了。李飞飞去年就用Transformer做出了逼真的视频。但只有OpenAI大力出奇迹,跑在了所有人前面。
2025-02-13 09:47:49 -
周鸿祎评价Sora:AGI实现将缩短到两三年丨OpenAI开发网络搜索服务产品丨傅盛:AGI和Sora没有大关联
【AI奇点网2024年2月20日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-12 17:52:27
-
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
快手AI文生视频大模型【可灵】首发实测:这可能将成为真正意义的第一款「中国版Sora」
昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。
2024-12-13 20:45:55 -
Stable Diffusion 3最新模型测评丨SD3模型ComfyUI流程简单搭建
由于前不久StabilityAI开放了SD3新模型的使用权,这期我们就简单聊聊这款新模型的使用方法,以及StabilityAI对于SD3模型的发布策略,和未来的发展预期!如果本期讯息对大家有所帮助,就点赞关注支持欧阳一下吧!
2024-12-13 21:10:24 -
科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当
科大讯飞星火认知大模型3 0正式发布。星火3 0的整体性能已经超越ChatGPT,部分能力与GPT-4旗鼓相当。科大讯飞立下又一个Flag,星火4 0要对标GPT-4
2024-12-13 22:43:43 -
高考大模型测评_豆包文科成绩领先
什么?好多大模型的文科成绩超一本线,还是最卷的河南省???没错,最近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注:
2024-12-13 23:27:45 -
ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格
6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。
2024-12-13 23:42:30 -
深度解析丨ControlNet模型的工作原理与应用场景(附案例解析)
大家好,我是言川。本期文章是2024年的第一篇文章,也是2023年农历的最后一篇文章。截至这篇文章完成时,距离春节也只有最后一周的时间了,我无法单独向支持我的朋友们传达祝福之意。所以在本篇文章的开头,向大家说一些祝福之词
2024-12-18 09:12:30 -
AI绘画进阶入门ComfyUI系列教程丨第八章,只需一步极速出图,实时绘画!!
这期继续为大家分享comfyUI的相关知识LCM和Turbo的极速出图方法,希望对大家有所帮助!
2024-12-18 10:37:06