新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了
阿里开源,又拿第一了。
这次是在多模态领域:
就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6.在多模态权威综合评测基准OpenCompass上,Ovis1.6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,在300亿以下参数开源模型中位居第一。
在数学推理和视觉理解等多项任务中,得分甚至超过了闭源的GPT-4o-mini。
具体来说,Ovis1.6能胜任视觉感知推理、数学和科学、生活场景等多种多模态任务。
拿大家伙儿都很关注的数理能力举个
,Ovis1.6的表现是酱婶的:
妈妈再也不用担心我学不明白大学数学。
用来辅助读读论文:
分析财报,效果也相当不错。
还能当场看图教你做一道经典的炸鱼薯条(手动狗头)。
值得一提的是,阿里国际的Ovis系列多模态大模型,遵循的是Apache 2.0开源协议。也就是说,协议很宽松,商用很友好。
从结构上对齐视觉和文本嵌入
话不多说,我们照例来拆解一下Ovis这个新科第一背后的技术细节。
根据OpenCompass评测基准,Ovis1.6-Gemma2-9B超过了Qwen2-VL-7B、MiniCPM-V-2.6等一众相同参数量级的知名多模态模型。
在数学等推理任务中,甚至有媲美70B参数模型的表现。
Ovis1.6的幻觉现象和错误率也低于同级别模型,展现了更高的文本质量和准确率。
如何做到?阿里国际AI团队的核心思路是:从结构上对齐视觉和文本嵌入。
当前,多数开源多模态大语言模型(MLLM)并非从头训练整个模型,而是通过像多层感知机(MLP)这样的连接器,将预训练的大语言模型(LLM)和视觉Transformer集成起来,给LLM装上“眼睛”。
这样一来,就导致了一个问题:MLLM的文本和视觉模块采用不同的嵌入策略,使得视觉和文本信息没办法无缝融合,限制了模型性能的进一步提升。
针对这个问题,Ovis采用了视觉tokenizer+视觉嵌入表+大语言模型的架构。
Ovis借鉴了大语言模型中的文本嵌入策略,引入了可学习的视觉嵌入表,将连续的视觉特征先转换为概率化的视觉token,再经由视觉嵌入表多次索引加权得到结构化的视觉嵌入。
文本方面,Ovis沿用当前大语言模型的处理方式,文本tokenizer将输入文本转化为one-hot token,并根据文本嵌入表查找到每个文本token对应的嵌入向量。
最后,Ovis将所有视觉嵌入向量与文本嵌入向量拼接起来,经由Transformer处理,完成多模态任务。
此次开源的Ovis1.6.相较于前代Ovis1.5.还在架构、数据、训练策略等方面做出了进一步优化。
架构方面,采用动态子图方案,能灵活应对不同分辨率图像特征,提升了模型处理复杂视觉任务的能力。
数据方面,Ovis1.6在训练中涵盖了多种类型的数据集,包括Caption、OCR、Table、Chart、Math等,确保模型在广泛的应用场景中都有出色表现。
训练策略方面,采用DPO等方案持续优化模型性能,增强了模型在生成文本和理解复杂指令方面的能力,使得模型在复杂任务上的表现进一步提升。
消融实验的结果还显示,在训练数据、模型参数、LLM和视觉底座都保持相同的情况下,与基于MLP连接器的多模态大模型架构相比,Ovis性能整体提升了8.8%。
量子位还了解到,作为一项基础研究,Ovis目前已经被广泛应用到了阿里国际的实际业务中。
AI能力变革出海电商
正如大家所知,阿里国际是一家AI驱动的、拥有多个全球知名电商的公司。
而事实上,出海电商这个场景,早已第一批被AIGC“渗透”。
原因很直接:做出海生意,往往面临海外市场复杂、成本和竞争压力大、跨境人才短缺等等共性问题,而多模态大模型这样的AIGC技术,恰恰能在这些问题上,提供适配的降本增效方案。
举个例子,在跨境电商领域,退货退款一直是影响用户体验的重要因素。
传统方案是人工进行退款退货的审核和判责。这不仅需要大量审核人力和较久的审核时间,还会因为人工主观的评判标准不一,导致判罚的不稳定性较高。多数平台为了保证用户体验,倾向于给消费者更多的倾斜,但这也伤害了部分商家和平台的权益。
现在,基于Ovis,阿里国际融合过去积累的大量电商知识,上线了智能退款系统。
相比于人工,Ovis针对用户提供的退货退款图文和视频详情,可以提供秒级的审核服务,且具有高度稳定的一致性。这就在保证消费者和商家公平权益的同时,实现了快速低成本的退货退款方案。
另外,在商品属性提取、生成卖点等场景中,Ovis也已落地应用。
阿里国际AI团队,正是在如此预判下成立试跑的。而就在成立这一年多时间里,阿里国际已经实现AI能力在跨境电商领域的规模化应用:
AI发布商品达到百万规模,并且通过AI优化,这些产品在海外的搜索量提升了37%。
AI能力覆盖营销、客户服务、商品发布、设计、合规等40+应用场景,服务全球50万商家。
阿里国际AI能力日均超5千万次调用,规模每两月翻番。
……
Ovis之外,阿里国际还构建了多语言增强大模型Marco,电商版多模态大模型MarcoVL,提供的MaaS服务包括:
多语言文本生成技术:为商品详情描述适配当地语言,让AI为商品介绍改写优化多语言标题,突破语言和文化壁垒。
AI图片处理,比如一键生成多张虚拟试衣效果。
以及智能消除、智能抠图等图像设计类能力。
可以说,从创立店铺到市场营销,再到售前售后,在出海电商的各个环节,阿里国际都已提供相应的AI技术予以辅助——
潜移默化中,AI已经完全改变商家的工作方式和生产效率。
△店铺设计来自AI
大模型之所以能在各行各业掀起惊涛骇浪,核心原因就是对生产力的解放和降本增效。
在这一波变革之中,对于阿里国际这样的平台而言,AI技术能力再次成为最受关注的核心竞争力。
而借助平台之力,出海电商商家已经开始第一批享受拥抱AI的红利。
对于广大开发者而言,来自于实干家们的开源贡献,亦是福音。
-
新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了
就在刚刚,阿里国际AI团队开源多模态大模型Ovis1 6 在多模态权威综合评测基准OpenCompass上,Ovis1 6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2 6等主流开源模型,在300亿以下参数开源模型中位居第一。
2025-01-09 13:24:55 -
可灵AI发布V1.5版本视频大模型丨通义千问发布开源大模型Qwen2.5系列丨通义万相推出AI文生视频功能
【AI奇点网2024年9月20日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 12:57:10 -
腾讯把我的公众号,变成了一个巨大的“数字生命”
去年11月,我第一次推荐Kimi的时候,就是因为我想做一个数字分身,把我写过的所有公众号文章,当作一个知识库,让AI来解答各种乱七八糟的问题。
2025-01-09 12:28:57 -
8月华军软件园AI产品榜首发!7大用户使用场景一文打尽,狠狠收藏
统计8月周期,我们在上周正式对外发布第一期榜单,提供聊天机器人助理、办公效率、图像制作、视频创作、AI数字人生成、教育辅助产品以及AI搜索工具分榜。
2025-01-09 12:05:26 -
OpenAI o1霸榜“大模型竞技场”丨公众号客服系统集成腾讯元器AI智能体丨「苹果AI」加持的Siri升级有望在明年1月推出
【AI奇点网2024年9月23日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 11:35:39 -
OpenAI奥特曼预测:「智能时代」即将到来丨字节即梦AI推出Loopy“对口型”功能丨钉钉推出365会员,强化AI付费服务
【AI奇点网2024年9月24日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 11:11:37
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51