谷歌向微软英特尔全面宣战!首款自研Arm CPU,最强大模型公测,AI视频对垒Sora
昨天的谷歌Next大会可是太精彩了,谷歌一连放出不少炸弹。
- 升级「视频版」Imagen 2.0.下场AI视频模型大混战
- 发布时被Sora光环掩盖的Gemini 1.5 Pro,正式开放
- 首款Arm架构CPU发布,全面对垒微软/亚马逊/英伟达/英特尔
此外,谷歌的AI超算平台也进行了一系列重大升级——最强TPU v5p上线、升级软件存储,以及更灵活的消费模式,都让谷歌云在AI领域的竞争力进一步提升。
连放大招的谷歌,必不会在这场AI大战中退让。
从OpenAI跳槽的研究员Logan Kilpatrick,也在第一时间转发了Gemini 1.5 Pro的消息。看得出来,他已经是一名真真正正的谷歌员工了
在短短两个月内,谷歌一键将多种前沿模型引入Vertex AI,包括自家的Gemini 1.0 Pro、轻量级开源模型Gemma,以及Anthropic的Claude 3.
Gemini 1.5 Pro,人人可用了!
传说中的谷歌最强杀器Gemini 1.5 Pro,已经在Vertex AI上开放公测了!
开发者们终于可以亲自体验到,前所未有的最长上下文窗口是什么感觉。
Gemini 1.5 Pro的100万token,比Claude 3中最大的200K上下文,直接高出了五倍!而GPT-4 Turbo,上下文也只有128K。
当然,超长上下文在无缝处理输入信息方面,仍然有一定的局限性。
但无论如何,它让对大量数据进行本机多模态推理成为可能。从此,多海量的数据,都可以进行全面、多角度的分析。
自然而然地,我们可以正式用Gemini 1.5 Pro开发新的用例了。比如AI驱动的客户服务智能体和在线学术导师,分析复杂的金融文件,发现文档中的遗漏,查询整个代码库,或者自然语言数据集。
现在,已经有无数企业用Gemini 1.5 Pro真实地改变了自己的工作流。
比如,软件供应商思爱普用它来为客户提供与业务相关的AI解决方案;日本广播公司TBS用它实现了大型媒体档案的自动元数据标注,极大提高了资料搜索的效率;初创公司Replit,则用它更高效、更快、更准确地生成、解释和转换代码。
加入音频处理能力
不仅如此,Gemini 1.5 Pro现在还增加了音频功能。
它能处理音频流,包括语音和视频中的音频。
这直接就无缝打破了文本、图像、音频和视频的边界,一键开启多模态文件之间的无缝分析。
在财报电话会议中,一个模型就能对多种媒介进行转录、搜索、分析、提问了。
Imagen 2.0能生视频了:4秒24帧640p
并且,这次谷歌也下场开卷AI模型了!
AI生图工具Imagen,现在可以生成视频了。
只用文本提示,Imagen就能创作出实时的动态图像,帧率为每秒24帧,分辨率达到360x640像素,持续时间为4秒。
谷歌表示,Imagen在处理自然景观、食物图像和动物等主题时,表现尤为出色。
它不仅能够创造出一系列多样的摄影角度和动作,还能确保整个序列的视觉一致性。
同时,这些动态图像也配备了安全过滤和数字水印技术。
图像编辑
并且,谷歌对Imagen 2.0也升级了图像编辑功能,增加了图像修复、扩展、数字水印功能。
想把图中这个男人去掉?一键圈出,他就没了!并且模型还自动补全了山上的背景。
想让远处的山高一点?Imagen 2.0也能轻松做到。
另外,它还可以帮我们扩大图片边缘,获得更广阔的视角。
而数字水印功能,由Google DeepMind的SynthID强力驱动。
这样,用户为就可以图片和视频生成隐形水印,并且验证它们是否由Imagen所生成。
全新代码模型CodeGemma发布,核心团队华人占6成
最新发布轻量级代码生成模型CodeGemma,采用的是与Gemma系列相同的架构,并进一步在超过5000亿个代码Token上进行了训练。
目前, CodeGemma已经全系加入Vertex AI。
论文地址:https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
具体来说,CodeGemma共有三个模型检查点(Checkpoint):
CodeGemma 7B的预训练版本(PT)和指令微调版本(IT)在理解自然语言方面表现出色,具有出众的数学推理能力,并且在代码生成能力上与其他开源模型不相上下。
CodeGemma 2B则是一个SOTA的代码补全模型,可以进行快速的代码填充和开放式生成。
预训练数据
CodeGemma的训练数据包括了来自网络文档、数学和代码的5000亿个Token(主要是英文)。
2B规模的模型完全使用代码进行训练,而7B规模的模型则采用了80%编程代码外加20%自然语言的方式。
为了确保数据的质量,谷歌对数据集进行了去重和过滤,移除了可能影响评估的代码样本和一些个人或敏感信息。
此外,谷歌还对CodeGemma模型的预训练采用了一种改进的中间填空(Fill-in-the-Middle, FIM)方法,以此来提升了模型的训练效果。
具体可以分为两种模式:PSM(前缀-后缀-中间)和SPM(后缀-前缀-中间)。
指令微调
通过让模型接触各种数学问题,可以提升它在逻辑推理和解决问题方面的能力,这对编写代码来说是非常重要的。
为此,谷歌选用了多个主流的数学数据集进行监督微调,包括:MATH、GSM8k、MathQA,以及合成数学数据。
在代码方面,谷歌采用了合成代码指令的方法来创建数据集,用于后续的监督微调(SFT)和基于人类反馈的强化学习(RLHF)之中。
为了确保生成的代码指令数据既有用又准确,谷歌采取了以下方法:
- 示例生成:根据OSS-Instruct的方法,制作一系列独立的问题与答案对;
- 后期过滤:利用大语言模型来筛选这些问题与答案对,评估它们的实用性和准确性。
代码补全
如表2所示,CodeGemma 2B在代码补全场景下展现出了卓越的性能,尤其是在低延迟的表现上。
其中,推理速度更是比不少模型快了有2倍之多。
Python
HumanEval和Mostly Basic Python Problems的评估结果如表3所示。
与Gemma基础模型相比,CodeGemma在编程领域的任务上表现明显更强。
多种编程语言
BabelCode通常用来评估模型在多种编程语言中的代码生成性能,结果如表4所示。
语言处理能力
图3展示了多个领域的性能评估结果,包括问答、自然语言处理以及数学推理。
可以看到,CodeGemma同样有着Gemma基础模型的自然语言处理能力,其PT和IT版本在性能上均优于Mistral 7B和Llama2 13B——分别领先了7.2%和19.1%。
进一步地,如表5所示,CodeGemma在数学推理方面,相比同等规模的模型有着更出色的表现。
推理建议
如图4所示,在进行代码补全任务时,比如函数补全、注释文档字符串生成或者导入模块建议,应当按照一定的格式来设计输入提示。
官宣自研Arm架构CPU处理器Axion
此次Next大会上,谷歌还正式宣布,将自研首款基于Arm的CPU。
据称这款CPU处理器Axion,将提供比英特尔CPU更好的性能和能源的效率,其中性能提高50%,能源效率提高60%。
据悉,比起目前基于Arm的最快通用芯片,Axion的性能还要高出30%。
凭着这个新武器,谷歌也在AI军备竞赛中,正式向微软和亚马逊宣战!
新CPU Axion,显然是谷歌跟随亚马逊AWS和微软Azure的动作——它也想自研处理器了。
Axion将帮助谷歌提高通用工作负载的性能,比如开源数据库、Web和应用程序服务器、内存缓存、数据分析引擎、媒体处理和AI训练。
由此,谷歌在开发新的计算资源方面,又向前迈进了一步。在今年晚些时候,Axion就可用于云服务了。
AI军备竞赛加快,CPU重要性凸显
对于AI军备竞赛来说,像Axion这样的CPU至关重要,因为它能提升训练AI模型所需的算力。
要训练复杂的AI模型,就需要处理大型数据集,而CPU有助于更快地运行这些数据集。
要说此举的最大的好处,那无疑就是——省钱!
众所周知,购买AI芯片的成本惊人,英伟达的Backwell芯片,预计售价在3万美元到4万美元之间。
现在,Axion芯片已经在为YouTube 广告、Google Earth引擎提供加持了。
而且,很快就可以在谷歌计算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow、Cloud Batch等云服务中使用。
不仅如此,原本在使用Arm的客户,无需重新架构或者重写应用程序就可以轻松地迁移到Axion上来。
TPU v5p上线,与英伟达合作加速AI开发
在此次Google Cloud Next 2024年会上,谷歌宣布:对自家超算平台进行大规模升级!
升级列表中的第一位,就是谷歌云的张量处理单元TPU v5p了。如今,该定制芯片全面向云客户开放。
谷歌的TPU,一直被用作英伟达GPU的替代品,用于AI加速任务。
作为下一代加速器,TPU v5p专门用于训练一些最大、最苛刻的生成式AI模型。其中,单个TPU v5p pod包含8.960个芯片,是TPU v4 pod芯片数量的两倍之多。
另外,谷歌云还将和英伟达合作加速AI开发——推出配备H100的全新A3 Mega VM虚拟机,单芯片搭载高达800亿个晶体管。
而且谷歌云还会将英伟达最新核弹Blackwell整合进产品中,增强对高性能计算和AI工作负载的支持,尤其是以B200和GB200提供支持的虚拟机形式。
其中,B200专为「最苛刻的AI、数据分析和HPC工作负载而设计」。
而配备液冷的GB200.将为万亿参数模型的实时LLM推理和大规模训练提供算力。
虽然现在万亿参数的模型还不多(少量几个选手是SambaNova和谷歌的Switch Transformer),但英伟达和Cerebras都在冲万亿参数模型硬件了。
显然,他们已经预见到,AI模型的规模还会迅速扩大。
软件
在软件方面,谷歌云推出了JetStream,这是一款针对LLM的吞吐量和内存优化了的推理引擎。
这个新工具可以提高开源模型的单位美元性能,并与JAX和PyTorch/XLA框架兼容,从而降本增效。
存储大战
此外,谷歌的存储解决方案也在不断升级——不仅加速了AI训练和微调,优化了GPU和TPU的使用,还提高了能效和成本效益。
此次,谷歌推出的Hyperdisk ML,显著缩短了模型加载时间,提高了吞吐量,并对AI推理和服务工作负载进行了优化。
不仅支持每个存储卷承载2.500个实例,而且还提供了高达1.2TiB/s的数据吞吐量,性能直接超越微软和AWS。
已发布的Cloud Storage FUSE,可将基础模型的训练吞吐量提高2.9倍,性能提高2.2倍。
高性能并行文件系统Parallelstore可将训练速度提高到3.9倍,并将训练吞吐量提高到3.7倍。
而专为AI模型量身定制的Filestore系统,允许在集群中的所有GPU和TPU之间同时访问数据,将训练时间缩短56%。
总之,此次谷歌超算的大规模更新表明,谷歌在努力为客户带来实际的商业利益,创建无缝集成、高效可扩展的AI训练和推理环境。
-
谷歌向微软英特尔全面宣战!首款自研Arm CPU,最强大模型公测,AI视频对垒Sora
昨晚的Google Cloud Next 2024大会上,谷歌接连放出一堆模型和产品王炸:Gemini 1 5 Pro公开可用、上线音频处理能力;代码模型CodeGemma上新,首款自研Arm处理器Axion正式向微软和亚马逊宣战……这次,谷歌要以量取胜。
2025-02-03 22:41:12 -
金山发布WPS 365办公套件,打造ToB企业全场景一站式AI办公工作流新模式
4月9日,金山办公生产力大会在京举行,现场发布了面向组织和企业的办公新质生产力平台WPS 365 其包含升级的WPS Office、最新发布的WPS AI企业版和WPS协作。
2025-02-03 22:13:57 -
马斯克预测:AI人工智能技术最快将在两年内超越地表最聪明的人类智商
马斯克预测:AI将在两年内超越地表最聪明的人
2025-02-03 21:49:37 -
谷歌发布Gemini 1.5 Pro公共预览版丨苹果iOS 18或将引入Safari网页助手丨华为笔记本将首次搭载盘古大模型
【AI奇点网2024年4月11日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-03 21:26:40 -
谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评
谷歌最牛的大语言模型Gemini 1 5 Pro,即日起对外开启公测。划重点!本次更新最令人期待的是,Gemini 1 5 Pro API首次增加了音频信息的理解功能。
2025-02-03 21:01:10 -
苹果下一代M4芯片聚焦AI算力丨AI音乐生成模型「天工SkyMusic」内测丨李彦宏看好“闭源模型”持续领先
【AI奇点网2024年4月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-03 20:34:25
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34