谷歌发布「Project Astra」正面硬刚GPT-4o!超60秒AI视频丝滑生成,还把上下文窗口卷到了200万Tokens
赶在谷歌的I/O开发者大会之前发布的GPT-4o大模型,掀起的一片“AGI已至”的惊呼声。OpenAI出手再次惊艳世界,谷歌果然坐不住了。
当地时间5月14日,谷歌DeepMind CEO哈萨比斯亲自携谷歌版的《Her》多模态大模型登场:能听会看能说道。不仅能几乎没有延迟地和人类流畅交流,通过摄像头,这个名为「Project Astra」的AI助手甚至能直接帮忙读代码:
谷歌还祭出了自己的硬件优势,带来一波AR和AI大模型的梦幻联动。
一边撸狗一边玩转大模型已经成为现实。
面对OpenAI的疯狂挑衅,谷歌选择正面硬刚GPT-4o,铆足了劲,在I/O大会上释出的冰山一角。两个小时的主题演讲里,「AI」关键词被提及了多达121次,CEO劈柴还觉得不够多。
于是,对标Sora能生成一分钟长视频的视频生成模型Veo来了:
Gemini 1.5 Pro不仅面向所有人开放,上下文窗口还从100万Token直接一步推广到了200万的国际水平,一口气能读1500页PDF。
连安卓系统也与大模型Gemini绑定,摇身一变成为以AI为内核的操作系统。
总之,信息量多到爆炸!
谷歌版GPT-4o新模型登场
第一时间引发最多讨论的,当然是谷歌版《Her》——Project Astra。
Project Astra基于Gemini系列模型打造,谷歌表示,研究人员们希望这样的智能助手,能真正在人们的日常生活中提供帮助。
有意思的是,OpenAI总裁哥Brockman昨天在场外补充了有关GPT-4o多模态能力的更详细视频,而谷歌这边,哈萨比斯也是第一时间在X上更新了与这样一个智能助手的互动。
看样子,Ta不仅能完成帮忙找眼镜这样的基础工作。
帮忙搞点文艺创作,解答一下专业书上看不懂的内容,也都是信手拈来。
还有Google DeepMind的工作人员干脆和Project Astra一起看起了I/O大会直播:
不少网友都认为,这是谷歌对OpenAI的GPT-4o的正面回应。
不过嘛,网友们也关注到了不少问题,比如,Project Astra的延迟似乎还是比GPT-4o长,谷歌的演示中也没有体现是否能打断智能助手说话。
值得关注的是,Project Astra背后,是Gemini系列模型的进一步升级迭代。
比如,Gemini 1.5 Pro的上下文窗口来到了惊人的200万Tokens。
谷歌还最新推出了Gemini 1.5 Flash这一轻量级模型,并开源了27B的Gemma 2和视觉语言模型PailGemma。
60秒长视频生成
你可能已经默默在心里比较了一番Project Astra和GPT-4o的高下。
谷歌的回应,谷歌最强视频生成模型Veo来了。
Veo可以生成1080p的高质量视频,生成视频的长度也看齐Sora:最长的案例影片,长度超过了1分钟。
谷歌还强调,Veo生成的画面一致性出色,并且可以hold住各种风格。比如“延时拍摄”和“航拍”这种术语,直接写在提示词里,Veo都能get。
目前,谷歌已经和电影制作者展开了合作,在电影项目中探索Veo的应用。
与此同时,谷歌的图片生成模型Imagen也迎来更新:Imagen 3大模型发布。
官方提到,与此前的模型相比,Imagen 3的视觉伪影更少,生成的图像细节拉满,并且在生成文字方面效果也很好。
上图的提示词:「一张庄严的图书馆入口的照片,刻有“中央图书馆”字样」
另外,谷歌此次还推出了音乐生成模型Lyria,可用于支持YouTube创作者生成音乐。
Gemini进入全线产品
在这些跟OpenAI叫板的“肌肉”展示之外,谷歌对大模型应用的看重,也在此次I/O大会中尽显。
英伟达科学家Jim Fan就他的I/O观后感中表示:谷歌做对的一件事是:他们终于开始努力把AI集成到搜索框中。
还不止是搜索,这一次,谷歌可以说是把Gemini塞进了全线产品中,包括谷歌搜索、Android,以及谷歌邮箱、谷歌Photos等。下面我们划划重点。
1、谷歌搜索
基于Gemini,谷歌搜索推出AI概述(AI Overview)新功能,彻底化身AI搜索。
用户在搜索框输入问题,马上就能得到一个AI总结的答案,包括相关链接。
而且是超长问题都能处理的那种,比如:
查找波士顿最好的瑜伽或普拉提工作室,并提供他们的入门优惠详情以及从灯塔山步行所需时间。
AI Overview秒秒钟就会列出五星好评且距离灯塔山近的店,并附带课程标价,连店在地图上的位置都标记了出来:
对于这种复杂问题的搜索,谷歌表示采用了多步推理技术,可以将复杂问题拆解成一个个小问题,然后自动对问题进行排序回答。
多步推理加持下,AI Overview已经脱离了纯粹的搜索——把制定计划一并搬进了搜索引擎里。
比如直接让它为一个团体制定一个为期三天的易于执行的餐饮计划。
AI Overview一键给出了方案,每个方案都可以点击修改,下方还可以一键将食材加入购物车:
还没完,当你没有想法、问的问题比较笼统时,谷歌搜索还会AI自动将搜索结果整理成一个个“群组”,为你提供建议。
比如问:在达拉斯找一个餐厅庆祝周年纪念日。
搜索出的结果会按照音乐餐厅、具有历史魅力的餐厅等一键分组。再往下翻,页面会从餐饮逐渐扩展到电影、酒店、购物等。
此外,谷歌搜索还支持视频搜索了。
演示中,唱片机出故障,只需一边录制视频一边说出疑问,谷歌AI Overview就会立刻分析故障原因,并给出处理建议。
谷歌搜索AI Overview功能将在本周开始在美国推出,后面将陆续推至其他国家。
2、Android 15系统
谷歌把Gemini也带到了安卓系统中。
凭借直接内置的Circle to Search功能,用户使用简单的手势“圈”一下手机上看到的任何内容,就能进行搜索。
比如圈出练习题,就能一键获取答案。
目前这一功能,已在Pixel和三星的部分设备上使用。
此外,还可以在一个应用之上随时调出Gemini助手层,随时使用。你还可以将Gemini生成的图片直接拖到Gmail等应用中,直接询问某个视频中的具体信息,不用滑动翻文档询问某个PDF中的信息……
甚至连电话反诈,都用上Gemini了:听到关键字“把钱转到安全账号”,马上就能给出警报。
总之,官方强调,现在Gemini在手机上现在不止是一个APP,更是嵌入了安卓的系统级体验的基础。
3、谷歌Photos
谷歌Photos基于Gemini也推出了新功能——Ask Photos,可以一键从图库中帮你找到想要的照片和视频。
比如你想知道自己的baby是什么时候学会游泳的,Ask Photos会从你在谷歌Photos中存储的成百上千张照片中查找出含游泳、游泳证书等相关图片,最后总结给出回复:
Ask Photos这一功能将在今年夏天推出。
4、谷歌Workspace
Gemini也接入到了谷歌Workspace提供的一套生产力和协作工具中,包括谷歌邮箱、谷歌Docs、谷歌Calendar等。
这使得在这些工具间进行跨应用工作变得更加容易。
例如在谷歌邮箱中自动分析邮件以及附件,识别整理好收据,然后一键在Drive和Sheets中处理。
5、NotebookLM
谷歌AI笔记应用NotebookLM也大升级。
如下图所示,当你提出一个问题后,背后的Gemini模型就会结合NotebookLM中的笔记内容,进行多模态的语音对话式回答。
也就是说,所有笔记都可以变成交互式教材。
第六代TPU
最后,在硬件部分,谷歌也带来了新消息:第六代TPU Trillium将在今年向云客户提供。与TPU v5e,Trillium的峰值计算性能提高4.7倍,HBM和带宽增加了1倍,芯片间互联(ICI)带宽也增加了1倍。另外,Trillium的能效比TPU v5e高出了67%以上。
有关谷歌I/O的更多细节,可以戳:
https://blog.google/technology/developers/google-io-2024-collection/
那么今日份的发布会笔记,就先做到这里了。你觉得谷歌这波表现如何?
-
谷歌发布「Project Astra」正面硬刚GPT-4o!超60秒AI视频丝滑生成,还把上下文窗口卷到了200万Tokens
当地时间5月14日,谷歌DeepMind CEO哈萨比斯亲自携谷歌版的《Her》多模态大模型「Project Astra」登场:能听会看能说道。
2025-01-26 15:07:25 -
2024谷歌I/O开发者大会回顾:疯狂2小时新品放送,从大模型到软件应用到算力TPU,正面硬刚GPT-4o与Sora
谷歌I O 2024如期来了,眼花缭乱地发布了一堆更新。面对一天前的OpenAI挑衅,谷歌甩出Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。
2025-01-26 14:46:32 -
详解腾讯混元文生图大模型开源大模型:国内首个中文原生的DiT架构图像生成模型
首个中文原生DiT架构!腾讯混元文生图大模型免费商用,据了解,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解。
2025-01-26 14:20:32 -
10年缘分说散就散:Ilya Sutskever官宣从OpenAI离职,麾下的“超级对齐团队”负责人也一并离职
5月14日,OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推文对外宣告离职。作为联合创始人历经供职十载,OpenAI初创团队还是走散了
2025-01-26 13:54:56 -
字节跳动发布豆包大模型丨微软计划将中国区AI团队整体搬至美国丨字节携手多家厂商成立智能终端大模型联盟
【AI奇点网2024年5月16日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-26 13:30:04 -
媒体曝:微软总部计划将??中国区AI团队迁出,员工可选跨国转岗
多位微软中国的员工反映,微软总部最新下发邮件,通知位于微软(中国)负责人工智能相关研究项目的多个团队,将整体搬迁至美国、爱尔兰或澳大利亚。
2025-01-26 13:02:50
-
AI绘画comfyUI教程_图生图工作流程
本期的视频教程是关于在ComfyUI中搭建完整的图生图工作流的。视频中介绍了如何使用ComfyUI中的组件来实现图像的裁剪和重绘。
2024-12-18 13:42:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01