谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评
当下最火的「长文本」来力嘞!
谷歌最牛的大语言模型Gemini 1.5 Pro,即日起对外开启公测。
目前使用是完全免费,开发者可以通过API调用的方式免费体验,普通用户也可以直接在谷歌的AI Studio中进行体验。
更具有讽刺意味的是,对外发布产品公测消息的谷歌工程师Logan Kilpatrick,不久前还是OpenAI的开发者关系项目负责人,跳槽之后就得到“重用”可谓兵不血刃弑旧主。
划重点!本次更新最令人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。
一句话——无论是学术论文、财报分析师电话会议、谈话电视节目还是TED的长篇演讲,我们不再需要课代表or字幕组,就可以轻松掌握核心内容。
如下图所示:
我们上传了一段谷歌首席科学家Jeff Dean一篇长度大约为117000 Tokens的演讲录音,Gemini 1.5 Pro仅耗时30.8秒就完成了内容解析。
要知道,目前Gemini 1.5 Pro同样支持「长文本」功能,上下文窗口提取100万,这次也直接对外免费开放。
据悉,目前大模型能处理的最长音频约为11小时,最长视频则为1小时,相当够用。
谷歌Gemini 1.5 Pro API免费耍
谷歌这次推出的Gemini 1.5 Pro被定义为「公开预览版」。它主要面向开发者发布,任何人都可通过谷歌AI Studio开发平台申请API的密钥。
你也可以直接在谷歌AI Studio在线开测备受好评的音视频解析功能。
点击AI Studio里边的「Audio」。
我们给Gemini上点狠招——我们上传了比尔·盖茨在1995年做客美国《深夜秀》访谈节目的一段音频,时长为1分钟。
我们没有提供任何暗示性提示词,谷歌Gemini 1.5 Pro就已经听出了访谈双方是什么人物,是什么身份。
并且只花了10秒的时间,就精准整理出了这段对话的核心信息,干脆利落一句废话都没有。
第一次体验,测试表现就令人折服。
接下来,测一个更难的——上传特斯拉前人工智能部门总监Andrej Karpathy的一段长达1小时关于AI大模型的科普讲解。
我们提取音频文件时发现,这则1小时的影片足足有10万多个Tokens。
这个Tokens数据量还是蛮惊人的。
但是难不倒Gemini 1.5 Pro,最终也只花了53秒——一分钟不到,就按要求给出了演讲稿里边的10个亮点分析。
这种「长文本」音频转文本的功能,让我们再也不用大费周章扒文字稿和字幕了。
回到API接口本身。
除了让开发者可以更好地控制音频理解的大模型接口输出,Gemini 1.5 Pro还提供了另外3项功能改进。
①首先是系统指令。
我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。
设置完成后,这个指令就会应用于接下来的整个请求。
示例如下:
②其次是JSON模式。
也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。
③再者,函数调用上也有改进。
为了提高可靠性,谷歌Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。
可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。
最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:text-embedding-004(又名「Gecko」)。
该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。
谷歌最强大模型,能干的不止文稿分析
为了挑战OpenAI的领导地位,谷歌在2月15日发布Gemini 1.5 Pro,上线距今还不到两个月。
Gemini 1.5 Pro是Gemini Pro 1.0的升级版,多模态多语言大模型。
为了找到对抗GPT-4 Turbo的突破口,其最大的亮点无疑是100万量级的上下文窗口长度——
100万「长文本」Tokens,相当于可一次性处理70万个单词or超过3万行代码,如果折算成音频则大约为11小时,视频则为1小时。
无疑是很大的一个量级,而且谷歌的数据中心有能力支持运转。
官方的演示案例里边使用了阿波罗11号登月项目长达402页的文字记录来展示,可谓「遥遥领先」。
网友也对新的模型分享了一些十分不错的内测表现案例,比如:
帮助鉴定Sora视频是否由AI生成,请列举关键证据——
Gemini Pro 1.5对此回答:「这可能是AI生成的视频,猫咪毛发过于完美。」
大模型还可以在一段NBA扣篮大赛的视频中,判断出谁的扣篮得分最高, 并给出扣篮方式的细节描述。
谷歌Gemini Pro 1.5还支持多个文档同时解读,比如将《星际穿越》和《星际探索》两部电影的完整脚本,合计接近10万个Tokens。
大模型只花了30多秒就给出了两部影片脚本的差异性。
可以说,谷歌整体是没有让大伙失望的。
这还没完,最高能的应用案例来了!
没想到Gemini Pro 1.5还能看懂视频里边的代码脚本,并且给出BUG修改意见——
一位国外网友在编写网页前端代码时故意留下3个BUG。
他将代码编写的过程用手机录制下来,再外加代码库打包成一个文件一并丢给Gemini 1.5 Pro解读。大模型完全正确地给出了三处BUG的正确修复代码。
全网哗然!「长文本」加持的Gemini Pro前途不可限量啊!
随着Gemini 1.5 Pro API的全面开放应用,相信很快就会有牛人打造更强大的AI应用,读懂一切音视频,帮助人类快速迈向「AGI时代」。
-
谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评
谷歌最牛的大语言模型Gemini 1 5 Pro,即日起对外开启公测。划重点!本次更新最令人期待的是,Gemini 1 5 Pro API首次增加了音频信息的理解功能。
2025-02-03 21:01:10 -
苹果下一代M4芯片聚焦AI算力丨AI音乐生成模型「天工SkyMusic」内测丨李彦宏看好“闭源模型”持续领先
【AI奇点网2024年4月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-03 20:34:25 -
百度CEO李彦宏喊话:AI大模型开源意义不大,围绕文心一言可以打造最好的应用生态体验
4月11日下午,百度创始人、董事长、CEO李彦宏发布了一系列关于AI大模型与创业的观点,主要谈及中国AI大模型开源与闭源的路线选择以及AI创业。
2025-02-03 20:10:22 -
又新又强!GPT-4 Turbo发布版本大升级,知识库刷新到2024年4月
当地时间4月11日,OpenAI官方宣布,新版的GPT-4 Turbo正式面向用户开放,该版本的GPT-4 Turbo其知识库截止时间已经更新为2024年4月。
2025-02-03 19:45:50 -
马斯克xAI发布多模态大模型Grok-1.5V丨英特尔中国特供版AI芯片算力缩水92%丨周鸿祎预测未来几年AGI到来
【AI奇点网2024年4月15日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-03 19:20:49 -
马斯克旗下xAI的多模态模型Grok-1.5V突然发布!轻松读懂梗图,对现实世界的理解力超越GPT-4V
马斯克的xAI公司近期大动作连连:开源Grok-1 0大模型,发布新一代Grok-1 5版本,xAI马不停蹄地再次发布了一款多模态大模型Grok-1 5V。
2025-02-03 19:00:37
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34