Vidu视频大模型重磅升级:实现主体场景迁移丨GPT-4o语音功能的高管跑路丨夸克发布AI写作助手CueMe
AI奇点网2024年9月12日报道丨AI资讯早报
生数科技Vidu视频大模型重磅升级:实现主体场景迁移
9月11日,由生数科技和清华大学联合研发的视频大模型Vidu迎来重大更新,加入了“主体参照”(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。目前该功能面向用户免费开放。
现阶段,无论是文生图,还是文生视频,都存在严重的主体一致性问题。
生数科技举办的媒体开放日活动上,对外展示了“主体参照”功能,该功能允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。
该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。
无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。Vidu 也是全球首个支持该能力的视频大模型。
OpenAI高管又跑路 :GPT-4o语音模式主管离职
当地时间9月10日,据外媒报道,OpenAI 的音频 AGI 团队的研究主管 Alexis Conneau 宣布将离开公司,进行个人创业,他同时也是该公司实时互动语音大模型 GPT-4o 研究团队的重要技术成员。
Alexis Conneau 在 2023 年 4 月加入 OpenAI,帮助 OpenAI 实现了类似于「HER」(她是机器人)的人工智能愿景,他也参与了 GPT-4o 实时音频技术,以及下一代大模型 GPT-5 的相关研发工作中。
根据彭博社最新的报道显示,OpenAI 目前的估值为 1500 亿美元,正在洽谈从投资者处筹集 65 亿美元资金,以及从银行处获得 50 亿美元信贷额度。
李彦宏内部讲话:未来大模型之间的差距将拉大
据媒体报道,近日新浪独家披露,百度 CEO 李彦宏在公司内部进行了一次内部讲话内容,谈到了业界对于大模型的认识误区,涵盖大模型竞争、开源模型效率、智能体趋势等。
李彦宏在演讲中表示,未来大模型之间的差距可能会越来越大,模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级。大模型的投入,需要能几年、十几年如一日地投入,不断满足用户需求,降本增效。
李彦宏指出,模型之间的差距是**度的,一个维度是「能力」方面:理解能力、生成能力、逻辑推理能力、记忆能力等;另一个维度是「成本」方面:想具备这个能力或者想回答这些问题,付出的成本是多少。
可以读懂唇语的AI产品Readtheirlips,火了
最近,国外一款据称可以轻松读出人类的唇语的 AI 软件 Readtheirlips 火了!
Readtheirlips 是一款利用人工智能技术进行唇语识别的软件。它通过分析视频中人物的嘴部动作来识别和转录所说的内容。根据搜索结果,这款软件在某些情况下表现出色,例如当视频中的人物正脸对着镜头时,Readtheirlips 能够准确地识别和转录对话内容。
让我们简单了解这款产品是如何读取唇语的:
首先,研究团队根据已知的嘴唇运动动作大数据与文本内容,采取大量的标注数据来对模型进行训练。
在此基础上,用户要上传一段视频,这段视频要包含说话者的面部特写,尤其是嘴部动作。
然后模型会对视频进行嘴部运动的分析:先是通过面部检测识别嘴唇的位置,然后再提取嘴唇的几何特征,(形状、开合程度、运动轨迹等),最后分析嘴唇在说话过程中的动态变化(语速、方向和形状变化)。
最后,大模型会将提取的嘴唇特征与训练数据中的特征进行匹配,来识别出视频中人物所说的内容。
将识别出的单词或短语组合成完整的句子,进行一下上下文理解,确保语法和语义的正确性。最终将识别出的内容输出为文本格式。
夸克发布智能写作助理CueMe,支持20万字长文
9月12日,阿里旗下夸克发布全新智能对话助手 CueMe,用户现可通过登录 cueme.cn 或在夸克 App、小程序等平台使用。
CueMe 是基于夸克大模型自主研发,AI 写作能力突出,支持不同体裁、不同篇幅的内容生成,最长可生成 2 万字的内容。
夸克表示,CueMe 针对不同细分体裁进行了充分的语料预训练,可支持上千种不同体裁的写作需求,包括研究报告、日常写作、课程论文、新媒体文案等等,并且还在持续扩展中。
此外,CueMe 还支持文风定制,用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。
据夸克官方介绍,CueMe 实现了三项关键技术突破 —— 长文本理解与生成、专业知识检索与增强、以及复杂多轮文创指令遵循。在此基础上,CueMe 从三个方向进行内容深度优化。
首先是结构,对于研究报告等长文,高质量大纲生成是确保内容结构合理、逻辑清晰的关键。
其次是引用素材时效性强、内容丰富。
最后在生成内容中增加细节描述和鲜明观点,从而让生成内容不再“AI 痕迹明显”或者泛泛而谈。
以大纲内容优化为例,CueMe 首先会根据需求生成有明确方向的的高质量大纲,同时通过“增加每一部分具体内容描述”、“增加一个国际比较章节”等推荐指令,引导用户进一步打磨大纲。当然,用户也可直接与 CueMe 对话,输入具体修改要求。
马斯克:特斯拉2025年列装Dojo 2 AI训练芯片,对标英伟达B200
当地时间9月10日,马斯克出席 All-In Summit 2024 活动时,并发表了重要的产品推荐讲话。
他透露,特斯拉的下代 AI 运算芯片 Dojo 2 将于 2025 年末批量装备。
马斯克表示在特斯拉的 AI 基础设施结构中 Dojo 负责模型训练,而车端芯片负责模型推理。特斯拉未来将推出数代 Dojo 芯片。
其中预计 2025 年末实现批量装备的Dojo 2 可与英伟达 B200 AI 训练系统在一定程度上具有可比性;而再下一代的 Dojo 3 则有可能于 2026 年晚些时候推出。
马斯克认为技术通常需要 3 次重大迭代才能达到卓越水平,因此等到 Dojo 3 才能知道 Dojo 系列芯片到底有多么优秀。
-
Vidu视频大模型重磅升级:实现主体场景迁移丨GPT-4o语音功能的高管跑路丨夸克发布AI写作助手CueMe
【AI奇点网2024年9月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 15:40:56 -
OpenAI发布理科强推理大模型o1丨Midjourney预告7.0版本丨李彦宏:模型之间差距会越来越大,开源解决不了效率问题
【AI奇点网2024年9月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 15:16:03 -
OpenAI o1模型问世,五级AGI再突破!推理极限超博士,清北复旦华人立功
就在刚刚,OpenAI最强的o1系列模型忽然上线。毫无预警地,OpenAI就扔出这一声炸雷。传说中两周内就要上线的草莓模型,居然两天内就来了!
2025-01-09 14:55:11 -
华军软件园发布8月AI产品榜丨快手:可灵AI V1.5版本模型正在内测丨星纪魅族9月25日举行AI生态发布会
【AI奇点网2024年9月14日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 14:34:55 -
微软Office全家桶再爆办公革命丨谷歌搜索将标注AI生成图片丨OpenAI 安全委员会将成为独立董事会监督小组
【AI奇点网2024年9月18日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 14:14:09 -
OpenAI明年将公司架构转为营利性组织丨谷歌论文揭晓OpenAI o1大模型的工作原理丨Runway与狮门影业达成合作
【AI奇点网2024年9月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 13:48:18
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51