OpenAI推出视觉大模型GPT-4V，为ChatGPT加入眼睛和耳朵丨抖音APP上线方言AI翻译功能丨百度发布首个量子大模型

2025-04-02 来源：AI图库吧

AI奇点网2023年9月27日报道丨AI资讯早报

OpenAI推出视觉大模型GPT-4V，为ChatGPT加入眼睛和耳朵

当地时间9月25日，OpenAI官网宣布，ChatGPT APP中将会推出新的语音和图像功能，允许用户进行语音对话、上传图像。

据介绍，新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒的样本语音中生成类似人类的音频，OpenAI与专业配音演员合作创作了每一个声音，并使用开源语音识别系统Whisper将用户的口语转录为文本；图像理解由多模态GPT-3.5和GPT-4提供支持，这些模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

同一天，OpenAI还在官网发布多模态视觉模型系统GPT-4V(Vision)的论文。据介绍，GPT-4V使用户能指示GPT-4分析用户提供的图像输入，其训练于2022年完成，并在2023年3月开始提供早期访问系统。该系统卡概述了OpenAI如何为GPT-4部署视觉功能，并分析了GPT-4V的安全属性。

抖音APP上线方言AI翻译功能

根据抖音官方介绍，抖音APP于近期上线了方言自动翻译功能，创作者可以为地方方言的视频一键生成普通话字幕，方便各地的公众观看。目前，新功能第一期已经上线，支持粤语、闽语、吴语(上海)、西南官话(四川) 、中原官话(陕西、河南) 等。

据介绍，抖音的火山引擎技术团队采用了自研的自监督预训练模型和多语言翻译模型，实现了极少量标注数据条件下识别方言的能力，且训练效率提升一倍，有效提升了多语言翻译的性能，同时大幅度降低了模型训练的资源消耗。

华为云：盘古气象大模型新增降水预测功能，9月30日内测

华为云近日宣布，盘古气象大模型将会推出降水预测功能，并计划于 9 月 30 日开启全球邀测。据介绍，此次带来的降水预测功能可以实现对未来 6 小时、24 小时短中期降水预测，还将挑战对暴雨红色预警的预测从提前 3 小时升级至提前 24 小时。

盘古气象大模型在过去 40 年全球气象数据基础上，增加 10 年卫星降水数据，并采用 3D EST-3 地球空间网络训练优化。目前已经在欧洲中期天气预报中心官网上线服务。全球的天气预报员、气象爱好者与公众都可以免费查看盘古对未来 10 天全球各地气温的预测。

全球最大商业图库宣布推出AI图像生成工具

全球最大的商业图库Getty Images将与英伟达合作推出生成式 AI 工具。它的名字也很直白：Generative AI by Getty Images（Getty Images的生成式 AI工具）。

据介绍，这款工具允许用户在 Getty Images 庞大的图库中进行训练，也意味着任何使用这种工具、商业发布该工具创作图片的人都会受到法律保护。Getty Images 还表示，使用这款工具声称的任何照片都不会被收录到自家主站和 iStock 的内容库中。

该工具将与标准版的 Getty Images 订阅进行分开定价。用户对其生成的图像享有永久性、全球化和无限制的权利，不过 Getty 会给生成的图片打上水印，以强调这是由 AI 生成的图片。

百度发布首个量子大模型，5分钟内就可以完成上万字专利文档

9 月 23-24 日2023 量子产业大会举行，百度量子计算研究所所长段润尧官宣了公司量子软硬件和解决方案等方面的最新成果：首个量子领域大模型和两大原生 AI 应用 —— 百度量子助手、量子写作助手。

据介绍，该量子领域大模型是在百度大模型“文心一言”基础上，依托于百度量子知识库、产业级知识增强文心大模型，基于 7800 万原始数据、22 万精调数据训练打造而成的。使用量子领域高质量数据进行更有针对性训练和优化而构建的，能够更好理解量子知识、专业执行量子任务。

“量子写作助手”则号称实现了量子领域知识和技术准确、高效输出，可降低量子计算学习门槛，提高量子计算科研效率。只需输入 6 个变量，量子写作助手就可在 5 分钟内撰写一篇 13000 字的专利文档，且符合格式要求。

全新升级AI服务的Windows 11秋季更新已经推送丨外媒爆料：微软正在独自开发新模型丨OpenAI最新估值达900亿美元

最后一页