提升AI可信度:MIT团队开发新工具对抗“幻觉”

符号引用
为了帮助验证,许多 LLM 被设计为生成引用,指向外部文档,并提供语言基础的响应,以便用户进行检查。然而,这些验证系统通常是事后考虑的,并没有考虑到人们在筛选大量引用时所需的努力,Shen 说。
“生成式 AI 的目的是减少用户完成任务所需的时间。如果您需要花费数小时阅读这些文档,以验证模型的说法是否合理,那么在实际应用中生成的内容就不那么有帮助了。”Shen 表示。
研究人员从将要进行验证工作的人的角度来解决这个问题。
SymGen 用户首先向 LLM 提供可以作为参考的数据,例如包含篮球比赛统计信息的表格。然后,研究人员进行一个中间步骤,而不是立即要求模型完成任务,比如从这些数据生成比赛摘要。他们提示模型以符号形式生成响应。
在这个提示下,每当模型希望在响应中引用词汇时,必须写出数据表中包含该信息的具体单元格。例如,如果模型想在响应中引用“波特兰开拓者”这个短语,它将用数据表中包含这些词的单元格名称替换该文本。
“因为我们有这个中间步骤,使文本以符号格式呈现,我们能够实现非常精细的引用。我们可以明确指出,输出中每一段文本具体对应数据中的哪一部分。”Torroba Hennigen 表示。
SymGen 然后使用基于规则的工具解析每个引用,将相应的文本从数据表复制到模型的响应中。
“这样,我们知道它是逐字复制的,因此可以确保与实际数据变量对应的文本部分不会出错。”Shen 补充道。

简化验证
模型能够生成符号响应,是由于其训练方式。大型语言模型接受来自互联网的大量数据,其中一些数据以“占位符格式”记录,代码替代了实际值。
当 SymGen 提示模型生成符号响应时,它使用类似的结构。
“我们以特定的方式设计提示,以发挥 LLM 的能力。”Shen 补充说。
在用户研究中,大多数参与者表示 SymGen 使验证 LLM 生成的文本变得更容易。他们验证模型响应的速度比使用标准方法快约 20%。
然而,SymGen 的效果受源数据质量的限制。LLM 可能引用错误的变量,而人工验证者可能对此毫不知情。
此外,用户必须以结构化格式(如表格)提供源数据,以便输入到 SymGen。目前,该系统仅适用于表格数据。
展望未来,研究人员正在增强 SymGen 的功能,以便处理任意文本和其他数据形式。有了这个能力,它可以帮助验证 AI 生成的法律文件摘要的某些部分。他们还计划与医生一起测试 SymGen,以研究它如何识别 AI 生成的临床摘要中的错误。
这项工作部分由 LiBERTy Mutual 和 MIT 智能探索计划资助。
-
提升AI可信度:MIT团队开发新工具对抗“幻觉”
来源:MIT News 尽管大型语言模型的能力令人印象深刻,但它们仍然远非完美。这些人工智能模型有时会出现“幻觉”,生成不正确或没有依据的信息来回应查询。 由于这个幻觉问题,模型的响应通常需要由人工审查
2025-06-11 15:48:44 -
人工智能如何更好应用于健康领域?中外专家解析三对“连接”
中新社北京11月3日电 (记者 李纯)“人工智能作为一种新质生产力,为我们整合卫生健康体系提供了机遇,也提供了手段。”谈及如何利用人工智能(AI)技术赋能卫生健康体系建设,清华大学万科公共卫生与健康学院常务副院
2025-06-11 15:24:44 -
当AI “遇上”5G-A,智能应用将“无所不在”
阿尔文·托夫勒在《第三次浪潮》中预言“人类正经历一场由新技术驱动的深刻社会变革。”AI技术无疑是这场变革中,最重要的加速器。 这场由AI引领的变革前方充满诱惑,同时也充满了未知。但每一次人类文明的演进
2025-06-11 15:00:44 -
全球十大工业电气、四大水处理企业齐聚“四叶草”,AI成技术装备展区标配
相较于往届,今年国家会展中心(上海)的3号馆和4 1号馆内少了些机械味,多了份未来感。 作为进博会最“重”磅的展区,技术装备展区今年的亮点不再局限于机械制造类“巨无霸”,而是围绕“双碳”、数字化、集成电路、
2025-06-11 14:36:44 -
确保生成式人工智能向善而行
紧随科技进步和行业发展的步伐,全面提升治理水平,促进生成式人工智能健康发展 【现象】从一个灵感起步,设置主题、类型、人物、情节等各种参数,引导编剧填入自己的想法,大模型可以在极短时间内生成类型片剧
2025-06-11 14:12:44 -
1.4万亿美元的Meta,被迫卷入AI竞争的无限游戏
当地时间 10 月 30 日,Meta 发布第三季度未经审计财报。电话会上扎克伯格表示,Meta 计划在 2025 年继续增加对 AI 的投资,这「可能不是投资者短期内想听到的」。但他认为,潜在的回报是值得的。 不出所料,
2025-06-11 13:48:44
-
Stability AI发布自家最强文生图模型Stable Diffusion 3!提示文本理解更好,图像质量更强
2月23日,著名大模型开源平台stability ai在官网推出了——Stable Diffusion 3 该版本与Stable Diffusion 2相比,在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。
2025-02-12 12:54:57 -
虚晃一枪:马斯克xAI喜获60亿美元融资,放弃起诉OpenAI
当地时间6月11日,据CNBC报道,马斯克已经从加州法院撤回了今年3月对OpenAI以及公司CEO奥特曼等人的司法诉讼。
2025-01-20 12:46:30 -
OpenAI大杀器SearchGPT横空出世,将单挑谷歌千亿美元搜索帝国!
OpenAI真来撼动谷歌的搜索帝国了?深夜悄悄上线的AI搜索引擎产品——SearchGPT,在同一问题的演示上,直接原地吊打谷歌和Perplexity。谷歌的AI Overview没做到的「重塑搜索引擎」,会让OpenAI达成吗?
2025-01-10 14:59:24 -
WAIC落幕:国产大模型大厂拼落地,中厂显焦虑丨月之暗面上线Kimi浏览器插件丨中国是AI论文发表最多的国家
【AI奇点网2024年7月9日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-16 10:10:48 -
OpenAI重磅升级定档5月13日,CEO奥特曼暗示会有「魔法」效应,但GPT-5至少要等到年底
OpenAI终于要放大招了!官宣定档下周一线上直播,预计发布全新AI语音助手,还有ChatGPT、GPT-4一系列更新。奥特曼澄清,没有GPT-5,也没有搜索引擎!
2025-01-27 13:30:46 -
微信AI平台赋能中小企业:推出微信对话开放平台打造AI客服机器人,PC桌面机器人“小微助手”上线
微信 AI 团队在微信公开课 PRO 上分享了微信对话开放平台的最新能力升级和解决方案,这是微信首次对外公布旗下 AIGC 大模型应用落地的策略。
2025-02-17 16:40:44 -
谷歌计划明年将AI Overviews功能面向更多国家开放
当地时间12月11日,谷歌宣布推出最新AI模型Gemini 2 0。谷歌首席执行官桑达尔·皮查伊表示,会将Gemini 2 0的高级推理能力融入AI Overviews(AI概览),以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态
2025-05-17 09:30:55 -
IDC发布AI应用调查报告:文心一言发展较全面丨小爱音箱大模型版本升级指南丨Llama系列大模型下载量超3.5亿
【AI奇点网2024年9月4日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 13:19:39 -
「可灵AI」发布会员订阅计划:每月19元起丨西湖心辰Lingo语音模型开放内测丨李彦宏:AI竞争将进入盈利能力竞争
【AI奇点网2024年8月26日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 17:37:27 -
荣耀CEO赵明:荣耀不会造车,专注为个人打造未来AI世界更好使用的大模型
“在手机端很难复刻ChatGPT能力。因为基于人类的知识库进行AI交互并非AI手机的首要解决的应用场景。”荣耀CEO赵明对媒体们表示。
2025-01-24 09:08:18