提升AI代理可靠性英伟达推出容器化微服务Inference Microservices

2025-02-28 来源：AI图库吧

英伟达周四推出用于加速生成式AI模型的部署的容器化微服务Nvidia Inference Microservices（NIM），希望帮助企业提高人工智能代理的信任、安全和可靠性。

英伟达在一篇博客中表示，人工智能代理是一项正在迅速发展的技术，正逐步改变人们与计算机互动的方式，但也伴随着诸多关键问题。智能化 AI（Agentic AI）有望革新知识工作者的任务执行方式，以及客户与品牌“对话”的方式，但其背后的大型语言模型仍可能出现不良反应，甚至在恶意用户试图突破防护时引发安全问题。

英伟达表示，周四发布的内容是基于其为开发者提供的保护框架Nemo Guardrails的扩展，旨在提高生成式人工智能应用的安全性、精确性和可扩展性。NeMo Guardrails是英伟达NeMo平台的一部分，用于管理、定制和保护人工智能，帮助开发者在大型语言模型（LLM）应用中集成并管理AI防护措施。目前Amdocs、Cerence AI和Lowe’s正在使用NeMo Guardrails来保护 AI 应用。

英伟达发布的NIM共有三种，分别涵盖主题控制、内容安全和越狱保护。该公司表示，这些微服务是经过高度优化的小型轻量级AI模型，可通过调控大型模型的响应提升应用性能。

英伟达企业AI模型、软件与服务副总裁Kari Briski表示。

“其中一项用于调控内容安全的新微服务，是基于Aegis内容安全数据集训练的。这是同类数据集中质量最高、由人工标注的数据源之一。”

Aegis内容安全数据集由英伟达推出，包括超过35,000个由人工标注的样本，用于检测AI安全问题和试图绕过系统限制的越狱行为。该数据集将在今年晚些时候于Hugging Face上公开发布。

例如，用于主题控制的NIM可防止AI代理“过于健谈”或偏离其原本的任务目标，确保其保持在既定主题内。英伟达表示，与AI聊天机器人进行的对话时间越长，它越容易忘记对话的初衷，从而让话题偏离轨道，类似于人类对话可能的漫谈。虽然人类可以接受这种情况，但对于聊天机器人，尤其是品牌AI代理，偏离主题可能导致谈论到名人或竞争产品，这对品牌不利。

Briski表示，

“像NeMo Guardrails系列中的小型语言模型，具有较低的延迟，专为资源受限或分布式环境中的高效运行而设计，这使它们非常适合在医疗、汽车、制造等行业的医院或仓库等场景中扩展ai应用。”

此外，NIM允许开发者以最小的附加延迟叠加多个防护措施。英伟达表示，这对大多数生成式AI应用至关重要，因为用户不喜欢长时间等待，例如看到三点闪烁或转圈加载动画后才出现文本或语音。

英伟达表示，NIM微服务以及用于轨道编排的NeMo Guardrails和Nvidia Garak工具包，现在已经面向开发者和企业开放使用。开发者可以通过相关教程开始将AI防护措施集成到客户服务的AI代理中，利用NeMo Guardrails构建安全的AI应用。

快与慢：AI 采用速度的真实影响

最后一页