英伟达安全工具防止人工智能“错乱”
早期的大型语言模型已被证明有威胁,虽然ChatGPT很有趣,可以产生爱、恨,甚至舞蹈。在测试大型语言模型(LLM)的过程中,有一件事很快就变得显而易见:人工智能模型可以编造东西,对话很容易偏离轨道。
LLM带来的风险促使包括埃隆·马斯克和史蒂夫·沃兹尼亚克在内的知名人士发出信函,呼吁停止大型人工智能实验。
聊天机器人产生错乱的倾向是OpenAI、微软和谷歌正在努力解决的问题。最根本的努力是建立一种机制,使人工智能系统可信,并试图降低人工智能偏离切线并产生错乱的速度。
英伟达(Nvidia)本周二采取了一种切实可行的方法来解决这个问题,发布了一种可编程工具,该工具可以作为中介,使大型语言模型保持正轨,并为查询提供相关答案。
这个名为NeMo Guardrails的开源工具监控用户和LLM之间的对话,有助于保持对话的正常进行。
英伟达应用研究副总裁Jonathan Cohen在新闻发布会上表示:“它跟踪了对话的状态——谁说了什么,我们现在在谈论什么,我们以前在谈论什么——它为开发人员提供了一种可编程的方式来实现‘安全护栏’。”
护栏可以作为一种强制执行形式,使对话保持在主题的上下文中。Cohen说,该工具为那些希望节省时间并从人工智能系统中提取更多生产力的组织快速实施人工智能安全规则。
如今市场上没有人工智能安全插件工具,Cohen表示有总比没有好。
例如,NeMo Guardrails可以插入客户服务聊天机器人,只回答有关公司产品的问题,并拒绝有关竞争产品的对话。护栏还可以引导人们回到公司的产品上来。
护栏可以编程为包括用于事实核查程序的安全响应系统,并检测和减轻错乱。
该工具还可以用于在自动编码时检测“越狱”,这有助于安全地执行代码。例如,它可以检查API是否符合公司的安全模型。Cohen说:“我们可以将其放在允许列表中,并允许LLM只与该列表中的API交互。”
在金融或医疗保健等受到高度监管的专业领域,加强防护措施尤为重要。护栏可以包括识别上下文查询的代码,例如,它可以告诉用户“我是一个医疗保健聊天机器人,但这不是医疗保健问题。请重新定义你的问题。”
该工具正在Github存储库中发布,并将与Nvidia的软件产品一起提供。
Cohen说:“我们认为人工智能安全和护栏问题是社区需要共同解决的问题,因此我们决定将我们的工具包开源。它旨在与当今所有工具包和所有主要语言模型进行互操作。”
NeMo Guardrails介于人类和大型语言模型之间。一旦用户在提示下提交查询,它就会通过护栏,护栏会检查查询的上下文。然后将查询传递给LangChain等开源工具,后者用于开发利用语言模型功能的应用程序。
LLM生成响应后,返回LangChain,由NeMo Guardrails进行评估,然后向用户提供答案。如果响应不好,护栏可以将其发送回原始LLM或其他大型语言模型以重新生成答案。响应需要通过护栏的检查,然后才能呈现给用户。
之所以让它成为一个可编程系统,正是为了让开发者能够完全控制这个逻辑是什么。
该工具包是一个完整的系统,可在Github中使用,其中包括运行时和运行它的API。Nvidia开发了一种名为Colang的编程工具,可以控制该运行时的行为,可以通过Python访问。
Cohen说:“NeMo Guardrails系统是一个客户端Python库,你可以使用这个库,用它做你想做的事情。”
Colang运行时在CPU上执行,因此NeMo Guardrails工具包不会受到CUDA的阻碍(CUDA是英伟达专有的人工智能编程框架,英伟达的大部分CUDA代码库只能在该公司的GPU上执行)。
Cohen说:“硬件需求将取决于你所调用的服务,或者是你在本地运行的语言模型。无论LangChain支持什么,我们都会自动处理。”。
随着围绕人工智能监管和安全的辩论升温,英伟达的工具包适时发布。目前还没有已知的人工智能安全标准或实施方案,英伟达正在开源该工具包,以推动进展。
Cohen说:“有一个新兴的开源社区,比如LangChain。它正在成为一个非常流行的API,用于与所有这些东西进行交互。这是我们在LangChaint之上构建系统的原因之一。”
DARPA董事Kathleen Fisher在上个月的Nvidia GPU技术会议上表示,ChatGPT等工具的流畅性相当惊人,但这也是对构建弹性系统和值得信赖的人工智能的一次警醒。“我们将看到这个领域的快速发展,同时也会很有趣和可怕。”
其他公司正在以不同的方式对待人工智能安全。微软此前通过限制用户可以问的BingGPT问题数量来停止错乱回答(BingGPT基于OpenAI的GPT-4)。
OpenAI本月早些时候表示,GPT-4提供的准确率比GPT-3.5高40%。OpenAI提倡更好的训练、更多的数据、负责任的治理和行业合作,以帮助提高人工智能的安全性。
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com