DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

发布时间: 2024-04-01 01:55:32 来源: 196世界之最作者: cnBeta 栏目: 新奇科技点击: 12

人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉，即人工智能在令人信服地回答问题的同时，却向你提供了与事实不符的信息。简单地说，就是人工智能为了满足用户的需求而胡编乱造。在使用生成式人工智能创建图...

人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉，即人工智能在令人信服地回答问题的同时，却向你提供了与事实不符的信息。简单地说，就是人工智能为了满足用户的需求而胡编乱造。

DeepMind为人工智能聊天机器人开发了

DeepMind为人工智能聊天机器人开发了

在使用生成式人工智能创建图片或视频的工具中，这就不是一个问题了。最后，最近才从 OpenAI 离职的知名专家安德烈-卡尔帕西（Andrej Karpathy）竟然说，产生幻觉的现象是生成式人工智能的底层技术--大型语言模型（LLM）的最大特点。

但是，在以文本为重点、基于 LLM 的聊天机器人中，用户希望所提供的信息与事实相符，因此幻觉是绝对不允许出现的。

防止人工智能产生幻觉是一项技术挑战，而且并非易事。不过，据Marktechpost报道，Google DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员提出了一种基于 LLM 的系统--"搜索增强事实性评估器"（Sewww.196nk.cnarch-Augmented Factuality Evaluator，简称 SAFE），它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在 arXiv 上。

系统通过四个步骤对答案进行分析、处理和评估，以验证其准确性和真实性。首先，SAFE 将答案分割成单个事实，对其进行修改，并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。

DeepMind为人工智能聊天机器人开发了

为了评估 SAFE 的性能，研究人员创建了一个包含约 16,000 个事实的数据集 LongFact。然后，他们在四个不同系列（Claude、Gemini、GPT、PaLMwww.196nk.cn-2）的 13 个 LLM 中测试了该系统。在 72% 的情况下，SAFE 提供了与人类注释者相同的结果。在存在分歧的情况下，http://www.196nk.cnSAFE196世界之最的正确率为 76%。

此外，研究人员196世界之最还声称，使用 SAFE 的成本比人工注释员或事实检查员低 20 倍，因此提供了一个经济可行的解决方案，而且可以大规模应用。

本文标题: DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

本文地址: http://www.196nk.cn/xinqikeji/321133.html

声明：凡注明"本站原创"的所有文字图片等资料，版权均属196世界之最所有，欢迎转载，但务请注明出处。

标签：人工智能机器人 Google 技术斯坦福大学 Palm

联系我们
网站导航
196世界之最（www.196nk.cn）为你整理报道全球最神奇的吉尼斯世界纪录大全，我们致力于发现世界之最大全、奇闻异事等各种有趣的纪录和事件，如果你热爱探索，喜欢欣赏世界之最图片，想要了解世界之最有哪些，那么你一定会爱上我们：196世界之最。

© 2018-NOW 196世界之最赣ICP备2023002684号-2

Top