DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

发布时间: 2024-04-01 01:55:32 来源: 196世界之最 栏目: 新奇科技 点击: 12

人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉,即人工智能在令人信服地回答问题的同时,却向你提供了与事实不符的信息。简单地说,就是人工智能为了满足用户的需求而胡编乱造。在使用生成式人工智能创建图...

人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉,即人工智能在令人信服地回答问题的同时,却向你提供了与事实不符的信息。简单地说,就是人工智能为了满足用户的需求而胡编乱造。

DeepMind为人工智能聊天机器人开发了DeepMind为人工智能聊天机器人开发了

在使用生成式人工智能创建图片或视频的工具中,这就不是一个问题了。最后,最近才从 OpenAI 离职的知名专家安德烈-卡尔帕西(Andrej Karpathy)竟然说,产生幻觉的现象是生成式人工智能的底层技术--大型语言模型(LLM)的最大特点。

但是,在以文本为重点、基于 LLM 的聊天机器人中,用户希望所提供的信息与事实相符,因此幻觉是绝对不允许出现的。

防止人工智能产生幻觉是一项技术挑战,而且并非易事。不过,据Marktechpost报道,Google DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员提出了一种基于 LLM 的系统--"搜索增强事实性评估器"(Sewww.196nk.cnarch-Augmented Factuality Evaluator,简称 SAFE),它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在 arXiv 上。

系统通过四个步骤对答案进行分析、处理和评估,以验证其准确性和真实性。首先,SAFE 将答案分割成单个事实,对其进行修改,并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。

DeepMind为人工智能聊天机器人开发了

为了评估 SAFE 的性能,研究人员创建了一个包含约 16,000 个事实的数据集 LongFact。然后,他们在四个不同系列(Claude、Gemini、GPT、PaLMwww.196nk.cn-2)的 13 个 LLM 中测试了该系统。在 72% 的情况下,SAFE 提供了与人类注释者相同的结果。在存在分歧的情况下,http://www.196nk.cnSAFE196世界之最 的正确率为 76%。

此外,研究人员196世界之最还声称,使用 SAFE 的成本比人工注释员或事实检查员低 20 倍,因此提供了一个经济可行的解决方案,而且可以大规模应用。

本文标题: DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉
本文地址: http://www.196nk.cn/xinqikeji/321133.html

如果认为本文对您有所帮助请赞助本站

支付宝扫一扫赞助微信扫一扫赞助

  • 支付宝扫一扫赞助
  • 微信扫一扫赞助
  • 支付宝先领红包再赞助
    声明:凡注明"本站原创"的所有文字图片等资料,版权均属196世界之最所有,欢迎转载,但务请注明出处。
    苹果公司为Apple Watch提供了"技术规格"页面 更透明地帮助顾客做决策外行星卫星中的冰粒具有探测生命迹象的潜力
    Top