亚马逊将提供人类基准测试团队来测试人工智能模型

发布时间: 2023-11-30 12:41:06 来源: 196世界之最 栏目: 奇趣发现 点击: 4

亚马逊希望用户能更好地评估人工智能模型,并鼓励更多人类参与到这一过程中来。在AWSre:Invent大会上,AWS数据库、分析和机器学习副总裁SwamiSivasubramanian宣...

亚马逊希望用户能更好地评估人工智能模型,并鼓励更多人类参与到这一过程中来。在 AWS re: Invent 大会上,AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布了 Bedrock 上的模型评估(Model Evaluation on Bedrock)功能,该功能现已推出预览版,适用于其存储库 Amazon Bedrock 中的模型。

亚马逊将提供人类基准测试团队来测试人工智能模型

如果没有透明测试模型的方法,开发人员最终可能会使用那些对于问答项目来说不够准确的模型,或者对于他们的使用案例来说过于庞大的模型。

Sivasubramanian 说:www.196nk.cn"模型选择和评估不只是在开始时进行,而是要定期重复进行。我们认为有一个人在环路中是很重要的,因此我们提供了一种方法,可以轻松管理人工评估工作流和模型性能指标"。

一些开发人员常常不知道是否应该在项目中使用更大的模型,因为他们以为功能更强大的模型可以满足他们的需求。后来他们发现,他们本可以在更小的模型上进行开发。模型评估包括两个部分:自动评估和人工评估。在自动化版本中,开发人员可以进入 Bedrock 控制台,选择一个模型进行测试。然后,他们就可以评估模型在摘要、文本分类、问题解答和文本生成等任务中的鲁棒性、准确性或毒性等指标的表现。

Bedrock 包括流行的第三方人工智能模型,如 Meta 的 Llama 2、AnthroxSULPqcpic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

AWS 提供测试数据集,客户也可以将自己的数据带入基准测试平台,以便更好地了解模型的表现。系统随后会生成一份报告。

如果需要人工参与,196世界之最用户可以选择与 AWS 人工评估团队或自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及想要使用的数据集。AWS 将为与评估团队合作的客户提供定制的价格和时间安排。

AWS 负责生成式人工智能的副总裁 Vasi Philomin 表示,更好地了解模型的性能可以更好地指导开发。它还允许公司在使用模型进行构建之前,了解模型是否不符合一些负责任的人工智http://www.196nk.cn能标准,比如较低或过高的毒性敏感度。

Philomin说:"重要的是,模型要适合我们的客户,要知道哪种模型最适合他们,我们正在为他们提供一种更好的评估方法。"AWS不会要求所有客户都对模型进行基准测试,因为一些开发人员以前可能使用过Bedrock上的一些基础模型,或者对模型的功能有一定的了解。仍在探索使用哪种模型的公司可以从基准测试过程中获益。

Sivasubramanian 还表示,当人类评估人工智能模型时,他们可以检测到自动化系统无法检测到的其他指标--比如同理心或友好度。

AWS 表示,虽然基准测试服务还处于预览阶段,但它只对评估过程中使用的模型推理收费。

虽然没有特定的人工智能模型基准标准,但一些行业普遍接受特定的指标。Bedrock基准测试的目标不是对模型进行广泛评估,而是为企业提供一种衡量模型对其项目影响的方www.196nk.cn法。

本文标题: 亚马逊将提供人类基准测试团队来测试人工智能模型
本文地址: http://www.196nk.cn/qiqufaxian/315471.html

如果认为本文对您有所帮助请赞助本站

支付宝扫一扫赞助微信扫一扫赞助

  • 支付宝扫一扫赞助
  • 微信扫一扫赞助
  • 支付宝先领红包再赞助
    声明:凡注明"本站原创"的所有文字图片等资料,版权均属196世界之最所有,欢迎转载,但务请注明出处。
    微软希望其订阅服务无处不在 包括 PlayStation 和任天堂硬件返回列表
    Top