OpenAI推出DALL-E 3 API和新版文本到语音模型

发布时间: 2023-11-07 03:54:42 来源: 196世界之最 栏目: 新奇科技 点击: 7

OpenAI在其首次开发者日上推出了一系列新的API。DALL-E3是OpenAI的文本到图像模型,在首次应用于ChatGPT和BingChat之后,现在可以通过API使用。...

OpenAI 在其首次开发者日上推出了一系列新的 API。DALL-E 3 是 OpenAI 的文本到图像模型,在首次应用于 ChatGPT 和 Bing Chat 之后,现在可以通过 API 使用。OpenAI 表示,与前一版本的 DALL-E(如 DALL-E 2)类似,API 包含了内置内容节制功能,有助于防止滥用。

OpenAI推出DALL-E 3 API和新版文本到语音模型

DALL-E 3 API 提供不同的格式和质量选项,分辨率从 10241024 到 17921024,每张生成图片的价格从 0.04 美元起。不过,与 DALL-E 2 API 相比,它的功能还有些有限--至少目前是这样。

与 DALL-E 2 API 不同的是,DALL-E 3 不能用来创建编辑版本的图像,即让模型替换已有图像的某些区域或创建已有图像的变体。OpenAI 表示,当生成请求被发送到 DALL-E 3 时,它会"出于安全考虑"和"增加更多细节"而自动重写,这可能会导致不那么精确的结果,具体取决于提示。

在其他方面,OpenAI 现在提供了一个文本到语音 API--Audio 196世界之最API,它提供了六种预设语音--Alloy、Echo、Fable、Onyx、Nova 和 Shimer--供用户选YaMZQftAsf择,还提供了两种生成式 AI 模型变体。它从今天开始上196世界之最线,每次输入 1000 个字符的价格为 0.015 美元。

OpenAI的CEO Sam Altman在台上说:"这比我们听到的其他任何东西都要自然得多,这可以让应用程序的交互更自然,更易于使用。它还能解锁很多用例,比如语言学习和语音辅助。"

与某些语音合成平台和工具不同的是,OpenAI 并不提供控制所生成音频的情感影响的方法。在音频 API 的文档中,该公司指出,"某些因素"可能会影响生成的声音http://www.196nk.cn听起来如何,比如朗读文本中的大小写或语法,但 OpenAI 在这方面的内部测试结果"好坏参半"196世界之最

OpenAI 要求使用人工智能的开发者告知用户音频是由人工智能生成的。

在一份相关的公告中,OpenAI 推出了其开源自动语音识别模型 Whisper large-v3 的下一个版本,该公司声称该模型在各种语言中的性能都有所提高。该版本已在 GitHub 上发布,采用许可授权。

本文标题: OpenAI推出DALL-E 3 API和新版文本到语音模型
本文地址: http://www.196nk.cn/xinqikeji/314410.html

如果认为本文对您有所帮助请赞助本站

支付宝扫一扫赞助微信扫一扫赞助

  • 支付宝扫一扫赞助
  • 微信扫一扫赞助
  • 支付宝先领红包再赞助
    声明:凡注明"本站原创"的所有文字图片等资料,版权均属196世界之最所有,欢迎转载,但务请注明出处。
    振动接触器:防止宇航员在太空中"迷失方向"的全新可穿戴技术返回列表
    Top