微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

发布时间: 2024-04-19 10:20:16 来源: 196世界之最作者: cnBeta 栏目: 奇趣发现点击: 15

微软公司的一篇新的人工智能研究论文展望了未来：上传一张照片和你的声音样本，然后创建一个活灵活现的会说话的人头像。这种名叫VASA-1的人工智能模型可接收单张人像照片和音频文件，并将其转换成超逼真的人脸...

微软公司的一篇新的人工智能研究论文展望了未来：上传一张照片和你的声音样本，然后创建一个活灵活现的会说话的人头像。这种名叫VASA-1的人工智能模型可接收单张人像照片和音频文件，并将其转换成超逼真的人脸视频，包括唇语同步、逼真的面部特征和头部动作。

微软展示VASA-1人工智能模型能将照片变成

该模型目前只是研究预览版，微软研究团队以外的任何人都无法试用，但演示视频看起来令人印象深刻。

Runway 和 NVIDIA 已经推出了类似的唇部同步和头部运动技术，但这种技术的质量和逼真度似乎要高得多，可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGwww.196nk.cnGER 人工智能模型类似。

VASA-1 如何工作？

微软表示，这是一个新的框架，用于创建栩栩如生的会说话的人脸，专门用于虚拟人物的动画制作。示例中的所有人物都是合成的，是用 DALL-E 制作的，但如果它能为逼真的人工智能图像制作动画，那么它也能为真实的照片制作动画。

在演示中，我们看到人们说话时就像在被拍摄一样，动作略显生涩，但看起来非常自然。唇语同步令人印象深刻，动作自然，嘴部上下没有其他工具中出现的假象。

VASA-1 最令人印象深刻的一点似乎是，它www.196nk.cn不需要正面朝上的人像图像就能工作。

其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力，能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。

VASA-1 的意义何在？

微软展示VASA-1人工智能模型能将照片变成

其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的 NPC，就能改变游戏的沉浸感。

它还可用于为社交媒体视频创建虚拟化身，HeyGen 和 Synthesia 等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。www.196nk.cn如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。

尽管如此，该团队表示，这只是一次研究演示，并www.196nk.cn没有公开发布的计划www.196nk.cn，甚至也不会提供给开发人员在产品中使用。

VASA-1 的效果如何？

微软展示VASA-1人工智能模型能将照片变成

让研究人员感到惊讶的是，VASA-1 能够完美地对歌曲进行歌词嘴型同步，尽管训练数据集中没有使用音乐，但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像，包括蒙娜丽莎。

他们让它以每秒 45 帧的速度创建 512x512 像素的图像，使用桌面级 NVIDIA RTX 4090 GPU 可在大约 2 分钟内完成。

虽然他们说这只是用于研究，但如果它不能进入公共领域，那就太可惜了，即使只是面向开发者，鉴于微软在OpenAI中拥有巨大的股份，这甚至可能成为未来 Copilot Sora 集成的一部分。

本文标题: 微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

本文地址: http://www.196nk.cn/qiqufaxian/322085.html

声明：凡注明"本站原创"的所有文字图片等资料，版权均属196世界之最所有，欢迎转载，但务请注明出处。

标签：微软人工智能动画音乐技术英伟达歌手人生第一份工作 Google GPU

联系我们
网站导航
196世界之最（www.196nk.cn）为你整理报道全球最神奇的吉尼斯世界纪录大全，我们致力于发现世界之最大全、奇闻异事等各种有趣的纪录和事件，如果你热爱探索，喜欢欣赏世界之最图片，想要了解世界之最有哪些，那么你一定会爱上我们：196世界之最。

© 2018-NOW 196世界之最赣ICP备2023002684号-2

Top