微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

微软亚洲研究院有揭幕一种名为 VASA-1 的新实验性人工智能工具可以拍摄一个人的静态照片（或一个人的图画）和现有的音频文件，以实时创建栩栩如生的说话面孔。它能够根据现有的静态图像生成面部表情和头部动作，并生成适当的嘴唇动作来匹配语音或歌曲。研究人员将大量示例上传到项目页面，结果看起来足够好，足以欺骗人们认为它们是真实的。

尽管仔细观察后，示例中的嘴唇和头部运动仍然显得有些机械化且不同步，但很明显，该技术可以被滥用来轻松快速地创建真人的虚假视频。研究人员自己也意识到了这种潜力，并决定不发布“在线演示、API、产品、其他实施细节或任何相关演示”，直到他们确信他们的技术“将被负责任地使用并符合适当的标准” ”。然而，他们没有透露是否计划实施具体的保护措施，以防止不良行为者将它们用于邪恶目的，例如制作虚假色情或虚假信息活动。

研究人员认为，尽管存在滥用的可能性，他们的技术还是有很多好处。他们表示，它可以用来促进教育公平，以及改善那些有沟通障碍的人的可及性，也许可以通过让他们获得可以与他们沟通的化身。他们说，它还可以为有需要的人提供陪伴和治疗支持，并暗示 VASA-1 可以用在软件中，该软件可以提供人们可以与之交谈的人工智能角色。

根据纸 VASA-1 与广告一起部署，并在 VoxCeleb2 数据集上进行训练，该数据集包含从 YouTube 视频中提取的“6,112 位名人的超过一百万个短语”。尽管该工具是在真实面孔上进行训练的，但它也适用于《蒙娜丽莎》等艺术图像，研究人员将其与安妮·海瑟薇病毒式传播的李尔·韦恩歌曲的音频文件结合起来。 摄影师。这是非常令人兴奋的，值得一看，即使你怀疑这样的技术的实用性。

此嵌入内容在您所在的地区不可用。

本文包含附属链接；如果您点击此链接并进行购买，我们可能会赚取佣金。

Wang Wei

“极端问题解决者。旅行忍者。典型的网络迷。浏览器。作家。读者。无法治愈的组织者。”

READ 这就是 PS5 不会在 Sony Direct 中补货的原因-以及何时会回来

微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

苹果 iOS 27 曝光全新 Siri 界面：AI 搜索与聊天功能进一步整合

OpenAI押注“速度革命”：人工智能推理竞赛进入新阶段

屏下人脸识别技术迈出关键一步：全面屏手机时代或将真正到来

You may have missed

苹果 iOS 27 曝光全新 Siri 界面：AI 搜索与聊天功能进一步整合

美国生物科技公司研究“离体大脑”药物测试技术引发伦理争议

东风借法国工厂“曲线出海” 中国车企欧洲布局进入新阶段

深入学习贯彻习近平文化思想率先构建中国自主知识体系

發佈留言 取消回覆

More Stories

苹果 iOS 27 曝光全新 Siri 界面：AI 搜索与聊天功能进一步整合

OpenAI押注“速度革命”：人工智能推理竞赛进入新阶段

屏下人脸识别技术迈出关键一步：全面屏手机时代或将真正到来

You may have missed

苹果 iOS 27 曝光全新 Siri 界面：AI 搜索与聊天功能进一步整合

美国生物科技公司研究“离体大脑”药物测试技术 引发伦理争议

东风借法国工厂“曲线出海” 中国车企欧洲布局进入新阶段

深入学习贯彻习近平文化思想 率先构建中国自主知识体系

發佈留言取消回覆

美国生物科技公司研究“离体大脑”药物测试技术引发伦理争议

深入学习贯彻习近平文化思想率先构建中国自主知识体系