微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

微软亚洲研究院有揭幕一种名为 VASA-1 的新实验性人工智能工具可以拍摄一个人的静态照片（或一个人的图画）和现有的音频文件，以实时创建栩栩如生的说话面孔。它能够根据现有的静态图像生成面部表情和头部动作，并生成适当的嘴唇动作来匹配语音或歌曲。研究人员将大量示例上传到项目页面，结果看起来足够好，足以欺骗人们认为它们是真实的。

尽管仔细观察后，示例中的嘴唇和头部运动仍然显得有些机械化且不同步，但很明显，该技术可以被滥用来轻松快速地创建真人的虚假视频。研究人员自己也意识到了这种潜力，并决定不发布“在线演示、API、产品、其他实施细节或任何相关演示”，直到他们确信他们的技术“将被负责任地使用并符合适当的标准” ”。然而，他们没有透露是否计划实施具体的保护措施，以防止不良行为者将它们用于邪恶目的，例如制作虚假色情或虚假信息活动。

研究人员认为，尽管存在滥用的可能性，他们的技术还是有很多好处。他们表示，它可以用来促进教育公平，以及改善那些有沟通障碍的人的可及性，也许可以通过让他们获得可以与他们沟通的化身。他们说，它还可以为有需要的人提供陪伴和治疗支持，并暗示 VASA-1 可以用在软件中，该软件可以提供人们可以与之交谈的人工智能角色。

根据纸 VASA-1 与广告一起部署，并在 VoxCeleb2 数据集上进行训练，该数据集包含从 YouTube 视频中提取的“6,112 位名人的超过一百万个短语”。尽管该工具是在真实面孔上进行训练的，但它也适用于《蒙娜丽莎》等艺术图像，研究人员将其与安妮·海瑟薇病毒式传播的李尔·韦恩歌曲的音频文件结合起来。 摄影师。这是非常令人兴奋的，值得一看，即使你怀疑这样的技术的实用性。

此嵌入内容在您所在的地区不可用。

本文包含附属链接；如果您点击此链接并进行购买，我们可能会赚取佣金。

Wei Zhang

Wei Zhang 是 Eddiba.com 的撰稿人，主要关注新闻、政治、商业、科技、体育、娱乐及生活方式等领域。她致力于以清晰、准确且易于理解的方式报道时事动态，为读者提供有价值的信息与背景解读。她关注与公众生活密切相关的话题，注重事实呈现和内容可读性，帮助读者及时了解当前热点事件及其影响。

READ YG组织 | 征服灵魂-VS！ [DBWS]

微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

吉利发布雷神16合1智能电驱系统百公里实测电耗低至8.2千瓦时银河TT率先搭载

中国首家机器人学校在杭州启用首批30名“机器人学员”开启职业技能培训

京东MALL迎来首批“机器人员工” 具身智能加速落地线下零售

您可能错过了

吉利发布雷神16合1智能电驱系统百公里实测电耗低至8.2千瓦时银河TT率先搭载

世界人工智能大会规模全面升级华为、Kimi等企业集中展示AI创新成果

中国上半年绿色科技产品出口增长超30% 绿色产业国际需求持续释放

OpenAI首款硬件产品亮相：不是AI手机，而是一款面向开发者的智能宏键盘

發佈留言 取消回覆

更多报道

吉利发布雷神16合1智能电驱系统 百公里实测电耗低至8.2千瓦时 银河TT率先搭载

中国首家机器人学校在杭州启用 首批30名“机器人学员”开启职业技能培训

京东MALL迎来首批“机器人员工” 具身智能加速落地线下零售

您可能错过了

吉利发布雷神16合1智能电驱系统 百公里实测电耗低至8.2千瓦时 银河TT率先搭载

世界人工智能大会规模全面升级 华为、Kimi等企业集中展示AI创新成果

中国上半年绿色科技产品出口增长超30% 绿色产业国际需求持续释放

OpenAI首款硬件产品亮相：不是AI手机，而是一款面向开发者的智能宏键盘

發佈留言取消回覆

吉利发布雷神16合1智能电驱系统百公里实测电耗低至8.2千瓦时银河TT率先搭载

中国首家机器人学校在杭州启用首批30名“机器人学员”开启职业技能培训

吉利发布雷神16合1智能电驱系统百公里实测电耗低至8.2千瓦时银河TT率先搭载

世界人工智能大会规模全面升级华为、Kimi等企业集中展示AI创新成果