苏北网
当前位置:首页>关注 > 民生 >

【全球报资讯】让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

时间 2024-04-19 14:59:05 来源:IT之家  
微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。

研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

标签:

相关阅读RELEVANT

  • 版权及免责声明:

内容搜集整理于网络,不代表本站同意文章中的说法或者描述。文中陈述文字和内容未经本站证实,其全部或者部分内容、文字的真实性、完整性、及时性本站不做任何保证或者承诺,并且本站对内容资料不承担任何法律责任,请读者自行甄别。如因文章内容、版权和其他问题侵犯了您的合法权益请联系邮箱:5 146 761 13 @qq.com 进行删除处理,谢谢合作!