查看原文
其他

GEN2发布:首个多模态视频工作流

逗砂 AIGC研修社 2023-03-22

昨天晚上,Runway 发布了最新的视频工作流 GEN-2 (小声说一下我 GEN-1 都还没来得及用)。

这个升级版主要是加入了文字和图像作为提示词直接生成视频的功能。

在 GEN-1 里大部分的还只是对视频风格的处理,GEN-1 的介绍我在之前写的 ControlNet VS GEN-1 :谁将成为AIGC的新范式?有详细介绍。

GEN-2 的官方页面:https://research.runwayml.com/gen2

GEN-2 的相关论文(可以看到是3月11日发布的):https://arxiv.org/abs/2302.03011

GEN-2 的宣传视频:


     模式一:文字生成视频

使用纯文本提示,你就可以生成成任何您能想象到的风格的视频。只要您能说出来,你就可以看到它。

Prompts:纽约市阁楼的窗户透过午后晚阳投射进来。


     模式二:提示词+图片生成视频
也就是通过输入图片和提示词来生成视频。这里给出的例子是通过一张男人走在街上的图片,还有提示词来生成的一张不同风格的视频。

Prompts:一个低角度拍摄的镜头,拍摄一个男人走在街上,周围的酒吧霓虹灯照亮了他的身影。


     模式三:图片生成视频
不需要提示词直接使用图片生成视频。

文生视频这个领域去年Google也发布过类似的产品,但是后面就没有什么水花了。归根结底还是因为目前的文生视频还是只能生成很短的几秒钟。GEN-2 看起来也是如此,给出的 Demo 都是一些微动画。
不过不管怎么说 GEN-2 确实是多模态,对比之前百度发布会的 生成视频的多模态来说 GEN-2 才是真正的生成视频,百度那个更多是拼接视频。

GEN-2 什么时候才能用上?目前官方没有给出内测申请入口。不过可能很快就会开始内测了。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存