阿里开源视频生成模型2VGen-XL

阿里开源视频生成模型2VGen-XL

阿里之前11月发布了论文要开源的I2VGen-XL图像生成视频模型,终于发布了具体的代码和模型。演示里面没有人物大幅动作的视频。

I2VGen-XL包括两个阶段:
i) 基础阶段通过使用两个分层编码器保证连贯的语义,并保留输入图像的内容,
ii) 优化阶段通过整合额外的简短文本来增强视频的细节,并将分辨率提高到1280×720。

收集了约3500万个单镜头文本视频对和60亿个文本图像对来优化模型。 通过这种方式,I2VGen-XL可以同时提高生成视频的语义准确性、细节的连续性和清晰度。
阿里开源视频生成模型2VGen-XL

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun271383.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年12月19日 下午2:17
下一篇 2023年12月19日 下午2:21

相关推荐