Google DeepMind的这个新工具可以从一张图像创建整个视频

广告

DeepMind研究人员最近宣布了Transframer的发布,这是一种基于概率框架预测的新的通用框架和图像建模和视觉应用程序。这个新的AI工具将各种任务结合在一起,例如图像分割,查看合成和视频插值。

Transframer结合了各种图像建模和视觉任务,并可能基于具有一个或多个上下文帧的单个图像生成薄膜或图像特征。它以几个视频生成基准进行操作。研究团队说,这是一个尖端的模型,可以从单个图像中构建连贯的30秒视频,并且预计将在几次视图合成中成为最强,最有竞争力的视频。

在此模型下,探索了基于机器学习技术而不是常规渲染的整个视频游戏的潜力。它似乎能够使用人工深度感知和观点来产生图像,如果某人四处走动。

尽管缺乏特定于任务的架构组件,但建议的模型在其他八个任务上也表现出色,包括语义分割,图片分类和光流预测。

转换器也可以用于各种应用程序中,这些应用程序涉及从文本或单个图像中学习条件结构,例如视频模型预测和生成,新颖的视图合成和多任务视觉。

广告

发表评论

您的电子邮件地址不会被公开。