Open AI 发布 Sora 视频生成模型

2024年2月19日下午9:57 • 工具软件

Open AI为狙击谷歌发布了他们的视频生成模型Sora，这个视频模型可以生成长达1分钟的视频，在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。

Sora的视频生成能力：

Sora 能够生成提供图像和提示作为输入的视频。
Sora 还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此，几个视频的开头都不同，但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。
扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法 SDEdit, 32 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048×2048。

Sora还有一些其他的特征：

3D 一致性： Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。
长期连贯性（Long-range coherence）和物体持久性（Object permanence）：是视频生成系统面临的重大挑战之一，特别是在采样长视频时维持时间上的连续性。Sora通常能够有效地处理短期和长期依赖关系，尽管并不总是如此。
与世界互动：Sora 有时可以用简单的方式模拟影响世界状况的行动。例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。
模拟数字世界：Sora同样能够模拟人工过程，例如视频游戏。在Minecraft中，Sora可以同时控制玩家的基本策略，还能高保真度地渲染游戏世界及其动态变化。通过使用提及“Minecraft”的字幕提示Sora，可以实现零样本（Zero-shot）地激发这些能力。

Open AI 还透露了一些训练的大概过程：

将视觉数据转换为Patches：探讨了如何让生成视觉数据的模型继承LLM通过在互联网规模的数据上训练，来获得广泛的能力的优势。不同于LLMs使用文本标记，Sora模型使用了“视觉补丁”（Visual Patches）。之前的研究已经显示，对于视觉数据模型而言，补丁是一种有效的表现形式。我们发现，对于训练多种类型视频和图像的生成模型而言，补丁是一种高效且可大规模扩展的表现形式。
视频压缩网络：训练了一个可以降低视觉数据维度的网络。该网络以原始视频作为输入，并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练，并随后生成视频。还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。
时空潜在Patches：在处理一个压缩后的输入视频时，会提取一系列的“时空补丁”（spacetime patches），这些补丁在这里起到了类似于变换器（Transformer）中的“标记”（tokens）的作用。这种方法同样适用于图像处理，因为从本质上讲，图像就是只有一帧的视频。采用的基于补丁的表示方法，使得Sora能够处理不同分辨率、时长和宽高比的视频和图像。
用于视频生成的Scaling transformers：Sora是一种扩散模型；它主要的作用是，给定输入的带有噪声的补丁（以及如文本提示这样的条件信息），Sora被训练来预测并还原出原始的“干净”补丁。更为关键的是，Sora实际上是一个“扩散变换器”（diffusion transformer）。扩散变换器在视频模型中也能有效扩展。随着训练计算量的增加，样本质量显著提高。

一些关于技术原理的补充阅读：

Open AI官方发布的技术报告，演示视频基本都来自这里：https://openai.com/research/video-generation-models-as-world-simulators
这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释：https://x.com/op7418/status/1758822875707154838?s=20
宝玉关于生成原理比较通俗的解释：https://x.com/dotey/status/1758726880381862000?s=20
Sora所有使用的相关技术对应的论文合集：https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e
JimFan关于Sora训练素材来源的讨论：https://x.com/DrJimFan/status/1758210245799920123?s=20

谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun282643.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何使用 NotebookLM

上一篇 2024年2月19日下午9:56

谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

下一篇 2024年2月19日下午9:58

工具软件

如何在线程上存档帖子

在用户投票之后，Threads带来了“存档”帖子的功能，因此您可以隐藏不希望其他人看到的帖子并整理您的时间线。存档选项在 Threads 和 X（前身为 Twitter）上都是备受…

2024年4月29日
工具软件

Microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（AI）技术的潜在滥用，Microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 Thorn 和 …

2024年4月25日
工具软件

Microsoft 通过最新的修补程序更新解决了 Exchange Server 问题，并添加了 ECC、HMA 支持

Microsoft 宣布发布修补程序更新，旨在解决在安装 2024 年 3 月安全更新后影响 Exchange 服务器的几个问题。除了修复这些问题之外，2024 年 4 月修补程序…

2024年4月25日
如何自定义有声播放器控件

Audible 有几个设置，可帮助您控制在应用程序上收听有声读物的方式。在播放控件所在的 Audible Player 上，暂停/播放、向前/向后跳过、速度和计时器等默认选项完成了…

2024年4月25日 • 工具软件
如何在WhatsApp聊天中固定和取消固定消息

在聊天中固定消息是 WhatsApp 更重要的功能之一。这是突出显示地址和群聊规则等关键信息的好方法，因此用户只需轻轻一按即可将其定向到它。由于最近的更新，您最多可以在 Whats…

2024年4月25日 • 工具软件
工具软件

Adobe 的 VideoGigaGAN 项目可以将模糊的视频变成高清

Adobe 的人们开发了一种生成式 AI 模型，该模型很快就会让您将视频升级到原始分辨率的八倍。Adobe在最近发表的一篇名为VideoGigaGAN的论文中声称，该模型远远优于过…

2024年4月25日
工具软件

如何通过电子邮件将 Windows 共享发送到 Gmail

Microsoft已经有一段时间了附近的共享和链接共享到其他应用程序等功能，但是通过电子邮件将Windows共享发送到Gmail的功能是新的，将大大改善您的工作流程。尽管还有其他…

2024年4月23日
已解决：帐户图片错误此图片无法保存

帐户头像错误。当您尝试在 Windows 上为用户帐户设置个人资料图片时，屏幕上出现此图片无法保存错误消息，任何人都可能发生此图片。除了基本身份识别外，设置个人资料图片还可以帮助…

2024年4月19日 • 工具软件
工具软件

WhatsApp将很快列出“最近在线”的联系人

像任何公司一样，WhatsApp希望您尽可能多地使用其消息传递应用程序。为此，它正在实施一些功能，以促进用户与其联系人之间的互动。您很快就能看到您的哪些联系人最近在线。 WABet…

2024年4月19日
工具软件

如何在WhatsApp上使用聊天过滤器

当所有对话都集中在一个“聊天”部分下时，找到正确的WhatsApp聊天并不总是那么容易。幸运的是，WhatsApp 现在引入了“聊天过滤器”，可让您在打开 WhatsApp 后立即…

2024年4月18日
在iMovie中导出时出错：修复

尝试在iMovie中编辑假期剪辑，但在导出最终输出时不断出现错误？您会松一口气，因为您不是唯一一个在iMovie中遇到此类问题的人。在iMovie中，编辑素材的导出过程可能会变得棘…

2024年4月17日 • 工具软件
工具软件

Android 上的新“查找我的设备”网络是什么，它如何提供帮助

早在 Google I/O 2023 上宣布，Android 上的新“查找我的设备”网络终于来了。但这不仅仅是对当前“查找我的设备”服务的简单更新;这是一个升级，实际上可以让你找到…

2024年4月11日
已解决：跨设备体验主机未安装

Microsoft 在将您的手机作为 PC 上的网络摄像头与跨设备体验主机连接方面做得很好，但它未安装可能不在您的宾果卡上。跨设备体验主机未安装或停滞在挂起状态可能只是安装故障。…

2024年4月8日 • 工具软件
VirtualBox 无法覆盖机器文件夹：修复

在 VirtualBox 中设置虚拟机是一个简单的过程。但是，即使在执行此操作时，它也会在设置屏幕上抛出此错误消息“无法覆盖计算机文件夹”。由于已经存在计算机文件夹，会弹出此问题。…

2024年4月8日 • 工具软件
Outlook在尝试打印时没有响应：修复

一些用户求助于社区，因为每当他们尝试打印电子邮件或附件时，Outlook 似乎都会冻结。现在，应用程序有时会卡顿并不罕见。但是，如果每次尝试打印时Outlook都显示突然崩溃的迹象…

2024年4月8日 • 工具软件
音板未显示在 Discord 上：如何修复

使用 Soundboard 可以增强您在 Discord 服务器中的游戏体验。但是，如果您的每个朋友都可以使用它，那么除了您之外，没有音板可能会令人沮丧。但是，别担心。我们已经详细…

2024年4月7日 • 工具软件
工具软件

OpenAI 让您无需注册即可使用 ChatGPT

OpenAI 正在消除使用 ChatGPT 的所有障碍，甚至不需要注册。该公司周一宣布，它允许用户无需注册即可开始使用聊天机器人。这里的目的是“让任何对人工智能能力感到好奇的人都能…

2024年4月6日
Opera 成为第一个集成本地 AI 模型的主要浏览器

Opera 正在将对 150 种本地 LLM（大型语言模型）变体的支持集成到 Opera One（该公司的 AI 集成浏览器）的开发人员流中。添加对 AI 的实验性本地支持是浏览器…

2024年4月6日 • 工具软件
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
如何在 Kindle 上调整睡眠定时器

厌倦了每次从快速阅读休息回来时唤醒 Kindle？多亏了更新，您现在可以简单地调整 Kindle 在关闭屏幕之前的等待时间。这个“睡眠定时器”是一种新的 Kindle 设置，让用户…

2024年4月6日 • 工具软件
Stock Gallery 应用程序在 OnePlus、小米、Oppo 和 Realme 手机上集成了 Google 相册

大多数 Android 手机都有两个图库应用程序——一个由 OEM 预装，另一个由 Google 相册安装。但是由于最近的更新，用户将能够将Google相册集成到其OEM的图库应用…

2024年4月6日 • 工具软件
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Android 15 可能会拒绝安装为 Android 6.0 Marshmallow 构建的应用程序

Android 15 已经凭借我们在开发者预览版上看到的功能成为新闻。现在，有报道称 Android 15 还将提高可安装应用程序的标准。在 Android 14 之前，可以毫无…

工具软件 2024年4月6日
如何从 Android 上的照片创建 WhatsApp 贴纸

\ WhatsApp 贴纸自首次推出以来一直风靡一时。但是，人们永远无法拥有足够的好东西，这就是为什么WhatsApp现在允许您从图库或聊天中的任何图像创建自己独特的贴纸。以下是在…

2024年4月6日 • 工具软件
WhatsApp 将很快允许群组成员创建和管理群组活动

WhatsApp 开发其群组活动功能已经有一段时间了。从表面上看，它将允许群组成员创建事件、在群组中安排视频和音频通话、响应事件并获得提醒。这是一项重大更新，将使团体和社区能够轻松…

2024年4月6日 • 工具软件

Open AI 发布 Sora 视频生成模型

相关推荐