OpenAI Sora 关键技术详解：揭秘时空碎片 (Spacetime Patches)【sora动态吧】

sora动态吧关注：30贴子：125

2回复贴，共1页

OpenAI Sora 关键技术详解：揭秘时空碎片 (Spacetime Patches)

人工智能如何将静态图像转换为动态、逼真的视频？OpenAI 的 Sora 通过创新性地使用时空碎片技术（spacetime patches）给出了一个答案。
在快速发展的生成模型领域，OpenAI 的 Sora [1] 是一个重要的里程碑，有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术 [2] 以期激发新一代模型在图像、视频和 3D 内容创建方面的潜力。
OpenAI 使用以下提示词生成生成了一段视频：A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过 Sora 生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试，完整模型尚未完全向公众发布。

送TA礼物

IP属地:北京

1楼2024-02-26 13:37回复

Sora 的独特方法如何改变视频生成的方式

IP属地:北京

2楼2024-02-26 13:38

在生成模型（generative models）领域的发展过程中，我们见证了从生成式对抗网络（GAN）到自回归（auto-regressive）和扩散模型（diffusion models）等多种方法的演变，它们都有各自的优势和局限性。Sora 通过采用新的模型技术和凭借其高度灵活性带来了范式转变，能够处理多种多样的视频时长（duration）、宽高比（aspect ratio）和分辨率（resolution）。
Sora 结合了扩散原理（diffusion）和 transformer 架构，提出了 diffusion transformer model，并具有如下特性：
文字到视频：这种功能我们应该已经见到过很多次了
图像到视频：为静态图像赋予生命
视频到视频：将视频的风格转换为其他样式
修改视频时间：扩展和缩短视频
创建无缝循环视频：创建看起来无限循环的平铺视频（译者注：在视频编辑领域，Tile（平铺）是一个专业术语，指的是将一个视频片段复制并拼接，重复排列形成一个新的视频画面的技术。）
图像生成：虽然只是单帧静止画面，但是称得上一部 “单帧电影”(分辨率高达 2048 x 2048)
生成任何分辨率的视频：从 1920 x 1080 到 1080 x 1920，应有尽有
模拟虚拟世界：像 Minecraft 和其他视频游戏
创建视频：最长 1 分钟，包含多个短视频
想象一下，你正在一个厨房里。像 Pika [3] 和 RunwayML [4] 这样的传统视频生成模型就像严格遵循食谱的厨师，他们能够制作美味佳肴（视频），但受限于他们所知的食谱（算法）。这些 “厨师” 可能专攻制作蛋糕（短视频）或意大利面（某类型视频），使用特定的 “食材”（数据格式）和 “烹调技术”（模型架构）。
相比之下，Sora 像是全能大厨，对食品风味的构成与变化了如指掌。Sora 不仅能遵循食谱，还持续创造新的菜式。数据和模型架构的灵活性，让 Sora 能生产出一系列高质量的视频，堪比大师厨艺的多变与精湛。

IP属地:北京

3楼2024-02-26 13:38

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

2回复贴，共1页

<返回sora动态吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

OpenAI Sora 关键技术详解：揭秘时空碎片 (Spacetime Patches)

登录百度账号

扫二维码下载贴吧客户端