sora动态吧 关注:30贴子:125
  • 2回复贴,共1

OpenAI Sora 关键技术详解:揭秘时空碎片 (Spacetime Patches)

只看楼主收藏回复

人工智能如何将静态图像转换为动态、逼真的视频?OpenAI 的 Sora 通过创新性地使用时空碎片技术(spacetime patches)给出了一个答案。
在快速发展的生成模型领域,OpenAI 的 Sora [1] 是一个重要的里程碑,有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术 [2] 以期激发新一代模型在图像、视频和 3D 内容创建方面的潜力。
OpenAI 使用以下提示词生成生成了一段视频:A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过 Sora 生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试,完整模型尚未完全向公众发布。


IP属地:北京1楼2024-02-26 13:37回复
    Sora 的独特方法如何改变视频生成的方式


    IP属地:北京2楼2024-02-26 13:38
    回复
      广告
      立即查看
      在生成模型(generative models)领域的发展过程中,我们见证了从生成式对抗网络(GAN)到自回归(auto-regressive)和扩散模型(diffusion models)等多种方法的演变,它们都有各自的优势和局限性。Sora 通过采用新的模型技术和凭借其高度灵活性带来了范式转变,能够处理多种多样的视频时长(duration)、宽高比(aspect ratio)和分辨率(resolution)。
      Sora 结合了扩散原理(diffusion)和 transformer 架构,提出了 diffusion transformer model,并具有如下特性:
      文字到视频:这种功能我们应该已经见到过很多次了
      图像到视频:为静态图像赋予生命
      视频到视频:将视频的风格转换为其他样式
      修改视频时间:扩展和缩短视频
      创建无缝循环视频:创建看起来无限循环的平铺视频(译者注:在视频编辑领域,Tile(平铺)是一个专业术语,指的是将一个视频片段复制并拼接,重复排列形成一个新的视频画面的技术。)
      图像生成:虽然只是单帧静止画面,但是称得上一部 “单帧电影”(分辨率高达 2048 x 2048)
      生成任何分辨率的视频:从 1920 x 1080 到 1080 x 1920,应有尽有
      模拟虚拟世界: 像 Minecraft 和其他视频游戏
      创建视频: 最长 1 分钟,包含多个短视频
      想象一下,你正在一个厨房里。像 Pika [3] 和 RunwayML [4] 这样的传统视频生成模型就像严格遵循食谱的厨师,他们能够制作美味佳肴(视频),但受限于他们所知的食谱(算法)。这些 “厨师” 可能专攻制作蛋糕(短视频)或意大利面(某类型视频),使用特定的 “食材”(数据格式)和 “烹调技术”(模型架构)。
      相比之下,Sora 像是全能大厨,对食品风味的构成与变化了如指掌。Sora 不仅能遵循食谱,还持续创造新的菜式。 数据和模型架构的灵活性,让 Sora 能生产出一系列高质量的视频,堪比大师厨艺的多变与精湛。


      IP属地:北京3楼2024-02-26 13:38
      回复