家里人看新闻说了个openai搞视频,还挺漂亮的,一看官网新出了个视频->视频、文本->视频的模型,而且现在直接能生成一个20来秒的,逐帧间有联系的视频(完全不是b站上那种逐帧玩生成模型搞出来的奇奇怪怪的视频),而且感觉很流畅,对于单个物体甚至画的非常逼真(他每帧的光影都看着没太大违和感)
这个模型好像还改进了对字母的识别,已经能完整拼出来而且跟小学玩的flash那样变出来
这个是视频—>视频,原文能动,问就是lz不会搞gif
这个是两个视频合成,这个截的比较捞,里面的生物都在乱扭头,剩下有兴趣自己看(左右两个估计也是Sora自己生成的东西)
剩下就是对于真实世界的生成结果,截出来都是些风景,体现不出来摄像头的移动,不截图了(懒),还有些类似DALL-E的画风指定,后面还有MC的生成(不知道他这UI是不是自己后期加上的,这🐖看着也不是很像原来的,咱也没打过mod,不太清楚hhh)
目前看起来这个模型对于多物体生成好像还不是很好,我看主页面的纸飞机有时候会糊到一起然后立马消失(变成一个),新闻里面多个动物重叠后会变成一个(也有分裂的),还有时间一长会有新物体蹦出来作者还说对于物理特性生成不是很好(野心是不是有点大了hh)
这个模型好像还改进了对字母的识别,已经能完整拼出来而且跟小学玩的flash那样变出来
这个是视频—>视频,原文能动,问就是lz不会搞gif
这个是两个视频合成,这个截的比较捞,里面的生物都在乱扭头,剩下有兴趣自己看(左右两个估计也是Sora自己生成的东西)
剩下就是对于真实世界的生成结果,截出来都是些风景,体现不出来摄像头的移动,不截图了(懒),还有些类似DALL-E的画风指定,后面还有MC的生成(不知道他这UI是不是自己后期加上的,这🐖看着也不是很像原来的,咱也没打过mod,不太清楚hhh)
目前看起来这个模型对于多物体生成好像还不是很好,我看主页面的纸飞机有时候会糊到一起然后立马消失(变成一个),新闻里面多个动物重叠后会变成一个(也有分裂的),还有时间一长会有新物体蹦出来作者还说对于物理特性生成不是很好(野心是不是有点大了hh)