开年王炸 | OpenAI首个文生视频模型Sora发布

这一次短视频、影视、游戏等行业或许将被彻底颠覆

前言

北京时间2月16日,OpenAI突然发布首个文生视频模型Sora。这一模型可以根据用户输入的提示词直接生成长达60秒的高清视频,并且包含高度细致的场景、复杂的多角度镜头,以及生动的角色表情。平地一声雷,这次依然让人惊呼“又是王炸”,AI视频要变天了。

Sora是什么

Sora 是OpenAI发布的首个文生视频AI模型,可以根据文本指令创建现实且富有想象力的场景,并且可以生成长达一分钟的视频。

总结:

  • 60秒高清视频
  • 多角度镜头切换
  • 世界模型

Sora官网:https://openai.com/sora
技术报告:https://openai.com/research/video-generation-models-as-world-simulators

大佬评价

对于此次OpenAI Sora的发布:

  1. 马斯克称:gg humans(人类输了),Sora AI官推也回应称:“Sora开始接管。”

image-20240218172327528

360集团创始人、红衣教主周鸿祎说,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年、20年的问题,可能一两年很快就可以实现。

效果展示(视频由Sora生成)

来一起看看Sora生成的视频效果吧

AI理解下的中国龙年:龙逢盛世,人潮涌动,有小孩、有老人,还有手机拍照的,热闹非凡。

提示词(Prompt):与中国龙一起庆祝中国农历新年的视频。

s龙年11

提示词(Prompt):一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

s东京女人1

提示词(Prompt):几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。

s猛犸象1

提示词(Prompt):淘金热期间加利福尼亚州的历史镜头(一镜到底)。

s淘金热1

技术方面

  1. Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
    与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。

  2. Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术,该模型能够更真实的遵循用户的文本指令生成视频。

    除了能够根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。

  3. Sora 是能够理解和模拟现实世界的模型,相信Sora这一功能将成为实现人工智能(AGI)的重要里程碑。

最后

Sora生成内容不但接近专业,甚至让人感觉生动有趣,这一次短视频、影视、动漫、游戏等行业或许将被彻底颠覆。

AI时代已来,一起抱团学习成长。

更多AI内容,请关注微信公众号【程序员米七】的文章。

开年王炸 | OpenAI首个文生视频模型Sora发布

http://mi7.net/pages/ai-sora-0216/

作者

米七

发布于

2024-02-18

更新于

2024-02-18

许可协议

评论