今天凌晨,OpenAI官网发布了视频生成模型Sora。根据OpenAI公布的信息,Sora可以通过文字自动生成60秒的视频,并且带有复杂的运镜。从演示视频来看,Sora生成的内容的确让人感到真假难分,效果十分惊人。
Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。
Sora的强大之处在于其能够根据文本描述,生成长达60秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
例如,基于一段描述时尚女性在东京光影交错的街道上漫步的文本,Sora能够创造出一段充满动感和情绪的视频。街道上的灯光和反射效果,以及人物的装扮和表情,都被生动地展现出来。
还有更加梦幻的场景,如描述羊毛猛犸象在雪地中前行的文本,Sora能以其强大的视觉效果,呈现出宁静而壮观的自然景象,动物的细节、背景的雪山和树木,以及光影效果都被精细地捕捉和再现。
目前,Sora已对网络安全的红队成员开放,以评估其可能存在的风险或潜在伤害。同时,OpenAI也邀请了视觉艺术家、设计师和电影制作人使用Sora,收集他们的反馈,以使模型更好地服务于创意行业。
Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。
Sora对语言有着深刻的理解,能够精准地捕捉到用户的需求,并创造出充满生命力、情感丰富的角色。此外,Sora还能在同一视频中创造出多个画面,同时保持角色和视觉风格的一致性。
当然,Sora还不是完美的。比如在模拟复杂场景的物理效应,以及理解某些特定因果关系时,它可能会遇到难题。举个例子,视频中的人物可能会咬一口饼干,但饼干上可能看不到明显的咬痕。
在处理空间细节,比如分辨左右时,Sora也可能会出现混淆;在精确描述一段时间内发生的事件,如特定的摄影机移动轨迹时,也可能显得力不从心。(文:宝玉xp)
用户只需给出提示词就能自动生成视频。不过目前OpenAI还没正式发布Sora,只有演示视频。