ChatGPT官网

OpenAI SORA火爆全球!掀起新一轮的科技颠覆狂潮!

nidongde2024-02-18 19:57:18191


历史文章:
企业数字化转型战略完整指南
企业人工智能战略转型完整指南
企业数字化转型落地指南8步走
36门“数字化转型微课”快速成为数字化转型专家!
《业务架构技术(BASTC)》标准课程与认证来了!

正文

1、Sora带来了什么新东东?


刚刚,OpenAI发布了其首个视频生成模型——Sora,这一创新技术完美继承了DALL·E 3的卓越画质和指令遵循能力,更进一步地,能够生成长达1分钟的高清视频。这一技术成果不仅令人瞩目,更标志着人工智能在视频生成领域的重大突破。


想象一下,AI想象中的龙年春节,红旗招展,人山人海,儿童紧跟舞龙队伍,好奇地抬头观望,人们纷纷掏出手机记录这一盛景。



再或者,雨后东京的街头,潮湿的地面反射出霓虹灯光影,宛如RTX ON般的视觉盛宴。Sora不仅能生成这些精美绝伦的画面,更能在行驶中的列车窗外偶遇遮挡,短暂出现车内人物倒影,惊艳至极。


不仅如此,Sora还能轻松应对更为复杂的任务,如制作好莱坞大片质感的电影预告片,或是竖屏超近景视角下的细腻刻画。



网友们纷纷惊叹,直呼game over,担心自己的工作将受到威胁。甚至有人已经开始“悼念”整个行业,因为Sora的出现无疑将颠覆传统的视频制作方式。


值得一提的是,OpenAI并不满足于仅仅生成视频,他们正在教AI理解和模拟运动中的物理世界。他们的目标是训练模型来帮助人们解决需要现实世界交互的问题。根据文本提示生成视频,仅仅是他们整个计划中的一小步。


目前,Sora已经能够生成具有多个角色、包含特定运动的复杂场景。它不仅能理解用户在提示中提出的要求,还能了解这些物体在物理世界中的存在方式。比如,当一群纸飞机在树林中飞过,Sora能够准确模拟出碰撞后的效果以及光影变化。这些纸飞机在茂密的丛林中翩翩起舞,穿梭自如,仿佛真的候鸟一般。


同时,Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解来准确解释提示词,保留角色和视觉风格。


想象一下,美丽而白雪皑皑的东京城市街头,镜头穿梭在熙熙攘攘的街道,跟随几个人在雪天中漫步,享受美丽的风景,并在附近的摊位购物。绚丽的樱花花瓣与雪花共舞,随风飘扬,这一切都被Sora完美地呈现在我们眼前。


当然,Sora目前还存在一些弱点。OpenAI毫不避讳地指出,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,当提示词为“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”时,Sora可能会出现狼的数量变化的情况,一些狼凭空出现或消失。



即便如此,Sora所展现出的潜力和前景仍然令人充满期待。


然而,该模型目前仍面临一些挑战,如可能混淆提示的空间细节,导致左右不分,以及难以精确描述随时间推移发生的事件。例如,在提示词“篮球穿过篮筐然后爆炸”中,模型未能正确呈现篮球被篮筐阻挡的情景。



从技术层面来看,Sora是一种扩散模型,它从噪声出发,能够一次性生成整个视频或扩展视频的长度。


关键在于一次生成多帧的预测,确保即使画面主体暂时离开视野,也能保持一致。与GPT模型类似,Sora也采用了Transformer架构,展现了强大的扩展性。在数据处理上,OpenAI将视频和图像表示为patch,类似于GPT中的token,这种统一的数据表示方式使得模型能在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比。


Sora建立在过去对DALL·E和GPT模型的研究基础之上,它继承了DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,从而能够更忠实地遵循用户的文本指令。不仅如此,该模型还能从现有的静态图像中生成视频,让图像内容动起来,并关注细节。此外,它还能获取现有视频并进行扩展或填充缺失的帧。


值得一提的是,Sora是理解和模拟现实世界模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。目前,已有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得了Sora的访问权限,他们开始不断创作出新的作品,奥特曼也开启了在线接单模式。只需带上你的提示词@sama,就有可能收到生成好的视频回复。


从视觉效果来看,Sora所生成的视频堪称精彩绝伦。例如,一位时尚女性行走在东京的街道上,黑色皮夹克、红色长裙和黑色靴子的搭配展现出她的自信与随意。街道潮湿且反光,形成镜面效果,与彩色灯光交相辉映。



此外,无人机摄像机围绕着一座美丽的历史教堂盘旋,展现出阿马尔菲海岸的壮丽景色,令人惊叹不已。


而柯基犬在热带毛伊岛拍摄的视频博客则充满了活泼与可爱的气息。


尽管Sora已经取得了令人瞩目的成果,但它仍然存在一些局限性。例如,它可能难以精确模拟复杂场景的物理原理,并可能无法理解因果关系。但我们相信,做到这一点是早晚的事情。


2、OpenAI自己怎么看这项新技术


PS: OpenAI(以下简称OA)在主页上发布了一个研究公告,叫“作为世界模拟器的视频生成模型”,做了进一步阐述(https://openai.com/research/video-generation-models-as-world-simulators)


在探索视频数据生成模型的广阔天地中,训练文本到视频的系统需要大量的带有相应文本字幕的视频。为此,OA汲取了DALL E 3中的智慧,引入了字幕重配技术,为我们的训练集赋予了生动的文字灵魂。通过高度描述性的字幕模型,OA为每一帧视频注入了精准的文字注解,这不仅提高了文本的保真度,更使视频的整体质感得到了显著提升。


与DALL E 3异曲同工,OA也巧妙地结合了GPT的魔力,将简短的用户提示转化为饱含深意的字幕,再将这些字幕注入到视频模型中。这样的交融,使得SORA能够精妙地根据用户的每一个提示,生成高质量、高还原度的视频。


想象一下,一个玩具机器人在绿色的连衣裙和太阳帽的装扮下,欢快地在南非约翰内斯堡的冬季风暴中散步,这一切都源于一个简单的文字提示。


不仅如此,SORA还能接受其他形式的输入,如预先存在的图像或视频,从而完成一系列图像和视频编辑任务,如创建完美的循环视频、制作静态图像动画等。


SORA还能将图像与提示相结合,生成令人眼前一亮的视频。无论是柴犬的俏皮造型,还是多样化的怪物家族插图,亦或是真实云朵的细腻描绘,SORA都能将其完美呈现。


SORA还具备扩展生成视频的能力。从一段生成的视频开始,它可以向后扩展,生成四个开头各异但结局相同的视频,这样的创意无疑为视频创作带来了无限的可能性。


而在视频编辑方面,SORA同样展现出了卓越的能力。通过SDEdit技术,它能够实现零镜头转换,将输入视频的风格和环境进行巧妙转换。同时,它还能在两个输入视频之间创造无缝过渡,使不同主题和场景的视频流畅连接。


此外,SORA还能生成高质量的图像。通过在时间范围内排列高斯噪声片,它能够生成各种大小、高分辨率的图像,展现出惊人的图像生成能力。


最令人振奋的是,随着大规模训练的进行,SORA展现出了许多令人惊叹的模拟能力。它能够在三维空间中呈现动态摄像机运动的视频,保持人和场景元素的一致性。同时,它还能有效建模短期和长期依赖关系,保持物体的持久性和外观一致性。这些能力的出现,为开发高性能的模拟器提供了一条充满希望的道路。


尽管SORA目前作为一个模拟器还存在许多局限性,但其在视频生成领域的潜力和可能性已经引起了广泛的关注。随着技术的不断进步和优化,OA相信,SORA将在未来为我们带来更多令人惊叹的创意和惊喜。


3、我们怎么看SORA对真实世界的颠覆


  • 视觉内容的革命性生成


随着SORA模型的崭露头角,视觉内容的生成领域迎来了革命性的变化。传统的视频制作,依赖于专业的摄影师、导演和剪辑师,繁琐且成本高昂。而今,SORA模型以其强大的能力,颠覆了这一切。


只需简短的文字提示,SORA便能挥洒自如,创作出高质量的视频。无论是宁静的风景、生动的人物还是复杂的动态场景,它都能精准地还原并细腻地呈现。这不仅极大地降低了视频制作的门槛,更让普通人得以参与到视觉内容的创作中,从而极大地丰富了我们的视觉体验。


  • 媒体行业的崭新天地


SORA模型的出现,为媒体行业带来了翻天覆地的变化。传统的媒体制作周期长、成本高,而SORA则以其高效、快速的内容生成能力,彻底改变了这一局面。它不仅极大地提高了媒体制作的效率和灵活性,更让内容创作焕发出新的生机。


更重要的是,SORA还能根据用户的个性化需求,生成定制化的内容。这意味着,未来的媒体行业将更加注重内容的个性化和互动性,而SORA模型将成为实现这一目标的关键工具。


  • 创意产业的无限遐想


SORA模型的出现,为创意产业注入了新的活力。设计师、艺术家和创作者们通过SORA,得以将想象变为现实。无论是建筑设计的灵感、动画制作的创意还是艺术创作的激情,SORA都能为他们提供强大的技术支持。这不仅极大地拓展了创意产业的边界,更让普通人也能参与到创意的创造和分享中。


  • 应用领域的广泛拓展


SORA模型在教育、娱乐、广告等领域也展现出了巨大的应用潜力。


在教育领域,SORA可以生成丰富的教学视频和模拟实验,帮助学生更好地理解抽象的概念和原理;


在娱乐领域,SORA可以为用户提供个性化的游戏体验和视频内容;


在广告领域,SORA可以生成具有吸引力和创意的广告视频,从而提高广告的转化率和效果。


  • 技术融合的未来:SORA的崭新篇章


作为一种先进的视频生成模型,SORA最大的优势在于其强大的语言理解与视频生成能力。未来,SORA有望与其他先进技术进行深度融合,从而进一步拓展其应用范围和性能。


SORA可以与自然语言处理技术相结合,实现更加智能和自然的文本到视频的转换;


SORA还可以与虚拟现实和增强现实技术相结合,生成更加逼真和沉浸式的视觉体验;


此外,SORA还可以与机器学习和深度学习技术相结合,实现更加智能和自适应的视频生成和编辑。这将为SORA的未来发展开启新的篇章。


  • 面对挑战:SORA的监管与规范


然而,随着SORA等先进技术的普及和应用,我们也必须面对其可能带来的社会影响和伦理挑战。


在内容创作领域,SORA可能会导致原创作品的版权问题变得更加复杂和难以界定;


在隐私保护方面,SORA可能会引发用户隐私泄露和数据滥用的风险;


在社会文化方面,SORA生成的内容可能会对人们的价值观和审美观念产生影响。


因此,在未来的发展中,我们需要加强对SORA等先进技术的监管和规范,确保其健康、可持续地发展。只有这样,我们才能让SORA等先进技术真正为人带来福祉。


3、那么,西方经过了哪些努力走到了这一步?


首先,斯里瓦斯塔瓦等人的研究“使用LSTMs的视频表示的无监督学习”为视频分析领域开辟了新的道路。他们利用长短期记忆网络(LSTMs)捕捉视频中的时序信息,为视频内容的理解和生成提供了强大的工具。这一研究不仅推动了视频处理技术的发展,也为后续的视频生成模型奠定了基础。


随后,经常性环境模拟器和世界模型等研究则进一步探索了视频生成的可能性。它们通过构建复杂的动态场景,实现了对视频内容的精确控制。这些研究不仅提高了视频生成的逼真度,也为视频编辑和创作提供了新的思路。


在图像合成方面,Mocogan和对抗性视频生成等研究则展示了生成模型在图像和视频合成中的强大威力。它们通过捕捉数据集中的统计规律,生成了高质量的图像和视频。这些研究不仅推动了生成模型的发展,也为计算机视觉和图像处理领域带来了新的突破。


而最近的研究,如扩散模型和零镜头文本到图像生成等,则进一步拓宽了图像和视频生成的边界。它们利用先进的扩散模型和文本生成技术,实现了从文本到图像的精确转换。这些研究不仅提高了图像生成的多样性和可控性,也为人工智能在艺术和创意领域的应用提供了新的可能。


然而,先走到这一步、震撼的世界的为什么不是中国?


更多交流扫码联系我的微信

我们提供的专家服务:

数字化转型规划 | 顶层设计 |企业创新与运营
企业数字化营销| 企业数字化架构规划 | 
企业数智经营体系构建与运营 |
财务数据治理与分析框架|企业司库数字化|
IT战略规划 |  IT服务管理体系 | 数据治理

本文链接:https://yuchubao.com/chatgptxiazai/22.html

相关文章

网友评论