OpenAI的Sora革命性文字转视频生成器，引领AI技术新潮流

嘻嘻发布于2024-02-21

908

浏览

OpenAI，ChatGPT的开发者，推出了一款名为Sora的文字转视频生成器。Sora使用先进的生成型AI技术，可以根据书面指令快速创建短视频。Sora可以根据书面提示创建长达60秒的视频，甚至可以从现有的静态图像生成视频。尽管Sora已经能够描绘复杂、极其详细的场景，但OpenAI指出，还存在一些弱点，例如一些空间和因果关系元素的处理，这些都是该技术需要进一步改进的地方。

Sora的训练依赖于大量带有文本标题的视频数据。OpenAI利用了DALL-E 3中的标题生成技术，为视频生成高质量的文本标题，以此来提高文本和视频数据之间的对齐度。同时，在大规模训练过程中，Sora展示了一些“涌现的模拟能力”，如三维一致性、长距离连贯性、物体持久性以及与世界互动等。这些能力表明，Sora能够在一定程度上模拟物理世界和数字世界中的人物、动物和环境。

AI生成的视频工具的发展

Google、Meta和初创公司Runway ML都展示过类似的文字转视频生成技术。然而，Sora的视频质量和长度都给行业分析师留下了深刻的印象。Macquarie的美国AI和软件研究主管Fred Havemeyer表示，Sora的发布标志着该行业的重大进步。他补充说，Sora生成的视频不仅更长，而且看起来更自然，更尊重物理和现实世界。

Forrester的高级分析师Rowan Curran也表示，尽管过去一年中，AI生成的视频已经取得了"巨大的进步"，但Sora视频的一致性和长度，代表了"为创意人提供新的机会，将AI生成的视频元素融入更传统的内容，甚至现在可以根据一个或几个提示生成全面的叙事视频"。

Sora的潜在风险

尽管Sora的能力已经让观察者们惊叹，但对AI生成的视频用途的道德和社会影响也仍然存在焦虑。Havemeyer指出，例如，在可能充满争议的选举周期中，存在着巨大的风险。他补充说，拥有一种"可能神奇"的方式来生成可能看起来和听起来都很真实的视频，无论在政治还是其他方面都带来了许多问题，他指出了欺诈、宣传和误导信息的问题。

OpenAI表示，在将Sora广泛推广之前，它正在采取重要的安全步骤。"我们正在与误导信息、仇恨内容和偏见等领域的领域专家合作，他们将对模型进行对抗性测试，"该公司写道。"我们还正在构建工具，以帮助检测误导性内容，例如可以识别出视频是否由Sora生成的检测分类器"。

OpenAI的全球事务副总裁Anna Makanju在慕尼黑安全会议上重申了这一点，当时OpenAI和其他19家科技公司承诺自愿共同努力，对抗AI生成的选举深度假冒。

Sora的影响力和挑战

Sora的发布无疑在全球范围内引发了震动，尤其是在人工智能领域。它的出现不仅推动了AI生成视频技术的发展，也为短视频平台的内容生产提供了更大的可能性。然而，Sora的视频生成能力并不完美，存在一些不符合物理学规律等AI生成的Bug（漏洞）。

Sora面临的技术挑战还有不少，特别是与文本对话和图片生成相比，训练成本高昂、高质量数据集的缺乏以及视频描述的模糊性都将成为Sora需要跨越的门槛。尽管如此，OpenAI的整体估值已高达800亿美元，一年内飙升两倍多，已经成为全球估值最高的创业公司之一，仅次于字节跳动和SpaceX。

随着Sora的进一步开发和完善，我们有理由相信，它将继续引领AI技术的新潮流，为人工智能行业带来更多可能性和机会。

标签: open ai sora

发表我的评论

关于我

嘻嘻

嘻嘻IT: 笔者是一个工作七八年的程序猿老鸟，从事涉及的技术栈主要包括PHP、Linux、Devops等，喜欢研究新技术，尝试新技术，提升技术自动化和开发效率，致力于write less，do more! 技术每年都会层出不穷，领域划分的越来越细，不可能学习所有的东西，保持对技术的好奇心，理解技术中核心思想，做一个有深度，有思想的开发！

AI生成的视频工具的发展

Sora的潜在风险

Sora的影响力和挑战

你可能还喜欢这些文章

发表我的评论

关于我

嘻嘻