[科技知识] OpenAI 的新视频生成模型 Sora 将对计算机图形学产生什么影响?

天天财汇购物网址万年历小说 | 三峰软件小游戏视频

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页淘股吧股票涨跌实时统计涨停板选股股票入门股票书籍股票问答分时图选股跌停板选股 K线图选股成交量选股 [平安银行]

股市论谈均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

商业财经科技知识汽车百科工程技术自然科学家居生活设计艺术财经视频游戏--

天天财汇 -> 科技知识 -> OpenAI 的新视频生成模型 Sora 将对计算机图形学产生什么影响? -> 正文阅读

[科技知识]OpenAI 的新视频生成模型 Sora 将对计算机图形学产生什么影响?

[收藏本文] 【下载本文】

OpenAI全新发布文生视频模型Sora，现实不存在了_腾讯新闻

计算机图形学沦为垂直行业工具，比如高精度电影渲染、工业 CAD；游戏行业出于功耗、硬件性价比考虑依然需要传统图形渲染，并且不排除未来出现云原生的 AI 渲染引擎彻底颠覆现在的架构。
泛娱乐行业，如短视频、低精度电影渲染、广告短片全面被 AI 取代。

首先Sora经济价值很高
但是另一方面，其实没啥影响，在AI没有进化到掌握数学推理之前，这些其实都“中看不中用”。专业领域对精度要求往往令人发指，相比起来娱乐业只要好看即可。
越来越看懂LeCun老师的“非道家思想”炼丹的重要性与必要性。

对图形学其实没啥影响：你是不做贴图了啊还是不做矩阵变换了啊还是可以跳过Shader了啊……
影响是的内容产业

预计SIGGRAPH Asia 2024和SIGGRAPH 2025上面文生视频、图生视频、视频生视频的文章会暴涨一波。然后既然都有视频了，那么接上3D重建的管线自然也可以有更多的文生3D、图生3D等等。
一些过去没做过视频生成的图形学博后或者助理教授们开始声称自己也懂AI视频生成，然后开始拉文生视频、图生视频、视频生视频的横向课题。各种funding proposal里开始提到Diffusion Transformer和Sora，反正从数据生成角度来说无论之前是做什么方向的都能沾上点关系。
就像最近的NeRF、Gsplat一样。
然后再过几年等效果做的足够好，大家就会宣称Diffusion Transformer是计算机图形学的奠基技术之一，大学图形学课上开始将Sora作为经典案例来讲，有学生实现简化版Sora作为小作业，企业招图形学工程师面试加入Diffusion Transformer相关的考题。

優しい君の声が　怖くなってしまったら
冷えた銀河のベッドで　ひとり眠るよ
温柔的你的声音如果变得可怕
在冷却的银河温床独自入睡唷
-ピノキオピー　アイマイナ
我引用的这两句歌词，虽然本意不是，但我认为可以代表目前 AI模型生成的质量虽“高”，但由于物理不准确带来的恐怖谷效应
Sora 他再强大也只是个概率模型
生成的内容都是模棱两可的
从文字直接生成视频良品率就算再高也没法高过传统建模渲染
除非是用 AI 生成具有正确拓补的模型（硬表面现在Mesh GPT 已经Sota 了，角色模型还需加油）
用 AI 加速FEM MPM FLIP 和渲染那些的
未来影视制作我有一个构想：剧本输入骨骼rig输出+角色mesh输出（meshgpt或3d GS）然后再用ML方法将角色蒙皮（不用传统权重）或者ML肌肉系统然后场景可以用Infinigen生成自然场景在生成人工场景用AI生成相机移动及分镜，AI加速物理模拟然后TTS生成角色配音，然后配音生成动作（类似于nvidia ACE）角色骨骼动画然后最后用传统方式渲染出来（渲染，最后AI配乐，生成Cubase Nuendo之类的工程

真的不要去文生xx，它视频生成领域费那么老大心思，花那么多钱，最后还不忘说一句“我们学出来的模型已经掌握世界物理了！”
你图形学起点就是世界物理，别人花了万亿美元爬上的高山你一开始就站在那儿。何苦呢？何必呢？
其实要说图形学那么多工具，天然就是world simulator，为啥不自己主动去找一些更有意义的路子？
比如说agent，通过一句话文本，就生成一个agent，然后这个智能agent自动化调用任何一种或多种图形系统，按照文本的意图建造并较高逼真度地渲染出一段“高准确”的视频。
随后这个视频，再被一种ai的技术像加滤镜/风格化一样变成“影像级”逼真度。
这才是图形学的高光时刻，world simulator。

OpenAI Sora问世，通往AGI的又一个ChatGPT时刻！GPT4可能也要被干掉了
注意：该功能还在内测阶段。

OpenAI的文生视频模型Sora刷屏了。
它有多震撼呢？这么说吧，上一次这么疯狂的刷屏可能还是人类第一次见到ChatGPT的时候。以及，Sora之前几小时Google刚刚推出了它最强的LLM Gemini1.5，并试图宣称自己终于杀死了GPT-4，然而，显然现在没人关注了。
因为看完Sora你可能会发现，OpenAI自己可能要用它先杀死GPT-4了。
每个人都可以创造自己的世界了
先来看看Sora。

人们一直期待GPT-5，但Sora带来的轰动不亚于一次GPT-5的发布。
作为OpenAI 首推的文本转视频模型，Sora能够根据文本指令或静态图像生成长达 1分钟的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。
每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比，妥妥地铁赢了。并且从官方发布的演示来看，无论从视频流畅度还是细节表现能力上，Sora的效果都相当惊艳。
比如官推里这条14秒的东京雪景视频。
提示词：Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「美丽的，被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道，跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落，与雪花一同飞舞。」

穿着时尚的女性漫步在霓虹背景的东京街头，地面有积水倒影。

对于五官和皮肤的刻画十分真实，特别是痘印和法令纹，细节让人惊叹。

猛犸象自冰川雪原中缓步从来，背后升腾起雪雾。

烛火旁纯真顽皮的3D动画小怪物，光影、表情和毛茸茸的细节满分：

一名24岁女性的眼部特写，足以以假乱真。

无人机视角的海浪拍打着Big Sur加瑞角海岸崖壁，落日洒下金色光芒。
窗台上的花朵开放延时影像：

民众们上街舞龙，庆祝中国农历春节。

可爱小猫咪在线安抚起床气。

夜晚街道跑着的快乐小狗。

两艘微型海盗船在一杯咖啡里对峙。

加州淘金时代罕见“历史影像”流出—— 像吗？Sora做的。

目前Sora还在测试阶段，仅对部分评估人员、视觉艺术家、设计师和电影制作人们开放访问权限，拿到试用资格的人们已经开始想象力横飞。
Sam Altman就转发网友用Sora制作的“金光灿灿动物园”视频，玩起了自己的“What”梗：

他还邀请大家踊跃提出想用Sora制作视频的提示词，团队马上为大家生成，瞬间8千多条回复。
网友脑洞大开，要看海洋生物的自行车公开赛。

两只金毛在山上戴着耳机开播客。

当然也不忘cue一下去向成谜的Ilya，要求生成一个“Ilya眼中的真实世界”。

不过OpenAI也表示，虽然Sora 对自然语言有着深入的理解，能够准确洞悉提示词，生成表达丰富的内容，并可以创建多个镜头、保持角色和视觉风格的一致性，但仍不可避免地存在一些弱点。
例如，它在准确模拟复杂场景的物理现象方面存在困难，也可能不理解特定的因果关系。比方说“一个人咬一口饼干后，饼干上可能并没有咬痕。”
模型也可能混淆提示的空间细节，像是弄错左右。或者“在准确体现随时间发生的事件方面遇到困难，比如遵循特定的摄像机轨迹”。
Sora也使用了DALL·E 3的recaptioning技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地按照用户在生成视频中的文本指令进行操作。
它能够一次性生成整个视频，或是扩展已生成的视频使其变长。通过让模型一次性预见多帧，解决了即使主体暂时离开视线也能保持不变的挑战性问题。
关于安全性，OpenAI表示正与错误信息、仇恨内容和偏见等领域的专家合作，对模型进行对抗性测试。同时也在开发帮助检测误导性内容的工具，识别视频是否由Sora生成。对于违反使用政策的文本提示，例如暴力、仇恨和侵犯他人知识产权等内容，将拒绝显示给用户。
除此以外，为DALL·E 3产品构建的现有安全方法也同样适用于Sora。
“尽管进行了广泛的研究和测试，我们仍无法预测人们将如何利用我们的技术，也无法预见人们如何滥用它。这就是为什么我们相信，从真实世界的用例中学习，是随时间构建越来越安全的AI系统的关键组成部分。”
OpenAI对 Sora信心满满，认为这为模型理解和模拟真实世界奠定了基础，是“实现AGI的重要里程碑”。
网友们也第n+1次纷纷哀悼起相关赛道的公司们：
“OpenAI就是不能停止杀死创业公司。”
“天哪，现在起我们要弄清什么是真的，什么是假的。”
“我的工作没了。”
“整个影像素材行业被血洗，安息吧。”

能杀死GPT-4的世界模型？这不就是吗
OpenAI一如既往没有给出很详细的技术说明，但一些只言片语已经足够让你浮想联翩。
其中最吸引我们注意的第一个点，是对数据的处理。
Sora是一个扩散模型（diffusion model），采用类似GPT的Transformer架构。而在解决训练中文本资料与视频数据之间的统一方面，OpenAI表示，他们在处理图像和视频数据时，把对它们进行分割后得到的最小单元，称为小块（patches），也就是对应LLM里的基本单元tokens。
这是一个很重要的技术细节。把它作为模型处理的基本单元，使得深度学习算法能够更有效地处理各种视觉数据，涵盖不同的持续时间、分辨率和宽高比。
从最终的震撼效果看，你很难不得出这样一个结论：对语言的理解能力，是可以迁移到对更多形态的数据的理解方法上去的。
此前的Dalle-3的效果就被公认很大程度来自OpenAI在GPT上积累的领先N代的语言能力，哪怕是个图像为输出的模型，语言能力提升也是至关重要的。而今天的视频模型，同样如此。
至于它是如何做到的，有不少行业内的专家给出了相同的猜测：它的训练数据里使用了游戏领域最前端的物理引擎Unreal Engine5，简单粗暴的理解，就是语言能力足够强大之后，它带来的泛化能力直接可以学习引擎生成的图像视频数据和它体现出的模式，然后还可以直接用学习来的，引擎最能理解的方式给这些利用了引擎的强大技术的视觉模型模块下指令，生成我们看到的逼真强大的对物理世界体现出“理解”的视频。
基于这个猜测，OpenAI简短的介绍中的这句话似乎就更加重要了：
“Sora 是能够理解和模拟现实世界的模型的基础，OpenAI相信这一功能将成为实现AGI的重要里程碑。”
理解，现实，世界。
这不就是人们总在争论的那个唯一有可能“干掉”GPT-4的世界模型。现在，OpenAI搞出来了它的雏形，摆在了你的面前。
看起来，这个模型学会了关于 3D 几何形状和一致性的知识，而且并非OpenAI训练团队预先设定的，而是完全是通过观察大量数据自然而然地学会的。负责Sora训练的OpenAI科学家Tim Brooks表示，AGI将能够模拟物理世界，而Sora就是迈向这个方向的关键一步。

显然，在OpenAI眼里，它不只是一个“文生视频模型”，而是更大的东西。
我们如果尝试进一步给一个暴论，就是：语言是理解一切的基础，理解了视频后，世界模型才会到来。
可能这才是比今天刷屏感慨“现实不存在了”之外，更恐怖的地方。这可能是人类通往AGI的又一个ChatGPT时刻。

我觉得对就业者来说还是利好的，因为国内要开始追赶，追赶就需要相关人才。

没有什么影响啊，只能说比目前的竞争对手要强，离真正的商业化还很远。相信2024年是文生视频的元年

首先 sora 有生成各种逼真三维模型的潜力；其次他也有通过特定场景和人物模型制作连贯动画的潜力。

b站卖课新赛季了

这几年狂蹭NeRF热点的伪图形学渣渣本人觉得sora影响会非常大……我个人是觉得sora对图形学的影响是NeRF对图形学的影响的10倍以上。是时候全面拥抱data-driven了。

不会产生什么影响。
可能会对 SIGGRAPH 产生影响，但是不会对图形学产生什么影响。
虚假的 neural rendering, 真正的 neural rendering.jpg

相辅相成吧, 没有人类创作, AI模型没有新数据可以用来训练, 完全靠在自己生成的图上训练, 感觉会在错误的路上越走越远, 才思枯竭而亡。

先是积极反馈阶段-排列组合寻找最优路线
中间是打工人摸鱼阶段-既有路线小升级
最后是躺平阶段-引导人类自己筛选

我们向朝鲜又前进了一步
要是能配合脑机接口，把脑子里的画面呈现到现实画面里，直接机械飞升了

OpenAI的Sora模型能够基于文本指令生成复杂的视频，包括多角色、特定动作和详细的场景以及生动情感，Sora能够理解物理对象间的相互作用，并能扩展现有视频中的场景，这意味着Sora可以在教育、娱乐、广告和内容创作等领域有广泛应用。例如，它可以用来创建教育教程、动画短片或模拟现实场景。Sora的影响包括加速视频内容的创造过程、降低制作成本和推动创新的表达方式，当然，它也可能带来版权、伦理和信息真实性的挑战。

相辅相成，共存共生，人类文明巨大进步。计算机图形学是人主动创造文明，按照人的思想创造不同图形，达到满意的目的。
当下的sora则是被动调整，让一个有思想的计算机算力输出多类模型，根据每个人思想调整优化。
时代在变，经济生产力快速提升，服务人的能力越来越强。不会颠覆，只是让人有更大精力研究其他东西。欢迎探讨交流~

没有任何影响，它并不依靠物理模拟“渲染”视频

Sora是一个基于AI的视频生成模型，它可以从文本描述生成高质量的视频。这意味着它可以自动创建视频，而无需人工干预。这种技术可以在许多领域产生影响，包括广告、电影、游戏和教育等。
对于计算机图形学来说，Sora的影响主要体现在以下几个方面：
视频内容创作变得更加简单和高效：Sora可以自动生成视频，这将大大减少创作过程中的时间和精力。这将使更多的人能够轻松地创建视频内容，从而推动计算机图形学在这些领域的应用。视频内容的质量得到提升：Sora可以根据输入的文本描述生成高质量的视频。这将使得视频内容的质量得到显著提升，从而提高用户体验。视频内容的多样性增加：Sora可以根据不同的文本描述生成不同的视频。这将使得视频内容的多样性增加，满足更多用户的需求。计算机图形学算法的优化：Sora的出现将促使研究人员不断优化计算机图形学算法，以提高视频生成的质量和效率。这将推动计算机图形学技术的发展。人工智能在计算机图形学领域的应用：Sora是一个基于深度学习的模型，这意味着它可以利用人工智能技术来生成视频。这将进一步推动人工智能在计算机图形学领域的应用，为未来的技术发展奠定基础。

gpt简化冗杂的数据分析流程，但高级的数据分析师仍然有用；简化了报告撰写，但资深的战略分析师仍然有用；配合lean可以进行辅助数学证明，但数学家仍然被需要
sd极简了绘画创作
sora一键加速生成复杂的图形创造过程
对于艺术家图形学工作者来说是一种加速计算或者说加速工作的效果吧
当不再局限于视频输出，这种工具能够规模化运用于影视游戏生产，传统图形学（render simulate geometry）生产力也会大大提高
分界线下面是negative的想法（对ai而非cg）：
当最大的图像、文本、视频数据都已经利用尽了，AI是否凛冬将至呢？接下来就是大规模的数据收集时代？或者是各种expert模型和ai4sci模型？

感觉应该是自媒体和营销号的狂欢啊，首先报道追踪ai相关新闻能吃一波，然后制作短视频又吃一波，ChatGPT生成文案，sora制作短视频，直接赢麻了！这下可以把文案，美术，程序员全开掉了！
对于图形学的影响的话，个人感觉图形学应该是这类ai的抓手，ai去调动图形学相关插件去生成视频，然后用ai方法牺牲精度加速图形学中原本计算量超高的部分，比如毛发，水波等，反正出点小错观众也看不出来，只要有那种感觉就够了！几何和模拟不太了解，渲染领域感觉那种低的果实已经摘的差不多了，来点噱头和变化对就业和拉投资都是有帮助的。

红衣大叔讲AI：Sora技术原理大揭秘

AI周红伟
人工智能科学家，培训AI和ChatGPT学员超过10万人。
前沿：Sora是一个OpenAI技术大集成模型，融合了ChatGPT、DALL E3，以及把视频融合到Transformer中，生成一个一的视频帧，利用矢量来表示，最后把这个矢量送到Transformer中训练视觉大模型。
Sora生成图像能力：Sora是一个文生视频模型，但同样具备生成图像能力，这个创新属于业内第一家。Sora可以生成不同大小，分辨率高达2048x2048的图像例如，充满活力的珊瑚礁，有色彩缤纷的鱼类和海洋生物。

有影响，游戏和电影依赖物理渲染，场景细节和复杂度受到物理引擎性能制约。
ai生成画面在这个方面似乎天花板更高。
如果能够优化到民用硬件且高帧数，它肯定可以代替一部分电影和游戏的需求。

没有影响，它只是调用了图形学软件输出影像。

[收藏本文] 【下载本文】

科技知识最新文章

百度为什么越来越垃圾了?

为什么程序员总是发现不了自己的Bug?

出现在抖音评论区里边的算命真不真？

你认为 C++ 最不应该存在的特性是什么？

为什么 Windows 的兼容性这么强大，到底用了

如何看待Nvidia禁止使用翻译工具将cuda运行

为何苹果搞了十年的汽车还是难产，小米很快

该不该和AI说谢谢?

为什么突破性的技术总是最先发生在西方？

加:2024-02-18 23:05:09 更:2024-02-18 23:19:54

股票涨跌实时统计涨停板选股分时图选股跌停板选股 K线图选股成交量选股均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

网站联系: qq:121756557 email:121756557@qq.com 天天财汇