天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 科技知识 -> OpenAI 发布首个视频生成模型,输文字出 1 分钟高清视频,会带来变革?会打破虚拟与现实的界限吗? -> 正文阅读

[科技知识]OpenAI 发布首个视频生成模型,输文字出 1 分钟高清视频,会带来变革?会打破虚拟与现实的界限吗?

[收藏本文] 【下载本文】
2022年末,OpenAI聊天机器人ChatGPT的面世无疑成为了引领人工智能浪潮的标志性事件,宣告了新一轮科技革命的到来。无论是聊天娱乐、教育学习,…
虚拟和现实之间本来就很模糊,以后只不过会变得越来越模糊了。
短视频刚出现的时候被广泛的认为是洪水猛兽,现在基本上人人都起码有一个短视频APP。
因为你不可否认,几秒钟一个的短视频,纯视觉的将几个或是有用、或者有趣、或是好看的东西呈现给你,你甚至都不怎么用脑子,直接就可以获得精神上的爽感。
这种获得爽感的方式非常的廉价,这也是为什么极少数人能看几个小时的书,而同样的时间花在刷短视频上可能性就大大增加了。
如果抛开作为一个人必须要努力的成见,Sora这种视频生成模型,如果再提升两个版本,再加上如果有无限的算力的话。
人甚至可以不用接触真实世界,戴个vision pro的设备,不间断的生成让你爽的视频就行。
如果你喜欢看赛车,那就给你生成关于赛车一切内容。
如果你喜欢看二次元,那么专属于你喜好的二次元视频7*24小时的不停被创作出来,你睁了眼就可以看,生成到你不想看为止。
因为说白了,所谓现实给人带来的感受,是不是就是各种生物传感器,光学的眼睛,声学的耳多,来自皮肤的触觉,味蕾感受的味道,然后转换成电信号。
只要最终的感受是真,那本质上区别没有很大。
Sora可以生成不间断的视频,提供光学信号,那以后估计也会有各种其他模拟器。
未来最好的是有选择,你可以选择真实,也可以选择虚拟,你还可以虚实结合。
刚才去openai的社区上闲逛,发现了一个目前普通人最感兴趣的问题:


Sora到底会以怎样的形式推出,是免费的还是收费的?到底啥时候才能让大众使用?
下面的一个回复让我深感意外:


一位号称是专业电影制作人的用户认为,Sora最好不要免费,这样可以提高使用门槛。同时,他还有两个期望,一个是“生成视频”可以被打上标记,另一个是希望能够让生成模型学习属于自己的风格。
一项过于炸裂的技术,其实总会引起相关从业者,乃至普通人的很多担心。根据openai的说法,Sora目前仍然在“学习”,他们计划使用其图像生成器Dall-E已有的一些安全功能,利用包括审查文本提示审查在内的一些工具,确保Sora生成的视频不包含"极端暴力、性内容、仇恨图像、名人肖像或他人知识产权"等规则。
最近一段时间,AI做出来的一些“似幻似真”的东西,已经开始真的融入并影响着人们的生活:假冒流行歌星Taylor Swift的性暗示AI生成图像在社交媒体上疯传,吸引了数百万观看;在新罕布什尔州初选期间,一个假冒总统乔·拜登声音的自动电话呼叫劝阻人们投票。
足以说明,以目前的检测手段,什么是真?什么是假?其实已经很难分辨,而fake视频的检测,恐怕是难上加难。
至于虚拟和现实之间的界限,有专家认为“摄影和视频所具有的真实清晰度已经消失了”,这个我倒是很认可,因为从Sora的技术文档中就可以看出来,Sora的缩放倍数已经达到令人震惊的程度,即使手残党把自己家的狗狗“拍糊”了,但是只要交给Sora,它仍然能还你一段“清晰”的影像。


只是在这个“清晰还原”的过程中,我很担心一件事情,就是“我的狗”是否真的还是“我的狗”,毕竟是“生成”修复,一些未被拍摄到的细节,只能靠模型自己“想象”,并根据想象结果进行细节填充,那么填充出来的物体是否是“糊掉”的原物体,就不得不让人画一个问号了。
狗还好说,只要是同一品种,长得都差不多,以后Sora要是进行人像修复,修复结果的真实性、可靠性、合法性其实都很值得商榷。比如有些兄弟拿去“修复”硬盘里的那些存货……
Sora和其他生成式AI产品一样,是基于大量在线数据训练的,而在线数据的质量其实是参差不齐的。所以Sora的能力“上限”到底在哪,是否真的可以突破虚实的界限,还是需要等到它public后,经过大家的使用才能被证实。
这个非常NB。
就目前的技术路线能搞出这东西,说实话个人是比较吃惊的。因为就现在的产品,大家能看到的,图片的就是SD和MJ以及Dalle-3,dalle-3虽然对比SD有比较大的优势,但是算法我敢说大差不差。无非就是图像模型更大,语言模型更强,训练样本也更多。这个只要你有从事深度学习相关的经验就不难得出类似的认知。实际上openAI算是半开源了dalle-3的技术细节,尤其是最关键的数据制备的细节被公开了,从公开的论文来看,实际上并没有什么特别大的创新之处。这也符合认知。
然而Sora让我感觉这应该是个全新的东西。这玩意儿很难用现在的算法去解释,用什么只是单纯的堆叠数据量之类的逻辑来解释。我讲的简单点,就是
existing methods + bigger model + larger dataset != Sora
或许Sora的最底层原理依然是diffusion,但是有可能在diffusion的基础上做出了一些巨大的创新。就好比是GPT和vanilla transformers的区别。当然,我也不能100%排除这不是当模型大到一定地步的时候发生的所谓的“emerging”现象,虽然我非常怀疑这一点。
讽刺的是,这下国内想抄也抄不了了,哈哈。说真的,之前国内的百模大战,各个宣称战胜gpt,到今天openAI搞出Sora,这场景真太讽刺了。
我觉得问题首先要改成,会带来多大的变革?会在多大程度上打破虚拟与现实的界限?会在什么时间推出给大众?
我们一直喊未来已来,但是当未来真的来了的时候,无数人反而开始质疑这是未来吗?开始恐惧,未来会消灭自己的工作机会?开始告诉韭菜,不跟我学,你就没有未来!
所以大家可以看到当未来降临时,是混乱的时候,你需要关注我一下,尽可能提供给你从技术角度理解的真实!
现在这个世界是网络信息为主的时代了,从文字到图像,再到视频你看到的一切都可能是人工智能生成的或真或假的信息!我们过去崇拜的“眼见为实,耳听为虚”变成了,一切都可以是“虚”了!这个变革就变得非常危险,如果你没有自己的判断能力,可能会从过去容易限入故意剪辑的陷阱,到看到个东西你就相信是真的!
这非常危险??????只要有一定的技术能力,可以造出相当不错的假货,再加上人工智能的效率,配合上博傻与筛子,未来的世界会变得对普通人极度不友好!


上面的负面影响会对老人,儿童,还有智商及逻辑能力缺乏的人造成极大的损害,没有办法保护他们了!
他们面对的是自己的亲人的视频+声音,加打钱
再谈对正常行业的影响
这个正常行业就是一句话,会 ai 的卷死不会 ai 的!大量的ai 内容会如洪水般冲垮一切视频平台,你只有相信人的可能,不要相信视频,“如果相信,请一直相信”!
受影响的行业有最直接的视频相关从业,自媒体,广告行业可能潜在的未来相关从业者,广告行业的消费者-老板们再也不会接受一分钟的万级报价,几千爱干不干,买像个 prompt 你还好意思要这么多钱?你以为是“蜜雪冰城甜蜜蜜,你爱我我爱你”啊!
现实的革命与影响都归结到了,时代离开你连个招呼都不打!
至于虚拟与现实,每次提到这个词,我满脑子都是 vision pro 的苹果


这个集成了苹果,索尼,tsmc 等公司加上最优秀的中国装配技术都没有打破虚拟与现实的话,那 sora 明显离这个很远!
虚拟与现实的打破是视频 aigc 的实时生成,或者是 vr 与 ar 的无缝切换的时代!
那时我想早就是强 agi 时代了!
人类的智力与学习已经无法掌握那个时代的科技了!
之前有体验Runway的图片合成4s秒的视频,明显的感觉就是模型在通过语义理解合成视频时,生成的内容表现出明显的指令跟随能力弱,视频内容帧间不连贯(特别是人物、动物这类动态合成时,经常出现形态变形的)。
4s的视频内容能够传递的信息太短,如何要合成更长的视频,需要预设更多的分镜来合成多个4s视频,再后期剪辑合成更长的视频内容。这个过程容易出现视频内容主体不一致的情况(需要花费较长时间的调整才能获得满意的视频内容)。
从Sora的技术报告看,sora模型
它可以生成涵盖不同持续时间、宽高比和分辨率的视频和图像,高达一分钟的高清视频。作为世界模拟器的视频生成模型(video generation models as world simulators:)它是一个diffusion transformer模型。输入噪声片段(和条件信息,比如文本prompt),生成原始无噪声的片段.它具有强语言理解能力,利用chatGPT把用户的提示词转换成更详细,更长的字幕提示词,保证视频合成模型Sora可以生成满足用户意图的高质量视频。它支持输出图片和视频prompt: 可以输入图片合成动态视频,输入视频进行视频扩展合成更长、更丰富的视频内容。它支持视频拼接,不是平时剪辑的简单两个视频拼接,而是根据两视频内容理解后再合成新的视频。这种方式拼接的视频没有明显的场景变换的突兀感。它也支持生成各种分辨率的图像,最大可达2048x2048.它具有强大的三维状态模拟能力,主要表现是视频中的物体在三维空间的运动,与拍摄镜头在三维空间的运动这两种运动产生的效果能够很好被模拟出来。(如下图,在Runway中镜头的移通过Camera Motion设置来控制,Motion Brush是用来控制物体的三维运动)


它具有长镜头中对象一致性:视频生成系统面临的一个重要挑战是在采样长视频时保持时间上的一致性。openAI发现,Sora通常能够有效地建模短期和长期依赖关系,尽管并非总是如此。例如,模型可以在人、动物和物体被遮挡或离开画面时仍然保持其存在。它可以和世界交互:比如把如下它绘图的这个视频信号理解接入一个机械手,给它一张纸,它就可以作用于真实世界绘图。


它可以模拟数字世界: 在虚拟世界控制虚拟玩家,并根据策略进行游玩。
sora的出现会掀起巨大的变革,音视广告等的技术革新,AIGC相关的法律变革等。目前,Sora作为一个模拟器任然存在许多限制。例如,它无法准确地模拟许多基本交互的物理效应,比如玻璃破碎。其他交互,比如吃东西,也不总是能正确地改变物体状态。
话说就怪那些嘲笑美术的人,叫人家美工,美工不开心就跟程序员开怼,结果程序员就报复美术,给美工开发了一个牛逼的软件,自动出图自动出视频的工具。然后写文档的嘲笑程序员是码农,然后码农出文本gpt,结果去年工地上写文档的10个人裁的只剩下1个人,然后java程序员嘲笑python程序员薪资低,为了报复Java程序员他们出了自动写代码,现在招聘网站都在招python程序员,c#程序员已经消失了。
有人说Sora是伪装成「视频生成模型」的虚拟宇宙。
反过来,宇宙会不会就是个生成模型,不过算力、规模强大许多。
于是,我们都是群演,现身造物主导演的新剧《打工人之生存》:)
------
“Sora来了,现实不存在了?”看到这个问题确实会浮想联翩...
从0到1,世界如何涌现,可能Sora已给出个很好演示。
从ChatGPT到Dall-E,大语言模型触及生活方方面面。发展到今天这地步,几乎是将视频生成模型泛化成物理引擎。或许,距离他创作虚拟现实,只有一步之遥。
我猜当Sora相应技术应用在游戏领域,当生成模型入驻开放世界冒险,又会再次发挥出不可思议的力量吧。
------
【Sora的过人之处】
“现实”与“虚拟”差距正不断缩小。我们知道,Sora能按照用户提示词生成视频,这并不是首创,Fliki可以、Pictory可以、剪映也可以。
?而比较意外的是,他能保持场景和人物稳定性和连续性,保障精度和质量、这感受和之前大有不同。
没有怪异的变化,没有主人公多出的手脚,也没有面颊之上的恐怖谷。即便是超现实文案也会栩栩如生、不敢跑偏。


Sora的作品符合现实逻辑与物理规律




Sora 不是一个简单的视频生成器,它是一个数据驱动的物理引擎,其对于虚拟和现实世界进行模拟。
这个过程中,模拟器通过一些去噪和梯度数学方法来学习复杂的视觉渲染,构建出「直观」的物理效果,以及进行长期推理和语义基础。
?Sora采用到了OpenAI模型、及DALL-E 3的强大技术,可将简短文本描述转化成60秒一镜到底的高清视频。至少在短视频领域,这是一颗重量级炸弹。如同核能之于战争,作为改变游戏规则的应用技术,对于影视从业者也必然构成一种威慑。
可以试想下,原本一个剧本要成为电影佳作,就要经历漫长的运作:分镜头脚本、美术设计、布景选角、档期协调、各种服化道、人吃马喂、后期制作。现在剧本改成描述关键词,直接投喂就好了。成本上直接抹了个“0”,而随着技术演进、这种创作方式日趋成熟,以传统创作方式谋生的从业者不害怕是不可能。
---------
【这世界也来自生成模型么】




“我们的世界也来自生成模型么”这还真未必天方夜谭。
如同,《流浪地球2》图恒宇台词“你们没有资格定义什么才是真实!”,确有道理。谁也不能确定自我不是“数字生命”,没有生活于550W创作的虚拟世界之中。
?怎么确信自己的周遭不是LLM大模型的创作?
从骇客帝国到缸中大脑,再到马斯克马首富的暴论「虚拟论」不再是一种非主流文化。
-----
计算机领域,最基本计算单元是数据“0”和“1”及她们之间与非门计算,千姿百态的虚拟世界由此而来。而真实世界可能也类似...but it from Qubit。


多年前“深度学习”和“重整化群”(renormaliztion groups)可建立严格映射结论(DL→RG)如同开启一扇天窗;量子引力研究中的种种观点,更让人畅想连连。
物理学家David Bohm当年说过:「我们的大脑透过数学运算,解释了来自另一个维度的频率构建的客观现实,这是一种超越时空的更深层次的存在秩序』
抑或“宇宙是虚拟滴,你把握不住”
也许,真如文教授所言“宇宙就是台超级计算机”!人生在计算中衍生。熟悉的世界不过一场地球online,以平直时空样式展现在显示器上。而这一切则要归功于其中精致的生成模型。


?有了LLM的方便,那谁不用呢?
如今有些孩子会把头疼的作业,丢给ChatGPT等大模型处理,忙里偷闲游戏开黑。
如何创作繁华世界?造物主没准会说:地球Online,不要怂 就是GAN ,余下时间扔扔骰子。
没准宇宙间某个Loss函数正指导着世界,由概率走进你的真实 …将当下的美好雕刻进你虚幻人生的存档中。


宇宙或是这样一张生成式网络,当我们到来,便给予她一系列“描述关键词”,继而繁花似锦的世界在你面前铺展到来。
跟随你的步伐,世界的边界还在不停拓展…现实,以你为原点,过去未来种种细节不断描绘补完,终于在无尽可能的海洋涌现。
Sora并不只是视频创作工具,开个脑洞...
有一天我们人类能创作虚拟宇宙以致文明时,回顾技术历程,大概率也会想起这个名字。
【地球Online】不要怂,就是GAN.40 赞同 · 2 评论文章


水平所限,脑洞先行,有兴趣的伙伴可以来聊聊哈。
必须提醒一下各位,警惕新型诈骗。
现在是2024年2月18日,OpenAI 的 Sora 模型还未向公众开放!
目前OpenAI也就画了个 Sora的大饼而已,在 Sora 正式发布前打着 Sora旗号卖课的都是诈骗!
换着标题写也不能改变这类话题一上热门就会被干掉的事实。自己干自己,封闭自己才是最可怕的。而不是别人有多强。
满屏幕都在说sora的时候,我们是否意识到,有点过?
不是说人工智能不重要,它是第四次科技革命没有问题,如果不重要,我也不会一直都在追踪和了解它。
但是,把它摆在人类发展的一个什么位置、国家战略的定位是什么,投入精力如何,这并不是一件简单可以判断的事情。
它一定有个度。忽视它,必然被时代抛弃,但如果过于耗散精力,则需要警惕有没有可能是“新星球大战计划”。
因为如今所有的信息渠道基本都是被垄断和带节奏的,而且,我们已经处于一场前所未有的综合战中,所有的事情,都不能简单从各自的领域去看。
就像昨天说的,俄罗斯说癌症疫苗快研究成功了,拜登说任期内解决癌症问题,都不在字面意思。
当然也包括科技。
Sora有没有进步,当然是炸裂的进步,一段话生成60秒动画,无疑对诸多行业都有可能产生颠覆性影响。
可是,能当饭吃吗?
德国日本这样的工业制造国经济都在衰退,金融垄断资本主义国家可以随便喝血,这是否能够持续?
这就有点像抖音给人人均年入百万的错觉一样,事实上,中国可能十几亿人月薪在5000元以下。
我们大概没意识到,80亿人中,多少人还吃不上饭。
联合国秘书长古特雷斯发表题为《80亿人口,一个人类》的署名评论文章。古特雷斯指出,人类大家庭在日益壮大的同时,也在逐渐走向分裂。他表示,“数十亿人生活困苦,数亿人正面临饥饿甚至饥荒,为寻求机会以及从债务和苦难、战争和气候灾害中获得解脱而迁移的人数达到新高。”
与此同时,少数几名亿万富翁控制的财富量相当于处于世界财富底层的一半人口所控制的财富总和,全球财富最多的1%人群获得了世界收入总量的五分之一。他还强调,在最富裕国家,民众的预期寿命几乎比最贫困国家民众的预期寿命长30年。
古特雷斯同样指出,除了这些长期趋势之外,气候危机的不断加速以及新冠疫情后恢复情况的不均衡也在进一步加剧不平等。不仅如此,乌克兰战争使当前的粮食、能源和金融危机雪上加霜,对发展中经济体的打击最大。这些不平等现象对妇女和女童以及已经遭受歧视的边缘群体造成最严重的伤害。
我们可能会天真地觉得,这跟我有什么关系?
事实上,西方发达国家还没意识到到底什么是“人类命运共同体”,不存在一个科技超级发达的国家可以从地球灾难中独善其身这种事发生。
事实上,人工智能近些年的快速发展,也包含着西方文明想要通过科技革命解决当下越来愈复杂社会问题的“独辟蹊径”。
比如说,不要有劳工关系了,全用机器人工厂,不就不存在什么工作时长、涨薪和劳资纠纷吗?成本不就降低了吗?
比如说,都是Ai了,人口越来越少的问题不就解决了吗?
比如说,都脑机接口了,人不是更好筛选和控制了吗?也不会闹事了,成了人肉电池。
但是,用最简单的逻辑想一想,可能吗?
世界模型就算真的成功了,打破了现实和虚拟,就一定是好事吗?所有问题就烟消云散了?进入共产主义社会了?
这并不是什么酸葡萄心理,而是,我们需要认清楚技术路径发展的用途是什么,以及按照当下真实的能力技术水平和财力投入,我们需要达到一个什么样的目的。
而不是自己花很多钱给自己挖了一个坑,然后把自己埋进去。
我们要意识到,未来真实并存两极。一个是天花板,是人工智能或者终极能源的突破,它引领第四次科技革命,把人类带向更深刻的文明革命。
但不见得是好事还是坏事。
一个是地板,就是全球大部分人依然处在吃不饱、穿不暖、疾病得不到医治、深受气候变化地质灾害影响的水深火热之中。
并且,影响的外溢,会让每一个生活在这个星球的人都感受到。
根本就没什么火星营救,只有流浪地球。
而不论是天花板还是地板,都足够养活一个超级大国。
所以,我们应该理性地去看待当下最应该做什么。
首先,我们要非常清醒地意识到,中国目前正处在一场没有硝烟的战争中。
这场包含着生物战、金融战、舆论战、科技战等的综合战非常残酷,输了就亡国灭种。
甚至马上就可能有热战。
根本就轮不上你吃饱了坐那儿享受人工智能的红利。
其次,我们要承认与美国在各方面的真实差距,我们没那么厉害。
金融不要说了,一直在防守;军事差距在缩小,但人家有盟友有炮灰;软实力不用说了,科技更是。
Ai方面,我们在全力追赶,但是,真实创新能力、环境还真的有距离。
我们的优势在于追赶的速度非常快,后劲很强,基础好,耐力好。
最后,我们第一要务是生存下去。
真不要嘲笑俄罗斯,换做是我们,真未必能有它那么有章法。
我们最终一定会赢,但代价也一定很大。
俄罗斯能源、粮食这两个硬杠杠可以自给自足,这两点目前我们都做不到,所以,我们只能对美国缠抱。
如果一旦发生日本菲律宾台湾省要当炮灰,打代理人战争,我们在马六甲被封锁的情况下,能不能风平浪静扛过三年?
问问自己。
所有这些当下最紧迫问题衡量后,我们还要考虑“一带一路”的持续发展问题,因为这涉及到我们人民币国际化的进程,打破美元霸权还要靠我们。
还有地方债、房地产泡沫等诸多问题。
然后才是人工智能,它需要芯片和大资金大数据投喂。
知情人士说,美国拜登政府商议向英特尔提供超过100亿美元补贴一事,这将是美国政府引导半导体制造业回归美国计划中的最大一笔资金授予。相关激励措施将依据《2022年晶片和科学法案》执行,该法案拨出390亿美元(约525.37亿新元)的直接拨款以及价值750亿美元(约1010.32亿新元)的贷款和贷款担保,以鼓励世界顶级半导体公司回到美国市场生产晶片。
路一步步走,饭一口口吃。
瞎急也没用。
做好1-10也是件伟大的事情,vison pro如果华为能做到1000美元,卖到第三世界国家,美国也吃瘪。
在这个熵增的世界,并不缺少泡沫和混乱。
目前美国也是极力想要造势第四次科技革命来掩盖国内的问题,谁都觉得自己不是击鼓传花的最后一棒,但是,所有的雷都在,它只是被延迟引爆了。这一次的科技革命,将跟之前任何一次都不一样,人类的终极问题不可能指望仅靠科技解决。
它可能是人类最好的时代,但同样也可能是人类最坏的时代。
就像俄乌战争开始的时候,风向从一边倒的俄罗斯速胜,到后来一边倒的俄罗斯必败,到现在,我们会发现,很多东西都偏离了本质。
我们应该确立好发展的优先级,能够投入的资源,一步步努力和追赶,而不是因为一两个满天飞消息,就搞得乱了方寸。
我们看看历史,有没有熟悉的味道:
70年代末80年代初,苏联国力到达巅峰,在世界各地咄咄逼人,不可一世。而同时期的美国在经历越南战争、德黑兰人质危机之后,国际威望大受打击,加上此时美国经济出现滞胀,失业率上升,人心浮动,在争霸中处于弱势。
1981年1月,69岁“高龄”的硬汉里根,击败卡特,当选美国总统。虽然美国和苏联形成了核均势,谁都不敢率先使用核武器,但这并不能打消美国对核威胁的恐惧。里根曾说过:相互威胁报复,是对人类状况的一种悲观注解。70年代之后,随着以计算机、信息技术及集成电路为代表的电子革命蓬勃发展,美国自信地认为,在不远的未来,弹道导弹防御的技术性问题能够取得突破。
1984年1月6日,里根签署了第119号国家安全指令,正式批准了战略防御倡议,4月,美国成立战略防御倡议组织,主管反弹道导弹研究计划,6月,国会批了14亿美元的启动经费。“星球大战计划”全面启动。


美国打出“星球大战计划”这张牌之后,苏联只有两个选择,要么跟,要么过。但彼时苏联国外陷于阿富汗泥潭,国内经济全面萎缩,面包都不管饱,拿什么跟?即使当了裤子跟,能跟上吗?美国之所以搞“星球大战计划”,就是想扬长避短,把和苏联的竞争焦点转移到美国更擅长、更领先的领域。
里根对这个问题的判断是:苏联不会跟。1984年,他在与撒切尔夫人会谈时,认为苏联如果采取同步计划,其经济将面临巨大压力,苏联要让他的人民保持节俭也要有个底线,因此苏联一定会退缩。
最后,苏联被忽悠瘸了。
我们中国人是很务实,也很浪漫的,虽然不善于表达,但是,星球大战那些计划,我们是真的实验过的,比如什么太空武器、激光炮、电磁炮。
只是我们不怎么说,不忽悠,搞出来再说。
未来的A I,不是只有一个,而是有若干个,每个国家都会有自己的数据主权,可能会出现几个Ai大数据群并存的情况,能力有高低,但是,不会缺位。
而且,如果终极能源问题解决不了,Ai也不可能实现全球的普及和推广,算力始终要受影响。
人工智能,我们一定会跟,但是,中国不是苏联,不会上“新星球大战计划”的当。
而且,未来,如果说地球上其余地方都可以合法吸D大麻、赌博、男女混上厕所、都变成了虚拟主宰,只有一个地方仍立法留存真实世界,你放心,这个地方一定在中国。
这才是在人工智能时代中,最应该首先做的事情:
明白我们是人,Ai是工具,而不是相反。
人工智能专辑
2023年2月06日 《一场意识形态的核战争就要来了》
2023年2月08日 《日子215|人工智能时代,不要乱折腾孩子了》
2023年3月26日 《潘多拉的魔盒已经打开,回不去了》
2023年4月23日 《人工智能最可怕的地方》
2023年11月26日《你真的意识到了么?》
2023年12月2日 《财富密码》
2024年1月15日 《这次和任何一次都不一样》
2024年2月5日 《时代抛弃我们的时候,不会打一声招呼》
意味着传统“人类-自然语言需求-人类-机器语言-实现”的协同模式,将被“人类-自然语言需求-AI”全面取代。
到了这个时候还只在讨论单个领域内的变革是不是太过于抗疼了?
①OpenAI带来首个文生视频模型Sora,业内预计AGI实现将从10年缩短到1年;
②海康威视、大华股份等国内视频分析厂商均入局多模态大模型研究进程,万兴科技、因赛集团等超10家A股上市公司近三个月在互动平台回复业务涉及视频生成模型领域(附表)。
OpenAI带来视频生成模型开年王炸!这些A股上市公司布局相关业务
OpenAI发布了首个文生视频模型Sora。据OpenAI介绍,该人工智能系统可以快速制作长达一分钟的视频,这些视频可以呈现具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景。从公司官网上更新的48个视频demo来看,Sora不仅能准确呈现细节,还能生成具有丰富情感的角色。


在技术和工作原理方面,OpenAI介绍称,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALL·E和GPT的研究基础构建上还利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
在OpenAI的Sora之前,谷歌在去年12月21日发布一个全新的视频生成模型VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化等操作。此前一夜爆红的文生视频软件Pika更掀起了AI视频应用热潮。对于此次Sora的出现,360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。


业内专家分析指出,具备文生视频功能的视频类生成式AI在领域,能够有效降低创作者的创作门槛。国海证券陈梦竹在11月8日研报中提到,据量子位发布的《AIGC/AI生成内容产业展望报告》,视频生成将成为近期跨模态生成领域的中高潜力场景,其背后逻辑是不同技术带来的主流内容形式的变化。英伟达高级科学家Jim Fan评论认为,2022年是影像之年,2023是声波之年,而2024是视频之年。
随海外OpenAI、谷歌等纷纷推出各自的文生视频模型,东方证券蒯剑等人在12月18日研报中提到,国内领先厂商已入局,其中,海康威视、大华股份、萤石网络等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程。具体来看,海康威视现已处于多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。大华股份于23年10月发布“星汉大模型”,该模型融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型。值得一提的是,信雅达凭借“天才女儿”设立Pika的消息刺激曾在去年11月30日至12月7日录得6连板,公司表示,其已围绕图像识别、 AI 定制化建模等能力开展深入研究。


此外,主营视频创意、绘图创意类软件产品的万兴科技近日在互动平台表示,公司旗下视频创意产品万兴喵影/Filmora可用于各类视频的创作和剪辑,“天幕”大模型是以视频创意类AI技术为核心的多媒体大模型,涵盖音频、图像、视频等多模态能力。昆仑万维旗下Star Group和Opera都具备做短视频的土壤,其中Opera在海外已经推出了短视频功能。此外,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一。专业智能视频解决方案与视频云服务提供商当虹科技拥有自研的AIGC工具集,于去年上半年发布以静态照片生成三维体积视频的方案。
据财联社不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。其中,当虹科技1月5日互动平台表示,公司拥有自研的AIGC工具集,发布了以静态照片生成三维体积视频的方案,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。因赛集团旗下InsightGPT目前可生成20秒以上的视频,能够结合图像、视频大模型,融合抠图等多种算法,再结合音频模型,整体渲染后最终合成完整视频。


我首先想到的是:
至少靠减肥来宣传电影这条路是走不通了。
说到电影,作为互联网人,那必须强行往这两天的热点靠一下——能够通过文字自动生成视频的Sora,是不是会革了电影特效的命呢?
为此,我特意咨询了一下Bing Copilot,「请把贾玲减肥跟Sora两个话题做一下关联,要自然过渡」。下面,请大家欣赏一下,如何通过AI帮助贾玲拍电影:
贾玲的减肥背后,其实还有一个更深层次的话题,那就是人工智能的竞争。贾玲的电影《你好,李焕英》中,有一个令人惊艳的场景,就是贾玲和她的母亲李焕英在一起的视频。这个视频是通过人工智能技术生成的,贾玲使用了OpenAI开发的一种能够根据文本描述生成视频的人工智能模型,叫做Sora。
Sora是目前最先进的文本到视频生成技术之一,它能够根据用户输入的文本,生成逼真的视频画面,无论是人物、场景、动作、表情、声音等,都能够与文本内容相匹配,达到以假乱真的效果。贾玲利用Sora,将她的母亲李焕英的照片和她想象中的对话,转化为了一段动人的视频,让观众感受到了贾玲和李焕英之间的亲情和情感。
那么话又说回来了, Sora确实很强大,或许未来的电影真的可以通过剧本直接生成。但是同ChatGPT一样,强大的背后除了算力资源外,更重要的是有海量的数据训练。数据才是一切的基石。
AIGC最终一定是多元化的竞争,因为GC的背后代表着不同文化的对抗,大模型只不过是文化数字形态的生成器。东方文化与西方文化,必然对应着不同的大模型。一言以蔽之,文化决定价值观,价值观决定了训练数据,训练数据决定了大模型。
或许,我们每个人,都应该有意识地积累一些专属于自己的「训练数据」。数字化的AI分身,正在路上。
贾玲减肥背后的AI竞争?mp.weixin.qq.com/s/OI_84MTAxkWGXpzvFLgUuA


啥啊
Sora 的原文内容请阅读:
甜橙AI商业:【AI 视频工具】终结者、王者、太炸裂了、太牛逼了,没想到最后一个模态堡垒被攻陷得这么快,AGI魔盒还远吗,人类呢
Sora 的能力,确实有潜力在多个领域带来变革,并可能在一定程度上模糊虚拟与现实的界限。但在虚拟和现实之间还需要其他的一些工具才行,比如,虚拟影响现实,现实影响虚拟之间的实时交互。
内容创作与媒体制作:Sora 能够根据文本描述自动生成视频,这将极大地简化视频制作流程,降低成本,并提高创作效率。它可以使个人创作者、小型工作室和大型媒体公司更容易制作出高质量的视频内容。广告与营销:广告商可以利用 Sora 生成高度定制化的视频广告,这些广告可以根据目标受众的偏好和行为模式进行个性化定制,从而提高广告效果。教育与培训:在教育领域,Sora 可以用来创建教学视频,模拟复杂的科学实验或历史事件,帮助学生更好地理解和学习。在职业培训中,它可以用来模拟各种工作场景,提供实践操作的机会。娱乐产业:Sora 可以用于电影、电视剧和游戏的预制作阶段,帮助创作者快速原型化和测试创意。它还可以用于生成电影预告片、游戏预告或者虚拟现实(VR)体验。新闻与信息传播:Sora 可以用于生成新闻报道的背景视频,甚至在某些情况下,可能用于创建模拟新闻事件的视频,这需要谨慎处理以避免误导公众。虚拟与现实的界限:Sora 生成的视频内容逼真度很高,这可能会在一定程度上模糊虚拟内容与现实世界之间的界限。这在艺术创作、电影特效和虚拟现实等领域尤其明显,观众可能难以区分哪些是真实拍摄的视频,哪些是由 AI 生成的。

0
Prompt:
Extreme close up of a 24 year old woman's eye blinking, standing in Marrakech during magic hour, cinematicfilm shot in 70mm, depth of field, vivid colors, cinematic
中文版本:-个24岁的女人眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄在70mm,景深,生动的色彩电影
前言简要回答:
1、会带来自动驾驶,通用机器人,通用人工助理的变革。
2、目前距离打破次元壁还差 触觉,味觉,嗅觉。
关于Sora网上的图文视频很多,我就不搬运了。不过建议大家也可以先看看这个链接
当然对于非AI底层技术专业的人,没有必要去掺和 OpenAI和Meta的技术路线争执,只需要知道“世界模型”这个即将来临的新事物,然后我们应该主要是面向终端场景,去迎接未来即将来临的“AI世界模型”,考虑如何整合到实际应用中。
我们这代人,见证了一个日新月异变革时代。
信息化信息处理能力的出现
首先是信息处理能力能力的出现,实现了0和1的两种开关信号的传输和处理。
数字的信息化
然后,数字被信息化了,日常使用的10进制被编码转化成2进制,通过二进制计算,实现了数学计算效率提升,提升了科研领域的研发效率和工程领域的生产效率。
接着ASCII这类编码的出现让文本也被信息化,推动了无纸化办公的普及,办公桌上的大量文件都被转化成01存储在计算机中,实现了高效的编辑、复制和传输。
声音图像视频的信息化
紧接着信息编码技术的发展让声音、图像、视频也开始被信息化,这个信息化先颠覆了整个影音图像市场,也实现了内容的多媒体化,更形象更生动,更容易编辑,复制和传播。
空间和时间的信息化
计算机性能的提升,独立显卡的出现,让计算机图形学得到了发展的土壤,3D模型技术和动画模拟技术开始出现,空间和时间也被信息化。
规则的信息化
随着各种信息化进程的推进,计算机和生产生活的结合更加紧密,初级AI开始出现,这种AI主要是通过条件判断来进行人为设定规则,我们也叫模式识别的专家系统,这个过程我们可以视为是规则的信息化。
信息传播
信息化进程的推进,积累了大量的信息,然后靠硬件介质拷贝传输变成传播的瓶颈,于是宽带互联网开始普及,实现了信息的快速传播和远程服务。
iPhone时刻
十几年前,3G技术的普及,各种传感器(摄像头,定位,陀螺仪,NFC)的小型化,还有黑莓,Palm,WindowMobile,S60等各种早期智能手机的试水,推动了iPhone时刻的出现,移动互联网还是普及,信息化变成内容和服务可以随时随地获取。
模型化
人为生产的内容信息大爆发和快速传播复制,还有各种传感器获取的信息(大量拍摄出来的图片视频)还有数据挖掘处理技术和机器学习,深度学习,文本向量,对抗网络等AI算法让模型化成为可能。
chatGPT时刻
OpenAI发现通过大量的数据去训练语言模型(大语言模型)通过一些提示语组合去预测回复文本的下一个字可以实现智能涌现,这种智能涌现,有点像人类的语言表达和联想能力,让计算机可以模拟人类的语言思维方式,去主动理解和学习这个世界的的逻辑和表达规则,然后图形识别算法结合大语言模型的标注,让计算机可以理解图片并通过扩散模型来画出它理解的图片,于是不到半年多模态的 GPT4.0-v就出现了。
Sora时刻
OpenAI开始用大语言模型去理解视频,就像像人类婴儿一样,观察动态世界去理解这个世界的物理现象,所以所谓的世界模型的概念开始出现。
世界模型应用
世界模型的出现,会颠覆很多领域:
1、自动驾驶,
当年马斯克在领导特斯拉做自动驾驶时一直坚持不用雷达,他强调第一性原理,认为人类也只是通过眼睛来进行驾驶,认为通过摄像头获取的视觉数据来分析进行自动驾驶才是正道。当时他的研发团队一直提出各种问题,觉得这个不是很现实,现在Sora的出现,我相信视觉的自动驾驶应该会很快实现。
2、机器人领域
早期模式识别AI,机器人只能按特定的流程(比如左移30cm,比如第2个关节旋转多少度)去组合执行各种动作,只在仓库管理和特定工业生产流程中使用。世界模型的出现,机器人可以通过现场观察学习和预训练的数据,来控制自己的机械关节来替代人类执行的大量工作。比如站在旁边看你煮饭,听你说第一步是什么第二步是什么,然后机器人通过世界模型理解后也能做出差不多的饭菜。
3、随身个人助理
原来的手机都是被动接受信息被动执行指令,世界模型的出现,通过AirPods或者Vision Pro来实时采集世界的信息,通过世界模型AI理解后做一些主动提醒工作。比如你家人和你说晚上回家记得顺路买两个5号电池回家,AirPods采集到这个信息,通过世界模型理解后,在晚上(比如世界模型理解17点后算晚上),定位到家附近的时候(满足回家条件),定位经过便利店,开始通过AirPods播放语言,告诉你记得买电池。
次元壁可以被打破吗?
上述的信息化和模型化都是存在于听觉和视觉领域。
这个世界还有嗅觉,味觉和触觉还没有被信息化模型化,要打破虚拟和现实的界限,还是需要一段时间。当然触觉和嗅觉的对人类的情绪价值的提升没有那么大,味觉可能价值更大一些,所以未来厨师比较不容易失业?


通用AI(AGI)和通用机器人时代,我们有什么出路?
AGI可能在3-5年内会出现,紧接着低成本的通用机器人也普及,我之前在其他回答中一直提到2020年代是AI的年代,2030年代是机器人的年代。
70年代,乔布斯给世界带来了个人电脑;个人电脑带动了80年代信息产业的起步(盖茨表示不甘示弱);信息产业起步又带动了90年代摩托罗拉、诺基亚等通信及设备的发展;通信硬件技术的发展带动了21世纪前10年互联网和移动互联网大爆发,2010年左右开始智能手机、智能穿戴、智能马桶不断出现……我们使用的电子产品越来越小,越来越智能,苹果和小米成为炙手可热的明星企业……
可以预见当我们经历硬件软件每隔10年的轮流爆发之后,即将迎来的是人工智能(20年代)和机器人(30年代)的大时代。《失控》谈到的生物工程化和工程生物化的界限(生物和机器的界限)个人认为会在2040左右彻底模糊掉。
但是二三十年内,我们的下一代开始成为社会劳动主力的时代,AGI和通用机器人应该都是人类的附属,还没有办法和人类平权,也就是他们应该和奴隶社会时代的奴隶一样是属于生产资料,而不是劳动者。所以出路就是获取更多的生产资料,获取更多使用和管理生产资料的技能和能力。
其实这个趋势已经体现在资本市场了,目前拥有最多的AI生产资料的微软(最大奴隶主?),已经超过苹果拿回了世界第一公司的宝座。而AI基础设施的生产者英伟达(最大的奴隶贩子?),也冲到了前面和亚马逊在争夺老三的位置。
答案是一定会的,短短的一分钟是新的征程的开始。
Sora 是一种从文本创建视频的生成式人工智能模型。OpenAI 声称,给定简短或详细的描述或静态图像,Sora 可以生成具有多个角色、不同类型的运动和背景细节的 1080p 电影场景。
Sora 还可以“扩展”现有的视频剪辑——尽力填补缺失的细节。
OpenAI 在博客文章中写道:“Sora 对语言有着深刻的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。”“该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
Sora 演示
艺术画廊之旅,全部由 Sora 生成


Sora 定位
OpenAI 将 Sora 定位为研究预览,很少透露用于训练模型的数据(缺少约 10,000 小时的“高质量”视频),并且没有让 Sora 普遍可用。其理由是滥用的可能性;OpenAI 指出,不良行为者可能会以多种方式滥用像 Sora 这样的模型。
OpenAI 表示,它正在与专家合作探索漏洞利用模型,并构建工具来检测视频是否由 Sora 生成。该公司还表示,如果选择将该模型构建到面向公众的产品中,它将确保生成的输出中包含来源元数据。
OpenAI 写道:“我们将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧并确定这项新技术的积极用例。” “尽管进行了广泛的研究和测试,我们仍无法预测人们将使用我们的技术的所有有益方式,也无法预测人们将滥用我们的技术的所有方式。这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。”
视频游戏领域
在一项实验中,OpenAI 向 Sora 提供了包含“我的世界”一词的提示,并让它渲染出令人信服的类似《我的世界》的 HUD 和游戏——以及游戏的动态,包括物理——同时控制玩家角色。
https://twitter.com/i/status/1758347012909474137


现在,Sora 的常见限制适用于视频游戏领域。该模型无法准确地模拟玻璃破碎等基本相互作用的物理原理。即使 可以建模交互,Sora 也常常不一致——例如渲染一个人吃汉堡但未能渲染咬痕。
更多技术解读可参考:https://zhuanlan.zhihu.com/p/682541338?utm_psn=1742524696665440256
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。
OpenAI的视频生成模型确实是个大新闻,这个技术能够根据文本指令创造出高清视频,这不仅是AI技术的一个巨大飞跃,也可能会对内容创作、娱乐和影视制作行业产生深远影响。想象一下,编剧只需要描述场景和情节,AI就能生成相应的视频,这将极大地降低制作成本,加速内容的生产。
不过,这也带来了一些挑战,比如版权、伦理和真实性的问题。虚拟内容和现实的界限可能会变得模糊,我们需要新的法律和规范来应对这些变化。
至于是否会带来变革,答案是肯定的。但是,这种变革不会一蹴而就,而是一个逐步的过程。随着技术的成熟和普及,我们可能会看到更多的应用场景被开发出来。
如果你对AI在企业和日常工作中的应用感兴趣,或者想了解如何利用AI技术提升效率,我们可以进一步交流。我们的团队专注于AI技术的应用,特别是在企业服务和数字员工方面,可以提供一些有趣的见解和解决方案。
很难的打破虚拟和现实的界限 目前这种生成的视频大多数是有各种细节问题的很容易看出来,不能只看Demo的视频质量啊
你实际去试下就知道了,生成100个视频,人看不出来问题估计不会超过十个,会有各种逻辑和细节问题,当然你说是创意也行啊
目前这种AI生成视频,是没法代替实际拍摄的,但是可以用于内容创作
目前Sora生成的视频,还是只有画面没有匹配音频的“哑剧”、“默剧”。
下一步的突破在于能够同时生成与视频相匹配的音频,让人物有对白、让森林有鸟鸣、让城市有喧嚣。
[收藏本文] 【下载本文】
   科技知识 最新文章
《消失的问界里》为什么网传华为选择大面积
特斯拉万人大裁员涉及中国市场,销售部门是
媒体报道「特斯拉一天内失去 2 个高管和 10
去年是「大模型元年」,今年会是「AI应用落
2024 年人工智能方向的就业前景怎么样?
如何评价小米汽车SU7全球首例无故抛锚?
如何评价比亚迪与大疆合作发布的车载无人机
如何看待波音「吹哨人」遗言曝光:如果我出
电动汽车为什么一下爆发了?
怎么看待华为太空宽带计划?
上一篇文章      下一篇文章      查看所有文章
加:2024-02-18 23:05:09  更:2024-02-18 23:10:34 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇