天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 设计艺术 -> OpenAI Sora 生成 1 分钟视频时间超过 1 小时,这对用户体验有哪些改变? -> 正文阅读

[设计艺术]OpenAI Sora 生成 1 分钟视频时间超过 1 小时,这对用户体验有哪些改变?

[收藏本文] 【下载本文】
IT之家 2 月 22 日消息,OpenAI 近日发布了文本生成视频模型 Sora,根据基于用户提供的提示词,生成逼真的视频。不过根据网友反馈,Sor…
第一步生成视频已经实现了,相信时间根本不是问题!
最长的演示视频只有17秒,这里也提供了相应的截图作为参考。这表明Sora仍处于早期阶段,并需要进一步的优化和测试。


不过在相比之下,Sora最震撼的技术突破之一在于其输出的视频时长。Runway能够生成4秒长的视频,用户可以将其最多延长至16秒,是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频,Pika则提供3秒的视频。在这一方面,Sora以1分钟的时长向竞争对手们提出了挑战。


另外有位用户指出:“制作90多分钟的电影通常需要超过90个小时的拍摄时间。如果按照计算一下所有典型的动画制作工时,与人工相比,其实Sora的渲染时间并不算太长。”
OpenAI此次发布的Sora生成的视频有丝滑的移动运镜、场景转换,还可以自行分镜、切换景别,这意味着Sora可能让普通人以极低的门槛制作自己的电影。


Sora模型的patches示意图。图片来源:OpenAI
相信,sora团队一定会对模型算法进行优化的,毕竟这才是刚刚开始!
Sora代表大家不再需要费劲地去学习操作PR、AE等工具,也不用搜集素材,只需要有一个脚本交给Sora,就能得到一段高质量的视频。
特别是在社交媒体上,用户可以利用Sora快速创作个性化的视频内容分享给朋友、家人或者粉丝,如生日祝福视频、旅行日记、教育教程等,从而提升社交互动的质量和形式多样


更重要的是,Sora的出现可能会改变传统的电影制作模式,让人工智能成为编剧,导演和制片人的得力助手。


例如,电影制片人可以利用Sora预览和调整电影的关键镜头,甚至制作整部电影的初稿。
Sora不仅能生成视频,还能将视频沿时间线向前或向后扩展。可以看到,demo中的视频都是从同一个视频片段开始,向时间线的过去延伸。尽管开头各不相同,但它们最终都汇聚于同一个结尾。而通过这种方法,我们就能将视频向两个方向延伸,创造出一个无缝的循环视频。


Sora的推出,也再次强调了"计算机视觉"和"生成对抗网络"在人工智能领域中的重要作用,这些技术的持续进步,为人工智能在"图像识别"、"创作生成"、"虚拟现实"等方面的应用,带来了前所未有的"革命性"变革,也为人们带来了更加丰富多彩的科技体验。


例如,它可以用于生成用于训练其他AI模型的数据,或是用于测试和优化图形渲染和视频编码算法。随着技术的进一步完善,Sora的应用领域会更加广泛。个人觉得,了解大规模语言,和AIGC是当代潮流下的必然趋势!
如果你还不了解ACGI,嫌自己摸索太麻烦,正好给你推荐「知乎知学堂」和「AGI课堂」联动,推出的【程序员的AI大模型进阶之旅】公开课。一共2天的课程,正是为适应当下AI发展推出的,由几位行业大佬主讲,教你利用AI拆解业务,利用用最优方案独立开发 AI 产品的能力,全方位的帮大家提升认知和AI技术能力。
另外还有免费的AI大模型资料包,供你学习。点击下面的卡片就可以免费领,大佬能在线答疑,趁着现在还免费,建议IT人都去看看:
??2024大模型公开课??训练方法+应用场景+个人增收
¥0.00点击领取
在教育和训练领域,Sora可以根据文本输入生成视觉内容,使得学生更好地理解和记忆学习内容。
例如,老师可以利用Sora生成解释复杂科学概念的动画视频,促进学生的学习效果。


至于,耗时太长问题,那就交给AI吧!
这个时间比我想象的要快的多。。。的多。
毕竟影视特效制作中10s的视频渲染时间就得10小时起步了。用文生图的模型生成一帧也得好几秒,按照60的帧率来算突破两小时轻轻松松,更别说Sora的模型肯定比文生图模型大得多。
按照过去一年的经验来看,此类模型的推理速度很轻易就能实现数量级的提升,实时视频生成或许真的指日可待——到那时候,科技某种程度上就成为了新的魔法。
感兴趣的可以看看我之前估算的sora推理成本:
OpenAI 视频模型 Sora 的推理生成成本多高?53 赞同 · 17 评论回答


我只能说生成1分钟的视频还是会非常吃力的,需要更长的时间也不奇怪。所以,你知道为啥之前的视频生成都是几秒了吧,大部分是算力所限制,训练不动,也推理不动。
不过,我觉得既然sora把效果做出来了,后面肯定会有一定的加速优化方案,而且NVIDIA也会推出更强的计算卡,要知道几年前训练上B的模型是不可想象的,现在都是人均B级别模型,所以也不用太忧心速度这个问题。
除了等待时间久一些,其他没任何毛病。
Sora的诞生可以说是一种创新性的人工智能技术,它具备多模态生成的能力,可以将不同形式的信息进行融合,生成高质量的视频内容。
好比以下Sora的视频截图:
?可以看出是目前任何一款软件或者技术都没法直接生成的动态画面,很多细节都如同真实拍摄出来的一般。








所以即使需要等待的时间长一些,我觉得只要不影响最后的成品,大家也不会有很大的意见,而且对于新事物而言,总要有时间和空间留给它进步和完善,不至于太过苛刻。
如今,Sora可以通过结合音频、视频、文字等多种元素,生成富有表现力和沉浸式的视听作品。这一突破使得影视制作、广告宣传和创意设计等领域的工作更加高效和有趣。


以后,大家不需要费劲地去学习操作PR、AE等比较专业的剪辑工具,也不用大量地搜集素材,只需要有一个脚本交给Sora,就能得到一段高质量的视频。
但是据我所知,根据脚本就能创作视频的不止Sora,而且很早就已经出现了,很多人已经熟练运用各种AI视频剪辑工具用来制作短视频,Vlog、祝福视频、攻略教程等等;
在这里也顺便给大家分享几款我所知道的,还不错的AI剪辑工具:
1.剪辑魔法师
这是一款比较适合新手小白的AI剪辑工具,有AI的智能也有专业剪辑的风范,在sora“文生视频”火起来前,剪辑魔法师就已经具备这个“文生视频”的功能,也算是走在行业的前列了!


在它首页就可以看到它的所有功能,基本都是和视频剪辑相关的,所以用起来很方便,一打开就能找到相应的功能;
好比“文字转视频”功能,直接打开后,输入标题和一段文字就可以自动生成画面和配乐,自己再微调一下就可以直接导出了。


如果还没接触到Sora的朋友,我建议可以先用这款剪辑魔法师,提前熟悉一下“文生视频”的功能,练练手也挺好。
2.即创
这是抖音推出的一站式电商智能创作平台,有AI视频创作、图文创作和直播创作三大功能,平时我用得比较多的是视频创作;它有智能成片和AI视频脚本的工具,所以在剪视频的时候可以方便许多~特别是对于玩直播和抖音的友友。


点击进去后,没有脚本的可以先生成脚本,在“通用电商”-“脚本自定义”中可以根据指示生成不同段落的几种脚本。


选择好场景和信息后,就可以生成视频了,也是很简单快捷~


3.度加创作工具
度加创作工具是百度出品的、人人可用的AIGC创作工具网站。它集成了AI视频和AI笔记两大功能板块,可以有不一样的创作体验。
登录后,可以看到一个简洁明了的界面,右侧边栏有AI视频、AI笔记功能块。然后根据你的需求选择相应的选项,然后进入相应的功能页面。页面也包含有教学课堂与近期爆款视频供参考的~


输入文案就可以一键成片,如果没有文案素材,素材库里还有热点和不同范畴领域的文案推荐,选择一段文案或者自行上传文案即可。


目前AI成片、AI笔记功能都可免费使用,AI优化文案模块每日可免费使用五次。


4.腾讯智影
这是一款以虚拟数字人播报为主的AI视频工具,可以选择各种文案、音色、和主持人形象,随后生成一个完美的声情并茂的视频。


除了数字人播报外,它还有其他各种新媒体实用功能,AI写作助手、AI绘画、字幕识别、智能变声等等,很方便实在。


今天的分享先到这里啦~后续还有更多好用的AI工具也会陆续分享上来的,我看谁还没点赞收藏喜欢,有什么意见也可以在评论区直说咧,@视频编辑助手绝对欢迎哒!
这个问题很快就会解决。yang song可是就在openai的,把diffusion改造成consistency model又不费事。。
慢慢的就会时间缩短,Sora仍处于早期阶段,并需要进一步的优化和测试。一般图生视频需要一些好一点的显卡
1分钟视频=60秒
1秒视频=25~30帧
一分钟要处理1800张图片
这个是heygen等口型和换脸工具
我测试过用CPU,一分钟差不多就得一小时处理。
再看看文生图,维度搞了两阶,更是超越指数级的复杂度,
这也就是国内300个大模型还没有一个可以说弯道超车sora的原因。
在下图的右下角,未来可能在视频的基础上建立3D虚拟社会,对,就是赛博世界。


Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解,能够精准地捕捉到用户的需求,并创造出充满生命力、情感丰富的角色。此外,Sora还能在同一视频中创造出多个画面,同时保持角色和视觉风格的一致性。
Sora 可以做什么?
Sora 的主要功能是将文本描述转化为视频内容。它能够理解并执行详细的文本指令,生成具有视觉质量和连贯性的视频,这些视频可以包含多个角色、动作和场景。
文本到视频生成能力: Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。复杂场景和角色生成能力: Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。从静态图像生成视频能力: Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。物理世界模拟能力: Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。
可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义着我们与数字世界的互动。
Sora生成案例展示
1、提示词:
一位时髦的女士穿行在东京的街头,街道充满了温暖的霓虹灯光和动感的城市标志。她穿着一件黑色皮夹克,一条长红裙和黑色靴子,手拿一个黑色手提包。她戴着太阳镜和红色口红。她走路既自信又随意。街道潮湿且能反射,创造出彩色灯光的镜面效果。许多行人来来往往。
2、提示词:
几头巨大的长毛猛犸象在雪白的草地上漫步,它们长长的毛发随风轻扬,远处是白雪覆盖的树木和壮观的雪山,午后的光线伴着飘渺的云朵和远处高高挂起的太阳,营造出温暖的光晕,低机位拍摄的景色令人惊叹,捕捉到了大型毛茸茸的哺乳动物,摄影和景深都非常漂亮。
3、提示词
一条有中国龙庆祝中国新年的视频
上传视频封面
4、提示词:
一位 20 多岁的年轻人正坐在天空中的一片云上看书。
5、提示词
两艘海盗船在一杯咖啡中航行时的逼真特写视频。Sora的适用场景创意内容制作:为电影、动画、游戏和广告行业提供快速原型制作和概念验证。教育和培训:创建教学视频,模拟复杂场景,帮助学生和专业人士学习新技能。娱乐和艺术:为艺术家和设计师提供工具,以探索新的创意表达方式。模拟和预测:在科学研究和工程领域,模拟实验和预测结果。虚拟现实和增强现实:为 VR 和 AR 应用生成逼真的虚拟环境和交互体验。社交媒体和内容创作:帮助内容创作者快速生成吸引人的视频内容,增加社交媒体互动。新闻和媒体:制作新闻报道的模拟场景,增强报道的视觉效果。
Sora 的这些应用场景展示了其在多个领域的潜力,尤其是在需要视觉内容创新和快速生成的场合。
Sora存在的问题
当然,Sora还不是完美的。比如在模拟复杂场景的物理效应,以及理解某些特定因果关系时,它可能会遇到难题。比如:
视频中的人物可能会咬一口饼干,但饼干上可能看不到明显的咬痕。在处理空间细节,比如分辨左右时,Sora也可能出现混淆。在精确描述一段时间内发生的事情,如特定的摄影机移动轨迹时,也可能显得力不从心如何使用Sora?最新消息:本文是设想的方式,但 Sora 目前还未正式对外上线。后续预计先在 ChatGPT Plus 会员覆盖。
如果你想体验 ChatGPT4 服务,可以查看这篇文章:ChatGPT4.0升级教程
文生视频大模型 Sora, OpenAI 发布了文生视频大模型 Sora ,官网:https://openai.com/sora
可以这样想,如果一分钟完整逼真的视频,一个小时完成,时间久但是可以理解,一分钟的电影制作,一分钟的CG动画,即使很厉害的剪辑师,一个小时也很难完成,将文字理解,再制成逼真的动画,但是Sora还未发布,我相信发布的Sora一定会在生成时间上给一个满意的回答。
既然聊到Sora那么就看看Sora现阶段有哪些缺点,优势咱不聊了!业界领头羊,王炸级别!!!!
Sora 的优势Sora 可以理解物理世界中的存在方式
官方给出的:Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
再来看 2 个视频:
https://cdn.openai.com/sora/videos/train-window.mp4
提示词:穿过东京郊区的火车车窗上的倒影。
这个视频最关键的一点就是在经过桥的时候,玻璃反光透出来了对面的女孩头像,这个实在是太逼真,对细节的把控真的是杠杠的。
https://cdn.openai.com/sora/videos/cat-on-bed.mp4
提示词:一只猫叫醒熟睡的主人,要求吃早餐。主人试图忽视这只猫,但猫尝试了新的策略,最后主人从枕头下拿出秘密藏匿的零食,让猫再呆一会儿。
Sora 在视频上的运动已经非常接近真实的运动了,这就是为什么官方说,Sora 可以理解物理世界中的存在方式了。
Sora 可以在单个生成的视频中创建多个镜头
我们来看这个东京接头的视频:
https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4
提示词:美丽、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。
Sora 的运动幅度和逼真程度都远远远超其他 AI 视频工具的运镜功能,清晰度也大大提升了。这个东京街头的视频中,创建了多个镜头,逼真的让人无法分辨。
Sora 可以准确地保留角色一致性和视觉风格
https://cdn.openai.com/sora/videos/snow-dogs.mp4
提示词:一窝金毛幼犬在雪地里玩耍。他们的头从雪中探出来,被雪覆盖着。
https://cdn.openai.com/sora/videos/robot-video-game.mp4
提示词:赛博朋克背景下机器人的生活故事。
AI 视频想保持一致性风格,一般都是先用 AI 绘画的种子属性画出一致性的图,然后再用图生视频,再用剪辑工具,今天之前,文生视频的画面一致性并不太理想。但是 Sora 的效果着实令人惊艳。
无论是上图的一窝小金毛,还是下面这个赛博朋克机器人,都保持了一致性和视觉风格,看上去很自然。
尤其是下面这个赛博朋克机器人。


Sora 的不足当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
我们来看一组视频:
https://cdn.openai.com/sora/videos/backward-jogger.mp4
提示词:打印一个人跑步的场景,35 毫米电影胶片。
弱点:Sora 有时会产生身体上难以置信的动作。
这个视频中,Sora 把人和跑步机的方向就搞反了。
再来看看下面这个视频
https://cdn.openai.com/sora/videos/puppy-cloning.mp4
提示词:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
弱点:动物或人可能会自发出现,尤其是在包含许多实体的场景中。
这个视频是不是像无限影分身?
https://cdn.openai.com/sora/videos/basketball-explosion.mp4
提示词:篮球穿过篮筐然后爆炸。提示:篮球穿过篮筐然后爆炸。
弱点:不准确的物理建模和不自然的物体“变形”的例子。
https://cdn.openai.com/sora/videos/chair-archaeology.mp4
提示词:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并除尘。提示:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并除尘。
弱点:在这个例子中,Sora 未能将椅子建模为刚性物体,导致物理交互不准确。
https://cdn.openai.com/sora/videos/grandma-birthday.mp4
提示词:一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。提示:一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。
弱点:模拟对象和多个角色之间的复杂交互通常对模型来说具有挑战性,有时会导致幽默的生成。
预估后续的Sora会GTP Plus用户(ps:如果想了解Plus升级可以看下这个教程:ChatGPT中文教程P),既然是Plus用户,那么文字生成视频时长是有保证的。
等待时间延长: 用户需要等待更长的时间才能获得他们所需的视频。长时间的等待可能会降低用户的满意度,特别是在需要快速生成视频的情况下。生产效率下降: 如果生成视频的时间超过了预期,那么在同一时间段内可以处理的视频数量会减少,这可能会降低生产效率,尤其是对于有时间限制的项目或需求。资源利用不足: 如果生成视频的时间过长,可能会导致服务器资源利用不足,从而影响其他用户的体验或服务的稳定性。用户流失: 长时间的等待可能会导致用户流失,因为他们可能会转向其他更快速的解决方案或服务,从而失去了潜在的用户或客户。用户满意度降低: 用户期望能够快速获得他们所需的视频,长时间的等待可能会降低他们的满意度,对于用户体验来说是不利的。
当今世界ChatGPT被广泛使用加速生产,Sora更是新的GPT,尽管Sora目前尚未向公众开放,但据悉,它可能首先向OpenAI的付费用户提供,如ChatGPT Plus用户(升级 ChatGPT Plus 的教程)。Sora的推出将极大地简化视频创作流程,并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora,可关注官方网站获取最新信息。
具体ChatGPT4升级教程 参考: GPT4升级教程
总的来说还是算力问题,配置够高,时间就能缩短。电脑性能还有极大提升空间。
注意,视频多了一个时间维度,1秒就是30帧,相当于30张图片。耗时远远超过单张图片生成。
比如这个Sora生成视频,就是30帧/秒,分辨率是1920 x 1080

0
1分钟视频,按照视频30帧/秒的帧率算,一共 1x60x30= 1800帧
时间1小时 = 60*60 = 3600 秒
这样,平均每帧耗时:3600/1800 = 2 秒
一般stable diffusion生成一张也是秒级别的。考虑还有视频特有的压缩等时间开销。Sora生成1080分辨率视频,目前做到这个速度算正常了。
相信随着后面模型和工程优化,甚至芯片升级,速度会越来越快的。
第一台计算机有三间房子那么大呢
任何能训练出来的模型,推理成本都不会不可接受,不然一开始就没有足够的算力来训练
影响用户体验
Sora在生成一分钟的视频上需要超过一小时的时间,可能直接影响用户体验,可能引发一系列潜在的问题,用户可能因为他们期望能够快速获得他们需要的视频内容。在当今社会,人们通常习惯了即时满足,因此长时间的等待可能让用户对Sora的使用感到不便。
(PS:预估后续的Sora会对GTP Plus用户开放,如果想了解GTP Plus升级,可以看下这个教程:
一、如何更新ChatGPT Plus、GPT4升级详细教程 | ChatGPT中文教程?aliyuntm.com/chatgpt/how-to-update-gpt4.html


一两分钟就能注册完成,本人亲身在用,绝对可靠!!!
虽然Sora可能具有高质量的生成视频能力,但用户可能不愿意为此付出如此长的时间。即便生成的视频质量再高,如果用户无法在合理的时间内得到结果,他们可能会寻找替代方案,这可能影响Sora的用户留存率和市场占有率。那么相信Sora团队一定可以解决这个问题。
大概率积极解决
如果Sora能够在正式发布时解决这一生成时间的问题,用户体验可能会得到显著改善。在发布之前,OpenAI可能会进行优化和改进,以确保生成过程更加高效。这样一来,用户就能够更快速地获得他们所需的视频内容,从而提高整体的用户满意度。
尽管当前存在生成时间上的挑战,但随着Sora正式发布,OpenAI可能会采取措施来改善这一问题,从而提升用户体验。用户在使用Sora时期望能够在合理的时间内得到满足,因此解决生成时间问题是确保Sora成功的重要一步。
Sora 可以理解物理世界中的存在方式
官方给出的:Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
再来看 2 个视频:


https://cdn.openai.com/sora/videos/train-window.mp4
提示词:穿过东京郊区的火车车窗上的倒影。
这个视频最关键的一点就是在经过桥的时候,玻璃反光透出来了对面的女孩头像,这个实在是太逼真,对细节的把控真的是杠杠的。


https://cdn.openai.com/sora/videos/cat-on-bed.mp4
提示词:一只猫叫醒熟睡的主人,要求吃早餐。主人试图忽视这只猫,但猫尝试了新的策略,最后主人从枕头下拿出秘密藏匿的零食,让猫再呆一会儿。
Sora 在视频上的运动已经非常接近真实的运动了,这就是为什么官方说,Sora 可以理解物理世界中的存在方式了。
Sora 可以在单个生成的视频中创建多个镜头
我们来看这个东京接头的视频:


https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4
提示词:美丽、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。
Sora 的运动幅度和逼真程度都远远远超其他 AI 视频工具的运镜功能,清晰度也大大提升了。这个东京街头的视频中,创建了多个镜头,逼真的让人无法分辨。
Sora 可以准确地保留角色一致性和视觉风格
https://cdn.openai.com/sora/videos/snow-dogs.mp4


提示词:一窝金毛幼犬在雪地里玩耍。他们的头从雪中探出来,被雪覆盖着。
https://cdn.openai.com/sora/videos/robot-video-game.mp4


提示词:赛博朋克背景下机器人的生活故事。
AI 视频想保持一致性风格,一般都是先用 AI 绘画的种子属性画出一致性的图,然后再用图生视频,再用剪辑工具,今天之前,文生视频的画面一致性并不太理想。但是 Sora 的效果着实令人惊艳。
无论是上图的一窝小金毛,还是下面这个赛博朋克机器人,都保持了一致性和视觉风格,看上去很自然。
Sora的不足之处当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
我们来看一组视频:
https://cdn.openai.com/sora/videos/backward-jogger.mp4
提示词:打印一个人跑步的场景,35 毫米电影胶片。
弱点:Sora 有时会产生身体上难以置信的动作。
这个视频中,Sora 把人和跑步机的方向就搞反了。
再来看看下面这个视频
https://cdn.openai.com/sora/videos/puppy-cloning.mp4
提示词:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
弱点:动物或人可能会自发出现,尤其是在包含许多实体的场景中。
这个视频是不是像无限影分身?
https://cdn.openai.com/sora/videos/basketball-explosion.mp4
提示词:篮球穿过篮筐然后爆炸。提示:篮球穿过篮筐然后爆炸。
弱点:不准确的物理建模和不自然的物体“变形”的例子。
https://cdn.openai.com/sora/videos/chair-archaeology.mp4
提示词:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并除尘。提示:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并除尘。
弱点:在这个例子中,Sora 未能将椅子建模为刚性物体,导致物理交互不准确。
https://cdn.openai.com/sora/videos/grandma-birthday.mp4
提示词:一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。提示:一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。
弱点:模拟对象和多个角色之间的复杂交互通常对模型来说具有挑战性,有时会导致幽默的生成。
可能会对用户体验产生以下影响:
● 生成速度慢:由于 Sora 生成视频的时间较长,用户需要等待较长时间才能得到最终的视频,这可能会影响用户的使用体验和创作效率。
● 限制创造力:由于生成视频的时间成本较高,用户可能会在创作过程中更加谨慎地选择提示词,从而限制了他们的创造力和想象力。
● 影响使用意愿:较长的生成时间可能会使一些用户望而却步,转向其他生成速度更快的工具或服务,从而影响 Sora 的用户数量和使用频率。
[收藏本文] 【下载本文】
   设计艺术 最新文章
有哪些对你很有冲击力的设计?
「英语流利说」的使用体验如何?
为什么设计院出的图纸一堆错误?
保时捷中国总裁首度回应「米时捷」:或许好
为什么很多JRPG游戏战斗中可操控角色一般是
设计师都觉得宋体很难看吗?
有哪些看着像 PS 过的照片,实际却没有?
为什么galgame普遍使用自研引擎而不是unity
“角色也有自己的生活”是什么时候开始成为
写代码用哪种字体看起来最舒适?
上一篇文章      下一篇文章      查看所有文章
加:2024-02-29 21:27:02  更:2024-02-29 21:43:40 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇