[科技知识] 英伟达宣布推出最强 AI 芯片，成本和能耗较前代改善 25 倍，哪些信息值得关注？

天天财汇购物网址万年历小说 | 三峰软件小游戏视频

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页淘股吧股票涨跌实时统计涨停板选股股票入门股票书籍股票问答分时图选股跌停板选股 K线图选股成交量选股 [平安银行]

股市论谈均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

商业财经科技知识汽车百科工程技术自然科学家居生活设计艺术财经视频游戏--

天天财汇 -> 科技知识 -> 英伟达宣布推出最强 AI 芯片，成本和能耗较前代改善 25 倍，哪些信息值得关注？ -> 正文阅读

[科技知识]英伟达宣布推出最强 AI 芯片，成本和能耗较前代改善 25 倍，哪些信息值得关注？

[收藏本文] 【下载本文】

号称今年全球头号人工智能（AI）领域开发者大会的英伟达2024 GTC AI大会于美东时间3月18日周一拉开帷幕。今年是英伟达时隔五年首次让年度GTC…

B100系列的强大是大家有预期的，不过不用慌。

就看升腾920能多大程度上不被落下了，少输当赢了这下。
弄出来tsmc n3级别的工艺，确实还得几年。把升腾的那堆生态搞好，也得一段时间。
好在目前来看AI的差距还造不成太大的战略上的被动，那就先用空间换时间好了。

为知友们提供更多信息：
重磅！“我们需要更大的GPU”，英伟达宣布推出最强AI芯片，成本和能耗较前代改善25倍
每经编辑毕陆名
号称今年全球头号人工智能（AI）领域开发者大会的英伟达2024 GTC AI大会于美东时间3月18日周一拉开帷幕。今年是英伟达时隔五年首次让年度GTC重回线下，也是此前分析认为英伟达要“拿出点真家伙”的AI盛会。
当地时间周一下午，英伟达创始人兼CEO黄仁勋在美国加州圣何塞SAP中心进行主题为“面向开发者的1#AI峰会”（1#AI Conference for Developers）演讲。黄仁勋介绍了运行AI模型的新一代芯片和软件。英伟达正式推出名为Blackwell的新一代AI图形处理器（GPU），预计将在今年晚些时候发货。
Blackwell平台能够在万亿参数级的大型语言模型（LLM）上构建和运行实时生成式AI，而成本和能耗比前身低25倍。
另据媒体报道，英伟达CEO黄仁勋在GTC宣布，将在其企业软件订阅中增加一款名为NIM的新产品。NIM可以更容易地使用旧的英伟达GPU进行推理，并允许公司继续使用他们已经拥有的数亿个英伟达GPU。该产品将使新人工智能模型的初始训练推理所需的算力更少。该公司的策略是让购买英伟达服务器的客户注册英伟达企业版，每个GPU每年收取费用4500美元。黄仁勋表示，该软件还将帮助在配备GPU的笔记本电脑上运行人工智能，而不是在云服务器上运行。
此外，英伟达CEO黄仁勋宣布推出下一代人工智能超级计算机，英伟达还发布6G研究云平台，以便用AI技术推进无线通信。
英伟达推新AI芯片
据外媒报道，英伟达于周一宣布推出新一代人工智能芯片和用于运行人工智能模型的软件。该公司在美国圣何塞举行的开发者大会上宣布了这一消息，正值这家芯片制造商寻求巩固其作为人工智能公司首选供应商的地位。
自OpenAI的ChatGPT于2022年末掀起人工智能热潮以来，英伟达的股价上涨了五倍，总销售额增长了两倍多。英伟达的高端服务器GPU对于训练和部署大型AI模型至关重要。微软和Meta等公司已经花费了数十亿美元购买这些芯片。

图片来源：视频截图
新一代AI图形处理器命名为Blackwell。首款Blackwell芯片名为GB200，将于今年晚些时候发货。英伟达正在用更强大的芯片吸引客户，以刺激新订单。例如，各公司和软件制造商仍在争相抢购当前一代的“Hopper”H100芯片及类似产品。
“Hopper很棒，但我们需要更大的GPU，”英伟达首席执行官黄仁勋周一在该公司于加利福尼亚州举行的开发者大会上表示。不过，周一盘后交易中，英伟达股价下跌超过1%。该公司还推出了名为NIM的创收软件，该软件将简化AI的部署，为客户提供了在日益增多的竞争者中坚持使用英伟达芯片的另一个理由。
英伟达高管表示，该公司正从一个唯利是图的芯片提供商转变为更像微软或苹果的平台提供商，其他公司可以在此基础上构建软件。
“Blackwell不仅仅是一款芯片，而是一个平台的名称，”黄仁勋表示。
英伟达企业副总裁Manuvir Das在接受采访时表示：“可销售的商业产品是GPU，而软件则是为了帮助人们以不同的方式使用GPU。当然，我们现在仍然这样做。但真正改变的是，我们现在真的有了商业软件业务。”
Das表示，英伟达的新软件将更容易在任何英伟达GPU上运行程序，甚至是那些可能更适合部署而不是构建AI的老旧GPU。“如果你是开发者，你有一个有趣的模型，你希望人们采用它，如果你把它放入NIM中，我们会确保它可以在我们所有的GPU上运行，这样你就可以覆盖很多人，”Das说道。
Blackwell拥有六项革命性技术
英伟达每两年更新一次其GPU架构，实现性能的飞跃。过去一年发布的许多AI模型都是在该公司的Hopper架构上训练的，该架构被用于H100等芯片，于2022年宣布推出。

图片来源：视频截图
据悉，英伟达称，Blackwell拥有六项革命性的技术，可以支持多达10万亿参数的模型进行AI训练和实时LLM推理：
全球最强大的芯片：Blackwell架构GPU由2080亿个晶体管组成，采用量身定制的台积电4纳米工艺制造，两个reticle极限GPU裸片将10 TB/秒的芯片到芯片链路连接成单个统一的GPU。
第二代Transformer引擎：结合了Blackwell Tensor Core技术和TensorRT-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法，Blackwell将通过新的4位浮点AI支持双倍的计算和模型大小推理能力。
第五代NVLink：为提高数万亿参数和混合专家AI模型的性能，最新一代英伟达NVLink为每个GPU提供了突破性的1.8TB/s双向吞吐量，确保最复杂LLM之间多达576个GPU之间的无缝高速通信。
RAS引擎：Blackwell支持的GPU包含一个专用引擎，实现可靠性、可用性和服务性。此外，Blackwell架构还增加了芯片级功能，利用基于AI的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间，并提高大部署规模AI的弹性，使其能连续运行数周甚至数月，并降低运营成本。
安全人工智能：先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据，并支持新的本机接口加密协议，这对于医疗保健和金融服务等隐私敏感行业至关重要。
解压缩引擎：专用解压缩引擎支持最新格式，加快数据库查询，提供数据分析和数据科学的最高性能。未来几年，在企业每年花费数百亿美元的数据处理方面，将越来越多地由GPU加速。

图片来源：视频截图
Blackwell GPU体积庞大，将两个单独制造的晶粒组合成一个由台积电制造的芯片。它还将作为一款名为GB200 NVLink 2的整个服务器提供，该服务器结合了72个Blackwell GPU和其他旨在训练AI模型的英伟达部件。
亚马逊、谷歌、微软和甲骨文将通过云服务提供对GB200的访问。GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU配对。英伟达表示，亚马逊网络服务将构建一个包含20000个GB200芯片的服务器集群。
英伟达没有提供新款GB200或其使用系统的成本。据分析师估计，英伟达基于Hopper的H100芯片成本在2.5万至4万美元之间，而整个系统的成本高达20万美元。
英伟达推理微服务
英伟达还宣布，将在其英伟达企业软件订阅中添加一款名为NIM（英伟达推理微服务）的新产品。NIM让使用较旧的英伟达GPU进行推理（或运行AI软件的过程）变得更加简单，并允许公司继续使用其已经拥有的数亿个英伟达GPU。与新AI模型的初始训练相比，推理所需的计算能力较少。对于那些希望运行自己的AI模型，而不是从OpenAI等公司购买AI结果作为服务的企业来说，NIM无疑是他们的得力助手。
英伟达的策略是吸引购买基于英伟达的服务器的客户注册英伟达企业版，每个GPU每年的许可费为4500美元。
英伟达将与微软或Hugging Face等AI公司合作，确保他们的AI模型能够在所有兼容的英伟达芯片上运行。随后，开发者可以使用NIM在自有服务器或基于云端的英伟达服务器上高效运行模型，无需繁琐的配置过程。
“在我原本调用OpenAI的代码中，我只需替换一行代码，将其指向从英伟达获取的NIM即可。”Das说道。
英伟达表示，该软件还将助力AI在配备GPU的笔记本电脑上运行，而非仅限于云端服务器。
每日经济新闻综合第一财经、公开消息
免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

看描述NIM是一个软件包，可以帮助用户的GPU提速。
每个GPU每年收取费用4500美元?
这么贵？
那我想国内大公司应该会成立一个GPU代管公司。
然后GPU使用破解版本NIM的训练服务。
总公司通过向子公司购买算力的形式向子公司支付费用。
如果老黄查到了，那也只能起诉子公司。
这样每个GPU国内和国外的算力价格就相差了4500美元，也算拉近了国外和国内的GPU训练成本，一年也来也可以节约数十亿美金。
这笔钱就当美国的制裁税了。

总结一下昨天大会的核心内容
1，英伟达推出全球最强大芯片Blackwell
Blackwell的出现标志着在短短8年内，英伟达AI芯片的计算能力实现了提升1000倍的历史性成就
2016 年，“Pascal”芯片的计算能力仅为19 teraflops，而今天Blackwell的计算能力已经达到了 20000 teraflops
老黄在演讲中举例称，如果要训练一个1.8万亿参数量的GPT模型，需要8000张Hopper GPU，消耗15兆瓦的电力，连续跑上90天
但如果使用GB200 Blackwell GPU，只需要2000张，同样跑90天只消耗四分之一的电力
不只是训练，生成Token的成本也会随之显著降低
Blackwell由2080亿个晶体管组成，采用台积电4nm制程
支持多达10万亿参数的模型进行AI训练和实时大语言模型（LLM）推理
两个reticle极限GPU裸片将10TB/秒的芯片到芯片链路连接成单个统一的GPU
Blackwell 将通过新的4位浮点AI支持双倍的计算和模型大小推理能力
亚马逊、微软、谷歌和甲骨文在首批提供Blackwell支持的云服务商之列
GB200 Grace Blackwell超级芯片，是由2个B200芯片（4个die）和Grace CPU组合而来
相较于H100，大语言模型性能提升30倍，同时能耗只有25分之一
2，英伟达推出AI项目Project GR00T助力人形机器人
3，台积电和Synopsys将采用英伟达计算光刻技术
4，英伟达推出新软件NIM，让用户更容易利用已有英伟达GPU进行AI推理

Blackwell就是英伟达最新推出的AI图形处理器【GPU】，今年可能下半年会发货
Blackwell平台能够在万亿参数级的大型语言模型（LLM）上构建和运行实时生成式 AI，而成本和能耗比前代改善25倍，这个是最大的看点
在拥有1750亿参数的GPT-3大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍
B200GPU的重要进步之一，是采用了第二代Transformer引擎
它通过对每个神经元使用4位（20 petaflops FP4）而不是8位，直接将计算能力、带宽和模型参数规模翻了一倍
DGX Grace-Blackwell GB200：单个机架的计算能力超过1 Exaflop
黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops
GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练

大概率这款芯片使用是192GB的HBM3E内存

英伟达最近还在投资AI制药
英国公司Relation Therapeutics开发了一个通过读取DNA以更好理解基因的大型语言模型，而这是创造新药的关键步骤
这个公司宣布获得3500万美元的新种子轮融资，由DCVC和NVIDIA（英伟达）的风险投资部门 NVentures 联合领投
英伟达还表示未来会重点投资通用机器人，让人形机器人能够将文本、语音、视频甚至现场演示作为输入那日，并对其进行处理，采取特定的通用操作
英伟达在大会上说的Project GR00T由英伟达Isaac 机器人平台工具的帮助下开发的
黄仁勋称，由Project GR00T平台提供支持的机器人将被设计为，通过观察人类行为来理解自然语言并模仿动作，使它们能快速学习协调性、灵活性和其他技能，从而适应现实世界并在与之互动，绝对不会产生机器人起义
英伟达投资的AI衍生行业非常多，很多企业都有英伟达的投资
英伟达在全面发力+投资AI

而且大家要知道，大多数的AI新创都奠基于英伟达的CUDA平台
英伟达的策略就是让平台衍生出庞大的软件生态，让后者难以突破
英伟达在其软件领域面临着巨大的进入壁垒，CUDA 是其中的重要组成部分，但即使CUDA的替代品出现，Nvidia 提供软件和库的方式也有利于他们构建一个非常可靠的生态系统
英伟达企业的护城河比想象的深
现在1GPU已经从仅仅比CP 更快地运行游戏的设备发展成为通用加速器
为全球的工作站、服务器和超级计算机提供动力
在三十年前，CPU和其他专用处理器几乎处理所有计算任务
在那个时代的显卡有助于加快 Windows和应用程序中2D形状的绘制速度，但没有其他用途
但现在GPU已经成为业界最具主导地位的芯片之一
机器学习和高性能计算严重依赖于GPU的处理能力
GPU的发展非常超预期
英伟达之前认为AMD，英特尔，华为、博通，高通，亚马逊和微软等云计算公司都是竞争对手
AMD在2022年6月，就推出CPU+GPU架构的Instinct MI300，正式进军AI训练端
在去年6月，又公布了MI300X与MI300A两款AI加速器
英特尔在去年年底首次展示了用于深度学习和大规模生成人工智能模型的Gaudi3系列AI 加速器，预计将于2024年上市
华为在去年8月正式发布了“昇腾910”AI芯片及“MindSpore”全场景AI计算框架
微软在2023年推出了两款定制设计的芯片和集成系统：针对人工智能 (AI) 任务和生成式 AI 进行优化的 Microsoft Azure Maia AI 加速器
亚马逊从2013年推出首颗Nitro1芯片至今，AWS是最先涉足自研芯片的云端厂商，已拥有网路芯片、伺服器芯片、人工智慧机器学习自研芯片3条产品线
英伟达需要不断的努力才能不被众多竞争对手超越，才能一直保持领先优势
不过从目前来看，英伟达的AI芯片暂时没有对手

成本改善25倍，应该就是我理解的性能x功耗是前代的25倍。不过一般芯片都有能效曲线，看来看题目没啥用，我翻出去看原发布会。
一会更。
果然，这题目写得真牛啊。
我先列下原发会介绍的。
B200 拥有2080亿个晶体管，前一代H100、H200系列芯片只有800亿个。B200采用台积电4NP工艺制程，可以支持10万亿参数级的AI模型。相比之下，OpenAI的GPT-3仅为1750亿个参数组成，可以说英伟达的新款芯片，继续零跑行业数个身位。B200单个芯片能提供20 petaflops的AI性能，是前代H100的5倍。
英伟达每两年换架构，这次架构是以一位数学家姓名来命名。叫BIackwell架构。产品有B200与GB200。
英伟达还表示 GB200 包含了两个 B200 Blackwell GPU 和一个基于 Arm 的 Grace CPU 组成，推理大语言模型性能比 H100 提升 30 倍，成本和能耗降至 25 分之一
老黄还举个例子
如果要训练一个1.8万亿参数量的GPT模型，需要8000张Hopper GPU，消耗15兆瓦的电力，连续跑上90天。但如果使用Blackwell GPU，只需要2000张，跑90天只要4兆瓦
实话说，我没看懂，这玩意儿怎么降低25倍的？
按老黄的例子，能耗提升不是15/4=3.75倍吗？
除非价格降了。
而h100是台n4，800亿晶体管。Gb200是两个B200+一个ARM GPU由台积电N4工艺，共2080亿晶体管。
2080/800=2.6。晶体管翻了2.6倍。性能翻了2.5倍。但GB200有一个ARM架构的GPU。不能拿新老架构整体性能来对比。那按老黄说的。8000对2000。那么一张GB200性能是H100的4倍。也就是说两个B200等于2x2.5=5张H100，那么这个ARM的GPU顶3张H100。
我在个大胆的想法。拿这个ARM的GPU来做。两个ARM GPU+一个B200。就是3+3+2.5=8.5啊！
算了，回归正题。那GB200的价格呢？就算台积电工艺成熟了，代工价格下降，估计上天也就20-30%，按30%算。买等价性能时打7折。但封装加两个合一成本高了，ARM的授权费。等。我就算单位晶体管价格不变了。
也就是说GB200售价是 H100的2.6倍。性能提升4倍。能耗是4/15。这个时候的一次性推理90天的成本是。
能耗x价格3.75x4÷2.6=5.769231。
购买成本是永久降低，这样算也不合理。下次算的话，那成本就是纯号电费啊。那下次提升只有3.75倍啊！
当然，我也翻到了。写25倍的
除了核心的芯片发布环节外，英伟达还发布了GB200 NVL72 液冷机架系统。其中包含 36 颗 GB200 Grace Blackwell 超级芯片。英伟达表示，与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比，GB200 NVL72 性能提升高达 30 倍，成本和能耗降低多达 25 倍。
我翻译一下。36颗GB200，包含了72颗B200。与相同数量的H100(36张)，成本与能耗降低最高25倍。
真是好家伙。这个不等式怎么比？
既然如此。我宣布
GB200比H100成本与能耗改善多达25倍。
后面的人请按B200比H100能耗降低25倍来宣传

[收藏本文] 【下载本文】

科技知识最新文章

百度为什么越来越垃圾了?

为什么程序员总是发现不了自己的Bug?

出现在抖音评论区里边的算命真不真？

你认为 C++ 最不应该存在的特性是什么？

为什么 Windows 的兼容性这么强大，到底用了

如何看待Nvidia禁止使用翻译工具将cuda运行

为何苹果搞了十年的汽车还是难产，小米很快

该不该和AI说谢谢?

为什么突破性的技术总是最先发生在西方？

上一篇文章查看所有文章

加:2024-03-20 10:16:46 更:2024-03-20 10:22:02

股票涨跌实时统计涨停板选股分时图选股跌停板选股 K线图选股成交量选股均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

网站联系: qq:121756557 email:121756557@qq.com 天天财汇