天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 科技知识 -> Linus 为什么要 fuck NVIDIA ? -> 正文阅读

[科技知识]Linus 为什么要 fuck NVIDIA ?

[收藏本文] 【下载本文】
[图片] 现在深度学习训练不都是 NVIDIA 的显卡吗?而且都是跑在 linux 上 为什么说 linux 上的 NVIDIA 不行? 因为 NVI…
这玩意儿应该归为历史。
linus fucked nvidia是在2012年。当时linus在某大学开讲座,问答环节中,有人吐槽自在笔记本电脑上跑个带图形界面的linux好麻烦。linus表现出了极大的同情,他说nvidia想给安卓市场卖大量的芯片,但又不乐意给linux提供支持,非常难缠。原话“the single worst company”。最后linus在激动之下对着摄影机伸出中指fuck了nvidia。
这个事情今天已经不可能再发生了。
第一,linus老了之后开始反思自己的过往,觉得自己当年口无遮拦怼天怼地,缺乏同理心,是不对的,也对社区无益。他甚至接受了相关的therapy,人变得比较温和。曾今的嘴臭之王再也干不出对着镜头fuck别人的事情了。
第二,2012年Alex和Ilya他们还在手搓AlexNet,靠GPU搞AI还在爆发的前夜。nvidia自己可能都还没想到这里有这么大一块业务,自然也懒得给linux投入精力。而nvidia后来这些年靠AI赚飞了,nvidia对linux的支持也就越来越多。虽然大部分核心竞争力,诸如驱动,cuda之类的都还是闭源,但是整体来说还是乐意和开源社区合作。这一点上,linus本人也表示过赞同。
英伟达在Linux下不仅不开源,还不兼容已有的生态
一开始是optimus双显卡切换,NVIDIA搞出来了这个东西,AMD也有,但是AMD的Linux下可以正常切换,英伟达只能用逆向出来的大黄蜂,就是把用户的/usr删掉的那个
再就是CUDA,驱动一直是闭源的,最近似乎开源了部分驱动,但是CUDA好像还是得用不少闭源的东西才能跑
还有就是桌面用户要用到的X11、wayland等的支持,以及视频硬解的支持。这两样NVIDIA都想搞自己的封闭生态,对于这些开源的东西都不屑一顾,bug一大堆
而且英伟达自己闭源的东西在Linux上也不怎么好用。以前桌面Linux用户,装系统后第一件事是装驱动,甚至比装中文还优先得多,因为英伟达的显卡驱动经常导致各种问题,有时候甚至搞得开不了机。每次更新内核也要做好回滚的准备,所以要准备一个可以放得下好几版内核和initramfs的/boot
以及在很长一段时间内,n卡的驱动会导致splash不能播放图片、tty分辨率很低、电脑睡眠不了
NVIDIA本身没有怎么给Linux桌面开源社区做贡献,开源驱动几乎是完全靠逆向得来的。因为NVIDIA那边不提供什么帮助,很多基本功能都成问题
一句话解释:Linus爆粗的那个事,比深度学习发挥潜力这件事,发生得要早。当时NV的Linux驱动还是挺不靠谱的。
nVidia好像一直不开源他们的驱动,但是在Linux下nVidia的官方驱动又烂的一批,所linus就怼nVidia,当然这已经很早以前了。
Nvidia驱动当然支持Linux,释出的都是闭源版,但只有在服务器能保证运算能正常,毕竟没有图形界面。
一到桌面环境,那就是灾难了。最早Linus骂Nvidia,是因为有笔记本开始搭载双显卡,而双显卡需要Optimus才能作到调用Nvidia显卡计算。这在Windows当然不是问题,可Linux这功能的支持要好几年后才出现。
现在Linux社群正逐渐抛弃X,转向Wayland这个全新的显示协定。其实这玩意已出来10年了,许多发行版正将其变为默认选项。Nvidia的闭源驱动长期对Wayland支持差(据说他们想自己搞一套标准),不如其他显卡驱动能让Linux开发者维护,因此导致Wayland在Nvidia显卡下不时的花屏。即使到了2022年后对Wayland支持比较完善了,这类问题还是不时发生,尤以KDE Wayland为甚。
即使Linux社群逆向出了开源的nouveau驱动,可显卡性能砍半,CUDA报废,这你敢装?
2022年Nvidia开源了一部分核心组件,但目前来看没有卵用。
有时,Nvidia就连老成的X11支持都会出问题——例如最近我的Arch Linux一更新驱动,X11桌面的动画变成0.75倍速,切换到Intel马上恢复丝滑顺畅(后来好像又好了Orz)。所以为了使用体验著想,我曾经台式机都采用了prime-run的策略,屏幕显示用Intel核显,需要Nvidia再用prime-run让应用以Nvidia显卡运行,例如玩大型游戏战争雷霆的时候。
现代显卡,内核驱动只是数据通道,重要的核心技术几乎都在用户空间驱动。
但就这么个毫无技术秘密可言的内核驱动,nvidia也不愿意开放编程接口,被fxxk是理所当然的。
Linus应该主要是业务上的困扰(如同视频所述),NVIDIA长期的不合作和不积极适配的态度让他非常不满意。
不过我倒是体验过那种“不积极”…
我大学最初的那台笔记本就带有NVIDIA独显的。
那时候对Linux有兴趣,就装了个Ubuntu,一方面是学习,一方面也是借着那个Unity的桌面装逼——毕竟长得很有特点。
一开始用的是wubi安装,因为怕搞坏电脑。后来胆子大了,备份好数据后也就开始折腾双系统,最开始用得也还行。直到有一天,我无意中看到一篇文章,说是怎么在ubuntu上头装NVIDIA驱动,说是比默认安装的、开源的Nouveau驱动更强大等等,于是我就跃跃欲试。
如今Ubuntu要装个驱动,点开系统设置找到驱动设置直接选对应的即可。但那个时候是不是有这个功能我现在没法确定,毕竟那篇文章要我去官网下载一个压缩包,然后通过一系列命令安装。而且要卸载掉Nouveau,然后开机还得改一些grub参数之类的。再后面几乎全是命令,我拿着那台清晰度不太行的诺基亚拍下来所有的命令,然后准备到时候照猫画虎。
果然,很快我就发现进不了桌面了,只能进入tty,具体操作到哪一步出现的这个问题不确定。但是从那篇文章来看似乎这是卸载掉驱动的正常情况,于是我继续折腾,结果惊讶地发现,tty下所有的中文用户目录名字全部成了菱形…好在我下载的压缩包放在了主目录中,否则我还打不开。
结果按照提示继续走,然后就看到了我最不希望看到的东西,那就是似乎命令都执行完了,但是桌面始终进不去!我不知道怎么办,试图把所有的操作重复一遍,结果还是没用。
我还记得那是国庆假期,我就因此在空无一人的教室弄了整整一天也没让它启动起来。偏偏我的手机只能走流量无法Wifi,试图用手机找到原教程也没成功。
虽然这事,严格来说是我自己没有调查明白,还没弄清楚一些系统的基本操作就贸然下手。但那个时候极大的挫败感还是让我印象深刻,“Fuck NVIDIA”之类的同类语我肯定骂了好几遍,顺带连Ubuntu也有所Fuck了…
后面大概一年没用Ubuntu,不过不是因为这个原因,而是发现网银的插件在Ubuntu上用不了,又打不得游戏,所以重装好了就丢在启动栏里面做装饰品。当时电脑装了四个系统,8/7/XP/Ubuntu,搞得和收集癖一样( *ˊ?ˋ)????
就说最近遇到的,6年前的nvidia显卡,在nvidia近期的525/535/545驱动中bug各不相同。竟无一可用。最后只能设法绕过去。
新显卡4090,在535中可用,545又出bug。这还是在AI大热,投入大量资源和关注度的情况下。
至少Linux系统以及GNU软件中,这种现象绝无仅有。
不清楚NVIDIA给Linux写驱动的人有没有亲自使用过。
这事儿我会。那时我就在nvidia实习给D3D写driver。
当时nvidia的driver非常差。D3D的已经算是好的了,但仍然非常的差。BUG极多,design极差。贡献了windows大多数的蓝屏。后来微软搞出kernel模式和user 模式,只要kernel不挂,就不会蓝屏。
D3D这种商业性极高的方向都是如此,就更不用说opengl这些了。有几个人给你写driver就不错了。那时苹果用nvidia卡,nvidia专门拉出一些人来给苹果做opengl。依旧是bug贼多。但总归要好于野生的linux。
linux显卡市场是真小,所以nvidia不重视,恶性循环其实到现在在linux上打游戏的也不多。
linus的批评很对,nvidia不重视linux市场。nvidia做的也对,我是要赚钱的,先把windows要伺候好才行。
呃…
这个事发生的时候还挺早的,2012年的事。所以有些答案有点离题了,AI啥的都是后话。
那时候NVIDIA的Unix(Linux、FreeBSD和Solaris)的驱动特别糊弄事,大概就是能亮机,能跑得起来GLX就行了。
而当时笔记本的双显卡切换技术已经有了,Windows上只需要右键菜单里选一下就行了,Linux上?对不起不行,你只能在设置软件里设置只能完全用独显或者完全用核显。而且,当年的Linux驱动完全没有对频率功耗啥的做管理,你切成独显了,那它就全速运行。
当年社区为了解决这个问题,有Bumblebee和PRIME方案,前者还因为安装脚本多写了个空格导致会误删掉/usr下所有文件的事闹过笑话。
而且,Linux本身和其他的Unix不同,它内核接口是不稳定的,新版本也发布很快,这就使得你即便用最新的驱动可能也没办法安装在比较新版本的内核上,而当时只有openSUSE能享受到NVIDIA官方适配的特权,像是Ubuntu虽然自己也维护闭源的NVIDIA驱动,但是针对自己所用的内核也提供了自己的patchset,毕竟和内核交互的这部分代码一般是提供源代码的,可以自己改。也就是说NVIDIA虽然提供了驱动程序,但是还要社区自己出力才能让它勉强可以用。
驱动本身也不开源,就算别的卡也不行,但是A卡I卡至少开源上没糊弄过。
不过虽然现在NVIDIA这个官方的开源驱动也是建立在NVIDIA把绝大部分的驱动逻辑都挪到基于RISC-V的GSP控制器上了,主机只需要和GSP交互就行了,但当年可没这么容易了,至今开源的Nouveau驱动在老卡上也就是看个亮的程度。
就,在即便是用官方提供的闭源驱动的情况下,Linux上使用N卡的体验依然是依托答辩,更何况它还不开源,可你市场占有率却又最高,那不fuck你fuck谁?
虽然这是很古早的事情了, 如今的Nvidia也算挺配合的,毕竟跑深度的系统基本都是Linux.
但是就凭它至今不肯开源驱动接口, 导致下一代Linux桌面Wayland至今不能支持N卡;
换谁都要f..k它
表面上看是骂nv不开源,其实那时候nv股票连跌了三年,linus可能是买股票被套了
时间来到2023年,Ubuntu 22.04 安装最新的CUDA驱动(版本已经对应),安装需要在rootfs环境中执行,ok,且不说需要进recovery的rootfs中,如果安装失败了,居然还不给把noveau从黑名单中去除,导致nvidia驱动打不上,noveau驱动不加载,直接桌面都进不去。
即便安装好了,Ubuntu 22.04的CUDA内置的驱动安装好以后,所有的WiFi无线模块全部丢失……
而20.04无问题。所以到底该fuck谁我也不知道了。
另外,只要Linux上跑深度学习一定用的就不是社区开源驱动,要么是nvidia的官方kernel driver,要么是官方open kernel。
再另外,nvidia一直给全线的显卡做CUDA驱动支持,包括消费级显卡GTX和RTX。
至少我见过不少人的笔记本因为英伟达的驱动把图形搞挂了,甚至是kernel panic
老黄的风格就是搞闭源生态,真的很招fuck。
N家的什么东西哪怕开源,也是为了白嫖社区。
不信你去看nvidia在github上star最多的项目: instant-ngp,完全就是个实验室产品,根本不能实用,人家就等着白嫖你们这些contributor呢。NVIDIA自己内部开发用的肯定不是这套instant-ngp。等商用那天,肯定会推自己的闭源生态。
N家自己用的好东西从来不开源。
随便对比一下其他家,比如脸书的pytorch,谷歌的android,tensorflow,这些开源项目都是真刀真枪地在商用,而且这些公司自己也在用的,肯定不是马马虎虎糊一点屎上去糊弄人的。
相比之下,NVIDIA就像在给社区喂屎。
别说Linus,现在一堆人要Fcuk Nvidia,Fcuk 皮裤黄
近年来AI大模型的火热,无疑让NVDIA称为炙手可热的明星。究其原因是其以GPU为核心的一些列软硬件产品和生态在AI大模型中扮演着核心作用。我们经常听到A100,H100,A800等GPU型号,那么他们究竟是什么关系?以及{BANNED}最佳近NVDIA又推出的DGX HG200又是什么东西?本节内容就是介绍NVDIA AI相关的硬件相关的产品体系,让大家明白这些名词背后代表的含义。
从硬件到生态的野心
首先看下面这张大图,就是整个NVDIA的整个产品和生态。其中{BANNED}最佳下面是硬件,以GPU,CPU,DPU三大芯片体系为基础,其中GPU是NVDIA的发家产品,也是核心,而DPU是NVDIA在完成对以色列MLX收购后,将bluefield系列智能网卡改名为DPU发展而来的,没错就是改名而已。所以NVDIA在造概念上还是挺有一套的,时至今日很多人在网上讨论智能网卡和DPU的区别,甚至大书特书,也确实够无聊的,同样的一个bluefield 2,在NVDIA收购前叫智能网卡,收购后叫DPU,你说是什么区别?
好了,回到图中,在三大芯片之上是DGX,HGX,EGX等一些列硬件平台,他们有的是将GPU以及NVlink组合做成硬件模块组,有的是将GPU、DPU,CPU通过NVlink、PCIe等互联直接组成服务器,有的则是使用服务器加上交换机和IB网络直接构成集群。换句话说NVDIA的产品不仅仅是芯片,而是还有通过自己的一些列总线技术,服务器技术,交换机技术将芯片进行包装的平台产品。




继续向上看,是一个单独的方框,里面是以CUDA,DOCA为代表的软件库,其中CUDA是以GPU编程为核心的软件库,而DOCA是以DPU为核心的软件库。当然还有其他一些,比如RAPIDS是NVDIA推出的一台开源数据科学和机器学习加速工具。总之就是NVDIA在自己的硬件体系架构上,自己又主导了一些列软件生态,从而向更上层应用层提供服务。让用户深度绑定其软硬件,其野心不可谓不大。
GPU的飞速发展
GPU作为NVDIA的核心产品,可用于大模型训练,高性能计算,AI推理,图形渲染,个人游戏等场景。


下面我们看一下NVDIA的GPU的发展历程。NVDIA整体大概没两年推出一个GPU架构,如下图所示,从{BANNED}最佳早的Tesla到当前的Hopper架构。这里就不再详细展开,感兴趣可以参考这篇文章 。


另一方面,NVDIA的显卡目前可以按照应用领域大致分为三种类型:
GeForce消费卡:面向游戏娱乐领域:如GeForce RTX? 3090、GeForce RTX? 3080等。
Quadro专业卡:面向专业设计和虚拟化领域:如NVIDIA RTX? A6000、NVIDIA? T1000等。
Tesla企业级卡:面向深度学习、人工智能和高性能计算领域:如NVIDIA A100\A30 Tensor Core GPU等。


这里我们重点讨论一下数据中心GPU,同样是数据中心GPU,同一代架构NVDIA也推出了多种不同产品用于不同场景,以Ampere系列产品为例,如下图所示。


下面我们讲一下经常听到的几种GPU型号:V100,A100,A800,H100,H800的关系。首先这里的V,A,H分别对应着上图中的三代GPU架构:Volta,Ampere以及Hopper。
l V100
V100是NVDIA推出的高性能计算和人工智能加速器,属于Volta架构系列。它采用16nm FinFET工艺,拥有5120个CUDA核心和16GB到32GB的HBM2显存。V100还配备Tensor Cores加速器,可提供高达120倍的深度学习性能提升。此外,V100支持NVLink技术,实现高速的GPU到GPU通信,加速大规模模型的训练速度。V100被广泛应用于各种大规模AI训练和推理场景,包括自然语言处理、计算机视觉和语音识别等领域。
l A100
A100是NVDIA推出的一款强大的数据中心GPU,采用全新的Ampere架构。它拥有高达6,912个CUDA核心和40GB的高速HBM2显存。A100还包括第二代NVLink技术,实现快速的GPU到GPU通信,提升大型模型的训练速度。此外,A100还支持英伟达自主研发的Tensor Cores加速器,可提供高达20倍的深度学习性能提升。A100广泛应用于各种大规模AI训练和推理场景,包括自然语言处理、计算机视觉和语音识别等领域。、
l H100
而H100是NVDIA基于{BANNED}最佳新一代Hopper架构,采用先进的台积电4nm工艺制造,拥有超过 800 亿个晶体管。NVIDIA Hopper 架构通过 Transformer 引擎推进 的发展,Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度,以大幅加速 Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算 (FLOPS) 提高了 3 倍。同时Hopper架构支持第四代 NVLink,NVLink Switch 系统现在可以跨多个服务器以每个 GPU 900 GB/s 的双向带宽扩展多 GPU IO,比 PCIe 5.0 的带宽高 7 倍。NVLink Switch 系统支持由多达 256 个相互连接的 H100 组成的集群,且带宽比 Ampere 架构上的 InfiniBand HDR 高 9 倍。{BANNED}最佳后Hopper支持第二代MIG,借助多实例 GPU (MIG),GPU 可以分割成多个较小的、完全独立的实例,并拥有自己的内存、缓存和计算核心。Hopper 架构通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和管理程序级别使用机密计算安全地隔离每个实例。
那么A800和H800又是什么呢?A800和H800主要是受限于美国管制,无法直接输出A100和H100,从而推出的阉割产品分别作为A100和H100的代替品。下图整理了相对A100和H100,A800和H800具体有哪些差异。可以看出核心在NVlink带宽的差异,以及FP64的能力上。


所以与国外厂商相比,如果我们想达到同样的性能,就需要更多的成本。
硬件平台的开枝散叶
我们经常听到的DGX,HGX,EGX其实是NVDIA提供的三种服务器参考架构,三种架构的配置和性能都有较大差异,应用场景也不同,在数据中心常用的是DGX和HGX(EGX常用于边缘),也就是大家常说的“大狗熊”和“黑狗熊”。而这些架构通常后面接的是芯片名称,如DGX A100就是基于A100推出的DGX服务器架构,而HGX A100就是基于A100推出的HGX服务器架构。下面我们分别以DGX 100和HGX 100为例来看DGX和HGX的不同。
DGX A100
DGX A100是Nvida继DGX-1和DGX-2之后推出的第三代AI服务器平台,单台服务器就可以用于AI训练,推理,以及大数据分析。其基本配置如下图所示,它有8个A100 GPU,6个NVswitch,15TB的 NVMe SSD,9个CX-6DX 200Gb网卡,以及双路64 core的AMD Rome CPU,1TB内存。




NVDIA DGX A100 配备 8 块 NVDIA A100 Tensor Core GPU,可帮助用户出色地完成加速任务,同时也针对 NVIDIA CUDA-X? 软件和端到端 NVIDIA 数据中心解决 方案堆栈进行了全面优化。NVDIA A100 GPU 实现了 与 FP32 原理相同的全新精度级别 TF32,相较于上一代 产品,可提供高达 20 倍 FLOPS 的 AI 性能。而{BANNED}最佳重要 的是,实现此类加速无需改动任何代码。通过 NVDIA 自动混合精度功能,只需要增加一行代码 A100 就可以 提供额外两倍的 FP16 精度性能的提升。同时,A100 GPU 拥有世界领先的显存带宽 (1.6 TB/s),与上一代 产品相比,增幅超过 70%。另外,A100 GPU 有超大 片上内存,包括 40 MB 的二级缓存,比上一代产品大 近 7 倍,可更大限度地提升计算性能。DGX A100 还 推出速度为上一代 2 倍的全新 NVDIA NVSwitch 和 新一代 NVDIA NVLink? 技术,后者可将 GPU 之间的 直连带宽增加一倍,从而达到 600 GB/s,而这几乎是 PCIe Gen 4 的 10 倍。这种强大的功能可助力用户更快 解决问题,以及应对此前无法解决的难题。
所以DGX就是NVDIA做好的一个现成的服务器,上面有NVDIA的商标,买过来就自己能用,不用自己买其他硬件组装。
HGX A100
HGX A100是第三方服务器厂商(如浪潮,H3C等)按照NVDIA提供的specification设计的GPU服务器,且服务器出厂前会经由NVDIA进行严格的认证。为什么会有这样一个形态呢?主要是NVDIA并没有NVlink的接口设计暴露给服务器厂商,不想PCIe一样服务器厂商可以自行设计互联,而是由NVDIA自己将GPU通过NVlink,NVswitch连接好的一个模组交给服务器厂商,服务器厂商决定如何适配这个模组即可。尽管如此,相比DGX,HGX也给了不同厂商更多定制空间,比如各个云厂商并不想使用NVDIA的网卡,而使用自己的DPU。
此外,相比DGX A100,HGX A100提供了更多的配置,比如产品上有4 GPU的模组,也有8GPU的模组。甚至可以将两个8卡GPU通过NVSwitch连接,实现16GPU全互联。并且A100 GPU在选择上可以是40GB或者80GB两种选型,也可以选择NVlink或者PCIe接口的GPU。对内存,CPU和网络没有统一的标准规定,各个服务器厂商可以自己设计,只要能通过NVDIA的官方认可即可。


知道了DGX A100和HGX A100,我们如果再看到HGX H100这种就不难理解了,无非是一些参数和特性的变化。
DGX SuperPOD
DGX SuperPOD就是由DGX产品组成的大的网络POD。如下图所示就为有DGX H100构成的DGX H100 SuperPOD的构成。


通过NVDIA提供的DGX H100和相关存储及网络软硬件组成一个超级POD用于高性能AI计算。
Grace Hopper架构
在GTC 2022上,NVDIA发不了Grace Hopper Superchip架构,它主要包含一下几个创新点。Grace是只NVDIA自研的Grace CPU,而Hopper就是Hopper架构的GPU。


Grace CPU是英伟达的{BANNED}中国第一个数据中心CPU,拥有{BANNED}最佳多72个Arm Neoverse V2核心,支持{BANNED}最佳多512GB的LPDDR5X内存,每个CPU的内存带宽可达546GB/s。
Hopper是英伟达第九代数据中心GPU,相较于上一代Ampere 有很多提升,前文已经介绍过,这里就不再介绍了。
Grace Hopper Superchip将Grace CPU和Hopper GPU放到了一块电路板上,上一次CPU和GPU走这么近的时候,还是集成显卡“寄生”在CPU时候。如下图所示,在单个超级芯片中,Grace和Hopper之间通过一个叫NVLink Chip-2-Chip(C2C)的互联技术连在了一起,提供高达900 GB/s的总带宽(单向是450GB/s),是x16的PCIe Gen5的7倍,可以为两个芯片提供内存一致性、高带宽和低延迟的通信。NVLink C2C所提供的内存一致性优势,可以提高开发者的生产力,可以提高性能,可以提高GPU的可访问的内存容量。在NVLink C2C的帮助下,CPU和GPU现在可以同时且透明地访问对方的内存,这使得开发者可以专注于算法设计,而不用花时间做内存管理。NVLink C2C所提供的内存一致性,允许开发者只传输他们需要的数据,而不需要把整个页面数据迁移到GPU或从GPU迁出。


在NVLink C2C的帮助下,应用程序可访问的内存不止GPU所提供的96GB,可用的还有来自Grace CPU的内存,每一个Grace Hopper Superchip可提供{BANNED}最佳多512GB的LPDDR5X的CPU内存。加起来就是512+96=608GB!


另外,NVLink C2C还支持NVLink Switch System,这使得一块Hopper GPU不仅可以访问本地Grace CPU的内存,还能透过交换机访问远端的Hopper GPU以及远端的Grace CPU的内存。也就是说,每一个Hopper GPU都可以访问集群里的所有内存。值得注意的是,NVLink Switch和NVLink C2C的带宽一样是900GB/s的,这为跨节点的内存访问一致性提供了基础。由于NVLink可连接{BANNED}最佳多256张Grace Hopper Superchip,算下来,{BANNED}最佳多可以访问150TB(256x608GB)的内存。
总之,NVLink C2C能让应用程序能够更容易地直接读取、储存数据,更方便地进行原子操作,有助于处理更大、更复杂的问题。有了Grace Hopper超级芯片,与之对应的就有相关的DGX和HGX产品。
DGX GH200
NVIDIA此前的 DGX A100 系统只能将八个 A100 GPU 联合起来作为一个单元,面对生成式人工智能大模型对于算力的爆炸式增长,NVIDIA的客户迫切需要更大、更强大的系统。DGX GH200就是为了提供{BANNED}最佳大的吞吐量和可扩展性而设计的。
如下图所示,DGX GH200通过定制的NVLink Switch System(包含 36 个 NVLink switch)将256个GH200超级芯片和高达144TB的共享内存连接成一个单元,避免标准集群连接选项(如 InfiniBand 和以太网)的限制,这种新的互连方式使DGX GH200系统中的256个H100 GPU作为一个整体协同运行,使其成为了专为{BANNED}最佳高端的人工智能和高性能计算工作负载而设计的系统和参考架构。可支持数万亿参数AI大模型训练。


DGX GH200系统中的每个Grace Hopper Superchip 都与一个NVIDIA ConnectX-7网络适配器和一个NVIDIA BlueField-3 NIC配对。DGX GH200 拥有 128 TBps 对分带宽和 230.4 TFLOPS 的 NVIDIA SHARP 网内计算,可加速 AI 中常用的集体操作,并通过减少集体操作的通信开销,将 NVLink 网络系统的有效带宽提高一倍。ConnectX-7 适配器还可以互连多个DGX GH200 系统,以扩展到超过256个GPU的更大的解决方案。此外NVIDIA也{BANNED}中国第一次使用 NVLink Switch 拓扑结构来构建整个超级计算机集群,之前NVlink switch只是以芯片形式在主机内,而在DGX GH200中NVlink switch也被实现为交换机形式,负责多级GPU互联,这种结构提供了比前一代系统高出10倍的GPU到GPU带宽,以及7倍的CPU到GPU的带宽。


下表是DGX GH200的配置,总之DGX GH200对标的DGX A100,可以将DGX GH200看做一个大的GPU芯片。


那么DGX GH200和上文介绍的DGX SuperPOD在产品定位有什么不同呢?下图是一个总结,核心是DGX GH200只是GPU的固定组合(256),而DGX SuperPOD是一个集群。


HGX GH200
类似DGX产品,HGX Grace Hopper每个节点都有一个Grace Hopper超级芯片,与Bluefield-3 NIC或OEM定义的I/O以及可选的NVlink switch系统配对。


上图展示的是基于Grace Hopper Superchip的一个HGX Grace Hopper Superchip节点,单节点的TDP高达1000瓦,风冷散热和水冷散热都行。这么一个东西要怎么用呢?大体上有两种组织形式:


{BANNED}中国第一种是只用InfiniBand,配合英伟达的Bluefield-3 DPU,本质上还是传统的RDMA加速网络,这种适合横向扩展的机器学习和高性能计算工作负载。每个节点包含一个Grace Hopper Superchip和一个或多个PCIe设备,例如NVMe固态驱动器和BlueField-3 DPU、NVIDIA ConnectX-7 NIC 或OEM定义的I/O。NDR400 InfiniBand NIC具有16个PCIe Gen 5通道,可在超级芯片上提供高达100 GB/s的总带宽。结合NVIDIABlueField-3 DPU,该平台易于管理和部署,并使用传统的HPC和AI集群网络架构。


另一种,在用了InfiniBand的基础上,还在显卡那一头用NVLink Switch System把显卡连在了一起,这种连接256个Grace Hopper Superchip的完全体适合用来解决世界上规模{BANNED}最佳大,{BANNED}最佳具挑战性的AI训练和HPC工作负载。


上图对比了CPU+显卡传统组合,Grace Hopper一体的组合以及配上了NVLink Switch的Grace Hopper三者之间的对比。对比之下,CPU-GPU靠16通道的PCIe 5.0连接的速度与有了NVLink C2C的Grace Hopper相比实在是太慢了。而GPU-GPU之间通过InfiniBand的传输速度跟基于NVLink 4的NVLink Switch相比,也差距甚远。
总之,HGX GH200给了服务器厂商一定灵活性,选择是否使用NVlink Switch,以及采用多少个节点。
MGX
NVIDIA DGX 面向{BANNED}最佳高端市场的AI系统,HGX 系统则是面向超大规模数据中心,此次NVIDIA还新推出了介于这两者之间的的NVIDIA MGX 系统。
NVIDIA 表示,其OEM合作伙伴在为 AI 中心设计服务器时面临着新的挑战,这些挑战可能会减慢设计和部署的速度。NVIDIA 的全新 MGX 参考设计架构旨在加速这一过程,可以将开发时间缩短2/3至仅需6个月,开发成本也可以减少3/4。


据介绍,MGX 系统由模块化设计组成,涵盖了 NVIDIA 的 CPU 和 GPU、DPU 和网络系统的所有方面,但也包括基于通用 x86 和 Arm 处理器的设计,拥有100 多种参考设计。NVIDIA 还提供风冷和液冷设计选项,以适应各种应用场景。


ASRock Rack(永擎)、华硕、GIGABYTE(技嘉)、和硕、QCT、超微(Supermicro)都将使用 MGX 参考架构来开发将于今年晚些时候和明年初上市的系统。
以上内容转自博主lvyilong316


神经蛙没头脑
9 次咨询
5.0
1933 次赞同
去咨询
2023第一性原理科研服务器、量化计算平台推荐 - 知乎 (zhihu.com)
常用生信软件汇总(附部分高校生物信息学中心) - 知乎 (zhihu.com)


生物信息学必备网站大全 - 知乎 (zhihu.com)
生物信息学简史 - 知乎 (zhihu.com)
Llama-2 LLM各个版本GPU服务器的配置要求是什么? - 知乎 (zhihu.com)
人工智能训练与推理工作站、服务器、集群硬件配置推荐


整理了一些深度学习,人工智能方面的资料,可以看看
一文看懂英伟达A100、A800、H100、H800各个版本有什么区别? - 知乎 (zhihu.com)
机器学习、深度学习和强化学习的关系和区别是什么? - 知乎 (zhihu.com)
人工智能 (Artificial Intelligence, AI)主要应用领域和三种形态:弱人工智能、强人工智能和超级人工智能。
买硬件服务器划算还是租云服务器划算? - 知乎 (zhihu.com)
深度学习机器学习知识点全面总结 - 知乎 (zhihu.com)
自学机器学习、深度学习、人工智能的网站看这里 - 知乎 (zhihu.com)
2023年深度学习GPU服务器配置推荐参考(3) - 知乎 (zhihu.com)


多年来一直专注于科学计算服务器,入围政采平台,H100、A100、H800、A800、L40、L40S、RTX6000 Ada,RTX A6000,单台双路256核心服务器等。




很简单,linus本人就是这样的,特别喜欢竖中指,fuck,怼天怼地。祖师爷么,有脾气很正常。
加上nvidia确实对linux的支持不够完善,而且还是那个年代,支持更垃圾。
对于祖师爷这样暴躁的人来说,是很正常的事啦。
补充一句,我去年买的二手影驰1650s,不排除转手好几家,但是不太可能是矿卡,跑kali的时候飘红屏,给我吓得,最后终端装驱动才解决问题。跑Ubuntu倒是正常。不知道centos或者debian会怎么样。
以一个长时间linux desktop user的角度回答。非相关专业。
就说说为啥都2023年了,nvidia和wayland的兼容性还这么差,而amd几乎是即插即用的。
没有wayland就得用吃屎的xorg。xinput在笔记本环境不支持手势。多屏不同分辨率显示器有明显帧数问题。多显示器运行个wine session打游戏都更卡。
如果想用xwayland的话很多程序,甚至是gnome 很多窗口都在cpu上跑,我轻度使用在这调用30w的功率。
fedora都已经默认wayland session了,nvidia 在kde或者gnome上bug依然一堆。
firefox想用n卡解码还得安装其他lib设置一堆隐藏参数。
突然想到国产显卡能不能以开源支持linux为突破口。 如果能玩大型游戏岂不是很有搞头?
FN你就用A,FA?那只能说明自己有问题
我记得当时nvidia一直有提供gpu驱动,
但是Linus这帮内核的老爷们,经常随意修改内核API,
所以经常导致nvidia等驱动编译过不了,Linus最该fuck他自己。
那时我看到新闻时真想跑过去揍他一顿,我当时就经常被驱动编译的问题困扰。
想想一下不同版本libc实现某个功能的函数,经常改名或者消失,
是谁的问题?都是使用libc写程序的人的问题,竟然没有紧随libc的变化,
为每个版本的libc,写一版程序,然后针对每一版的libc编译对应的二进制版本?
哎呀,你知道吗,当年Linus说"fuck NVIDIA"可是因为他觉得和NVIDIA的关系就像在追女朋友一样,总是难以捉摸。Linus觉得NVIDIA一方面想在安卓市场卖大量芯片,一方面却在给Linux提供支持上磨磨唧唧,真是拧巴到家了。
他的原话可是“the single worst company”(世界上最差的公司),就好像是在争夺全球最差公司的冠军一样。可能是因为Linus觉得写Linux驱动简直比写Linux内核还难,于是在一阵激动中向NVIDIA竖起了中指。
不过现在时间过去了,或许Linus觉得和NVIDIA的过节也像是年轻时对编程语言的选择一样,有时候年轻气盛的决定会让你后悔得要命。毕竟,现在深度学习用NVIDIA的GPU跑得飞快,Linus可能在心里默默为当初的“争吵”向NVIDIA致敬:嘴上说着"fuck",心里却说着"thank you for the CUDA cores"。这就像是一段曲折的感情故事,谁都没想到最后会走到一起。
因为他自己的macbook pro 就是不能完美配置独立显卡驱动.
印象中应该是英伟达在linux驱动上一些歧视策略导致的。
那都是啥年代的视频了,我记得当时linus说这话跟dl没啥关系吧。
这个图我就不放了,英伟达之前一直不开放显卡驱动API,Linux内核没法加载英伟达显卡驱动,现在应该是行了。
你要是十几年前在linux电脑上用过nvidia闭源或者开源驱动的话,你也会fxxk。
[收藏本文] 【下载本文】
   科技知识 最新文章
《消失的问界里》为什么网传华为选择大面积
特斯拉万人大裁员涉及中国市场,销售部门是
媒体报道「特斯拉一天内失去 2 个高管和 10
去年是「大模型元年」,今年会是「AI应用落
2024 年人工智能方向的就业前景怎么样?
如何评价小米汽车SU7全球首例无故抛锚?
如何看待阿里EMO模型的发布?
华为一个芯片设计厂,为什么说是华为突破了
特斯拉在中国召回160万辆汽车,为什么身边人
如何看待2024年1月18日华为鸿蒙生态千帆启航
上一篇文章      下一篇文章      查看所有文章
加:2024-02-20 15:25:10  更:2024-02-20 15:33:46 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇