天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 科技知识 -> 如何判断候选人有没有千卡GPU集群的训练经验? -> 正文阅读

[科技知识]如何判断候选人有没有千卡GPU集群的训练经验?

[收藏本文] 【下载本文】
大模型如此火热,如何判断候选人有没有千卡GPU集群的实际训练经验?
供求关系反了。一般有这个能力的人不是公司挑他,而是他挑愿意去哪个公司。
问下千卡训练多久挂一次,挂了之后咋弄,有效训练时间是多长。有好多paper 都分享了千卡训练的经验,paper 里些的问题基本都是普遍存在的问题,随便挑几个问下就知道有没有搞过千卡了。paper 里的问题基本都大家踩坑踩出来的,没踩过的很难回答到关键细节点上。比如这篇paper https://arxiv.org/pdf/2403.07648.pdf 还有字节的megascale等文章。
除此之外,我们也开源了蚂蚁千卡训练系统dlrover,主演解决k8s上分布式训练的稳定性问题,希望对于正在或者将要做千卡训练的小伙伴有所帮助,https://github.com/intelligent-machine-learning/dlrover
说来惭愧,我们组用的阿里云的计算资源(2000+的A800的卡),已经非常稳定了,几乎不需要做太多工作。
预训练的任务一般一个月也就挂一两次吧,平台有自动重启的机制,会自动重启任务并载入最近保存的ckpt。所以实在说不上有啥技术含量。
我感觉预训练更多的工作还是在数据的处理上。
千卡确实是个挑战,因为64张卡后,每个GPU的吞吐量就开始快速下滑;64卡后如何做通信优化,我觉得这是关键点之一,有经验的人肯定绕不过去;打哈哈的更大概率,就是没有真正的经验。


除非上一个工作是基础大模型公司,或者研究生阶段是大模型第一梯队实验室,不然哪来千卡集群经验?
这题我会,而且我还把对面搞到差点精神崩溃,看我的眼神里面充满了愤怒、悲怆、颓唐、哀痛、草泥马以及对我人格的质疑。
方法也很简单,把Megatron的log打印出来,argument的部分,一行一行问:
这个参数什么意思?
一般怎么设置?
改了之后会怎么样?
业界有无更好的的解决方案?
……
能回答上来三分之一差不多代码框架跟机器学习功底都不错,能回答一半以上基本有很强的大规模训练经验了。
澄清一下,通常来说这个是用来问算法的,因为现在用Megatron跑这种大规模训练真的是有卡就行,而算法一般是不太在意效率的,所以为什么要用这个参数来跑才是算法应该有sense的地方。
其他答案里面在意效率的,那是要问构架的,而真的要牵扯到构架的话,在目前Sparse MoE的大背景下,你的某一个tensor的mapping要怎么做都是非常非常困难且细致的问题,不是泛泛而谈就能把效率提上去的。而且真要问八股问题直接问TP+EP+(V)PP怎么做就行了,市面上99%的人都搞不明白。
校招:没有去实习,可以默认基本没有(去特别头部的llm团队,实习时间长,可能会有)
社招:了解下上家的公司/团队,基本心里有数了(互联网大厂的基座llm团队可能会有、核心业务的推理层业务可能会有)
不用技术面,背景判断就能分析个八九不离十了。
只用过128卡,但跑多了发现故障率和16卡没啥区别,看运气。。。。
补充一下
有一次,连续一天分配的16张卡里都有坏卡/节点故障,中间有找IT申请屏蔽。但还是脸黑到这种程度
绝大部分人应该都不会有千卡GPU的训练经验吧,像我这样的苦逼PhD能够有几张A100已经在开香槟庆祝了(逃)
主要千卡GPU跟普通的多卡并行已经不是一个概念了,里面的坑跟普通会调DDP训个模型完全不是一个性质的东西,千卡以上对于GPU吞吐量、GPU通信这些概念都得熟悉并且有基本的优化方案,这就对候选人的工程能力有比较高的要求,大部分在校学生可以先pass掉。
另外可以参考候选人之前做的研究方向,千卡GPU训练通常都是做foundation models的了,如果对LLM预训练、SFT、RLHF三阶段比较清楚的,或者是训过Stable Diffusion级别文生图模型,有类似经历的,估计也八九不离十,即使没有相关经验上手肯定也会比一般人要快。
你问出这个问题就说明你压根不是圈内的人。
圈内的人只要你报出你的单位或者你的几个朋友同事,我们都知道你是不是有千卡训练的经验。
这个招聘要求,并不是按照字面上的意思来的。这个招聘要求,实际上翻译一下就是:我们只要某某公司(比如文心一言,讯飞星火)这种的核心成员。这些人内部圈子大家都是互相认识的,基本找一两个朋友都能跳过去。所以这个招聘要求说的更直白一点就是:如果你不是我朋友或者朋友的朋友,就不要来浪费你时间了。
我这么说是不是你会更好理解一些。
当然是看他的ppt呀:


如果只是说训练经验,我感觉训练千卡和16卡并不会有太大区别。因为在大厂(说的是能搞也在搞千卡甚至万卡集群的大厂),都有专门的infra团队在打磨系统,在系统比较稳定之后,训练模型的同学都只需要提交任务,不会有明显额外的经验。PS:当然,清洗和整理数据可能才是重点。
看从哪个公司出来的就能知道。。。
看简历,一共也没有几个坑会有这种经验
我一个做模型算法的害得搞集群运维是吧,专人专职都做不到,你这个公司我看也没什么前景,我就不浪费时间面试了
你能问出这个问题来,就证明,你也没有,他也没有。
你应该优先看看这个候选人的负责的业务线有没有千卡
猎头都是按照产品线,业务线,职级去估算这个人的履历的
简单来说,就是业务配个经理,机器配个人,产品配个跑腿的,都是研究业务行不行,产品行不行就能知道这个人行不行了
你倒好。。不研究产品行不行。。研究人行不行。。
你们读书时候老师没有和你们说过,人才都是特招邀请过去的嘛?
其实这个经验不重要
对于大规模集群,nvidia或代理商会直接提供技术支持
大部分坑已经总结在nvidia的fae报告里了
事实上已经是纯工程化的东西
这是哪家的HR跑来这里免费提问了?
不知道知识付费吗?
总想着吃免费的午餐?
呵呵,不懂得免费的才是最贵的吗?
以下是一些可以判断候选人是否有千卡GPU集群训练经验的技术细节:
1. 面试
询问候选人是否有使用过千卡GPU集群进行训练的经验。询问候选人对千卡GPU集群训练的了解程度,包括: 千卡GPU集群的架构和工作原理千卡GPU集群训练的常见挑战和解决方案千卡GPU集群训练的性能优化技巧询问候选人是否有使用过常见的千卡GPU集群训练工具和框架,例如: TensorFlowPyTorchHorovod询问候选人是否有参与过千卡GPU集群训练项目的经验。
在评估候选人是否有使用千卡GPU集群训练经验的具体技术细节方面,你可以询问以下问题以判断他们的专业水平:
1. 分布式训练框架知识:
- 询问候选人是否熟悉并有实际使用经验,如TensorFlow的`tf.distribute.Strategy`或PyTorch的`torch.nn.parallel.DistributedDataParallel`。
- 能否解释多GPU同步和异步训练的区别及其对模型性能的影响。
2. 资源管理和调度:
- 是否了解并使用过诸如Kubernetes、Slurm或其他集群管理工具来调度和管理GPU资源。
- 对容器技术如Docker在部署分布式训练作业方面的应用有何理解。
3. 训练作业的配置:
- 在多卡训练中如何处理数据的分布和加载,以及如何设置batch size,是否有理解对梯度更新机制的影响。
- 是否有经验设置高级优化器如Adam或LAMB,并理解它们对于训练稳定性和收敛速度的影响。
4. 性能优化:
- 能否详述在多GPU环境中对模型进行性能调优的经验,包括使用混合精度训练、层次化内存管理(如NVIDIA的NCCL)、Tensor Fusion等。
- 是否了解如何利用GPU的特性来优化计算,比如避免数据传输瓶颈、使用异步I/O、优化内存使用等。
5. 调试和监控:
- 是否熟悉使用GPU性能分析工具(如NVIDIA Nsight Systems和Nsight Compute)来诊断瓶颈和性能问题。
- 对分布式训练中的故障排查和调试有什么经验,比如网络通信错误、内存溢出、性能下降等。
6. 实际案例分析:
- 请求候选人分享一个他们在分布式GPU环境中遇到的具体问题及其解决方案的例子。
- 如何处理和优化大规模参数模型的存储和加载。
7. 最佳实践和理论知识:
- 是否熟悉梯度累积、权重衰减、学习率预热等训练技巧。
- 对分布式训练中常见的概念,如模型并行、数据并行和流水线并行有没有深入理解。
8. 代码和仓库管理:
- 是否有使用版本控制系统管理分布式训练代码的经验,以及如何确保代码的可重复性和可追溯性。
2. 技术测试
让候选人完成一个使用千卡GPU集群进行训练的任务。评估候选人完成任务的能力,包括: 任务的完成时间任务的完成质量任务的代码质量
3. 背景调查
查看候选人的简历和第三方个人资料,是否有相关工作经历或项目经验。联系候选人的推荐人,了解候选人的相关技能和经验。
以下是一些可以帮助您判断候选人答案的资源:
TensorFlow 教程:在 GPU 上训练: https://www.tensorflow.org/tutorials/images/cnnPyTorch 教程:在 GPU 上训练: Horovod 文档: https://horovod.readthedocs.io/en/stable/NVIDIA GPU 加速深度学习:
通过以上方法,您可以对候选人是否有千卡GPU集群训练经验进行全面的评估。


有这种经验的人极少,如果有人敢这么说自己,那就肯定是有的,不然随便问个问题就回不上来
压根没啥技术含量,难的是没有一千张卡
国内有那几家公司有千卡GPU???
这个不难判断吧
惭愧只会单卡
想白嫖是吧,建议先分清,自己是想招搭建千卡的运维,还是招算法工程师。没有千卡平台,招来做什么?
张口是节点啊,ib啊,排队啊,训练时间啊,参数大小啊这种的,一般就是训过的。数据上的话,就是正常的去重啊,过滤啊,多少百分比做聚类啊之类的。
然后,用的是非NVIDIA的卡的话,问问训练时会遇到啥错误。现在都还好了,过去的话非NVIDIA的卡的话,像bf16这种数据格式导致的各种问题,会比较常见。
以前不用deepspeed的时候,都是自己写并发,麻烦点。现在都是一行命令的事,没啥区别
假装自己是chatgpt:
要判断候选人是否具备千卡GPU集群的训练经验,可以考虑以下几点。首先,如果题主所在公司有能力配置千卡A100/H100级别的GPU集群,那么公司内部很可能已经拥有相关技能的专家,可以寻求他们的帮助和指导。
在拥有千卡规模私有GPU集群的情况下,通常会由一个团队负责运维和管理,团队成员间分工明确:有的负责网络和存储基础设施,有的负责开发辅助支持工具,有的专注于通信和计算效率的优化,还有人负责运行和优化上层算法代码。因此,在招聘过程中,应根据职位的具体需求制定相应的面试问题。
可能的面试问题可以包括:
- 分布式训练的基本原理。虽然这是基础内容,可能通过背诵得来,但询问这类问题可能无法有效判断候选人的实践能力。
- 在候选人过往的经验中,千卡训练任务出现故障的频率,以及他们如何诊断和修复这些故障。探询他们遇到过的具体故障原因,以及他们为解决这些问题实施的工具和软件优化措施,设计的故障检测策略等。
- 候选人在实际训练任务中进行了哪些提高了GPU算力利用率诊断和优化工作,以及这些工作效果如何。
如果公司选择通过购买云服务来获取GPU集群的训练能力,那么可以让云服务提供商提供一套效率较高的训练代码以供使用。在遇到问题或者训练效率不满意的情况下,可以请求云服务提供商进行修复。在这种情况下,候选人的训练经验可能与那些在几十卡GPU环境下的经验没有太大差异。
别面试了,建议给候选人付费咨询
不用判断的,有千卡训练的都是大公司了吧,圈子都很小了吧,猎头都熟悉了对吧,给钱挖对方就是了
[收藏本文] 【下载本文】
   科技知识 最新文章
《消失的问界里》为什么网传华为选择大面积
特斯拉万人大裁员涉及中国市场,销售部门是
媒体报道「特斯拉一天内失去 2 个高管和 10
去年是「大模型元年」,今年会是「AI应用落
2024 年人工智能方向的就业前景怎么样?
如何评价小米汽车SU7全球首例无故抛锚?
如何评价比亚迪与大疆合作发布的车载无人机
如何看待波音「吹哨人」遗言曝光:如果我出
电动汽车为什么一下爆发了?
怎么看待华为太空宽带计划?
上一篇文章      下一篇文章      查看所有文章
加:2024-04-03 12:57:44  更:2024-04-03 13:12:18 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇