资料内容:
分布式训练框架选择?
多用 DeepSpeed,少用 Pytorch 原生的 torchrun。在节点数量较少的情况下,使用何种训练框架并不是特别重
要;然而,一旦涉及到数百个节点,DeepSpeed显现出其强大之处,其简便的启动和便于性能分析的特点使其成
为理想之选。
LLMs 训练时 有哪些有用的建议?
1. 弹性容错和自动重启机制
大模型训练不是以往那种单机训个几小时就结束的任务,往往需要训练好几周甚至好几个月,这时候你就知道能
稳定训练有多么重要。弹性容错能让你在机器故障的情况下依然继续重启训练;自动重启能让你在训练中断之后
立刻重启训练。毕竟,大模型时代,节约时间就是节约钱。