大模型训练过程比传统的分布式训练复杂,训练周期长达数月。本议题核心研讨如何运用存储技术手段提高大模型训练的数据存储效率。
收起1、为支持和提升大模型分布式训练的断点重续能力,在存储上,需要提供TB级呑吐、千万级IOPS、毫秒级时延的分布式并行文件系统的存储高性能。
2、采用多级缓存技术,譬如蚂蚁金服针对容错过程中 Checkpoint 耗时长导致训练有效时间占比低的问题,在开源的DLRover 提出了 Flash Checkpoint 方案,实现秒 checkpoint 的导出和恢复。技术特点如下:
异步持久化:DLRover Flash Checkpoint 采用同步将训练状态写到共享内存,然后异步从共享内存写到存储系统,将训练阻塞时间降低到最小。
断点续存:故障发生后,DLRover 可以紧急将内存中的 Checkpoint 持久化到存储中。防止 Checkpoint 数据丢失,减少训练迭代时间的浪费。
内存热加载:如果非机器宕机故障,DLRover 可以直接重启训练进程,这时可以直接从主机内存中加载 Checkpoint,省去读存储文件的 IO 开销。