checkpoint
checkpoint
该主题还没有描述

热点

大语言模型·2024-02-07
Eric雪飞 · 上海市计算机学会 擅长领域:存储, 灾备, 分布式架构
81 会员关注
文章介绍了大模型训练中的Checkpoint机制和存储方案,强调了对存储的高性能、高可靠和高可用需求。NVMe协议的分布式全闪存储被认为是最佳解决方案,文件存储更适配于大模型训练。业界还在不断尝试新的产品和技术,例如微软的Nebula和爱丁堡大学的serverlessLLM方法。...(more)
浏览982

    描述

    该主题还没有描述
    X社区推广
  • 提问题