1、企业建设满足大模型训推需求的算力中心,宜采用GPU上云的策略,在统一的私有云平台上,基础设施层建设训练集群和推理集群,在AI平台层建设统一的算力调度平台,实现训推一体化。
2、在训练、推理工作负载上,根据负载的不同特征,采用不同的资源池建设策略。
训练资源池:集群的建设成本和运维成本很高,基础设施领域需要高端训练GPU卡、高性能存储和高性能RDMA网络,宜在企业统一建设一个训练集群,供企业共享使用。
推理资源池:集群宜考虑成本、高可用部署需求和应用的易集成度等因素,建设时宜采用成本可控的推理卡、云平台底座支持多AZ部署、一键式部署大模型推理服务和可观测GPU的利用率等方法。
3、加强GPU的运营效能。
以应用场景化进行运营:实现AI大模型应用的准入和退出机制。
对训练需求进行分类,单机多卡、多机多卡所需的GPU不同,可以错峰使用。