银行人工智能大模型

关于大模型时代的企业GPU算力资源规划探讨？

在大模型的发展浪潮下，企业用户普遍面临一个两难的抉择：积极扩张GPU算力资源以满足大模型训练需求；保守扩张GPU算力资源以减少GPU闲置数量。由于当前GPU算力的建设存在采购高、运行成本高、维护难度高的三高问题，同时大模型训练又是大型企业用户在实现大模型场景应用时绕不开...显示全部

关注4

参与14

查看其它 2 个回答罗文江的回答

罗文江

云计算架构师某银行

1、企业建设满足大模型训推需求的算力中心，宜采用GPU上云的策略，在统一的私有云平台上，基础设施层建设训练集群和推理集群，在AI平台层建设统一的算力调度平台，实现训推一体化。

2、在训练、推理工作负载上，根据负载的不同特征，采用不同的资源池建设策略。
训练资源池：集群的建设成本和运维成本很高，基础设施领域需要高端训练GPU卡、高性能存储和高性能RDMA网络，宜在企业统一建设一个训练集群，供企业共享使用。
推理资源池：集群宜考虑成本、高可用部署需求和应用的易集成度等因素，建设时宜采用成本可控的推理卡、云平台底座支持多AZ部署、一键式部署大模型推理服务和可观测GPU的利用率等方法。

3、加强GPU的运营效能。
以应用场景化进行运营：实现AI大模型应用的准入和退出机制。

对训练需求进行分类，单机多卡、多机多卡所需的GPU不同，可以错峰使用。

银行 · 2024-02-11

查看赞同的人

关于大模型时代的企业GPU算力资源规划探讨？

查看其它 2 个回答罗文江的回答

回答者

罗文江最近回答过的问题

回答状态

关于大模型时代的企业GPU算力资源规划探讨？

查看其它 2 个回答罗文江的回答

回答者

罗文江 最近回答过的问题

回答状态

罗文江最近回答过的问题