大语言模型预训练 - 主题 - twt企业IT交流平台

动态

大语言模型·2024-05-15

GPT是一种预训练语言模型，可用于自然语言处理任务。它采用生成式预训练和判别式任务微调的方法，使得模型搭建更简单。适配不同任务的输入形式是一个问题，但通过增加应用层级的网络和有监督微调，可以解决。使用huggingface的模型调用和微调也变得更加简单。...(more)

赞同1

银行大语言模型· 2024-03-25

英伟达 GPU 性能不断剪裁的情况下，金融行业的大模型资源池应该如何建设？xxx

sxtycxx 人工智能（计算机视觉）擅长领域：存储, 灾备, 服务器

522 会员关注

有其他类型的GPU可选吗

赞同

回答

关注3

银行大语言模型· 2024-02-23

大语言模型训练过程中，如何提供稳定训练断点保存和恢复的存储能力？xxx

大模型训练过程比传统的分布式训练复杂,训练周期长达数月。本议题核心研讨如何运用存储技术手段提高大模型训练的数据存储效率。

回答

关注7

大语言模型·2024-02-04

金融行业如何通过GPU资源池等提高算力利用率提升大模型训练与推理效率？（1月20日·深圳站）

时间：2024-01-20

地点：广东深圳

状态：已结束

报名9

描述

大型语言模型的预训练是指在大规模文本数据集上进行初始训练的过程，旨在让模型学习语言的语法、语义和语境，并捕获文本数据中的模式和信息。这个预训练阶段是在模型尚未针对特定任务或领域进行微调之前进行的。以下是大型语言模型预训练的主要特点和步骤：数据收集和准备：收集大规模文本数据，包括互联网文本、书籍、文章、新闻、论坛内容等。这些数据应覆盖多样化的语言和主题，以...(more)

0 会员关注

14 会员贡献

1 关系主题

主题组织结构热门关系主题