如何确定收集数据的范围？

我个人认为大语言模型的构建应该是由多个小模型组合成一个大模型，因此小模型的重点应该是数据的范围界定，针对不同的数据范围可能使用的模型会不一样，如何对数据范围的界定是否有相应的依据？

参与9

2同行回答
全部行业
全部行业 互联网服务
|
按赞同排序
按时间排序

项目经理中国工商银行

不少银行现在倾向于选择通用大模型加专业知识库的模式，知识库负责提供领域知识，通用大模型负责理解问题，并结合知识库检索结果，给用户返回符合人类对话风格的回答。您说的这种小模型凑成大模型的路径应该也是可行的，但目前没有看到特别好的方案

wenwen123项目经理MM

对于大语言模型的构建，确实可以使用多个小模型组合成一个大模型的方法。每个小模型可以专注于处理不同的数据范围，这样可以提高整体模型的效果和适应性。以下是一些确定数据范围的依据：

领域特定数据：某些任务或领域可能需要专门的模型。例如，医学领域可能需要一个专门的模型，用于处理医学文献、诊断报告等。此类数据范围界定可以根据领域知识和专业人士的建议来确定。
数据源：语言模型的数据可以来自多个源，如维基百科、新闻文章、社交媒体等。不同的数据源可能包含不同的语言风格、领域偏好和文化背景。因此，可以根据数据源的不同，构建适应不同数据范围的小模型。
任务需求：根据应用场景和任务需求，可以确定数据范围。例如，如果语言模型主要用于文本生成和聊天对话，那么小模型可以针对常见的聊天数据进行训练和优化。如果模型需要处理特定类型的问题，例如问答系统，那么可以限制数据范围为问题和答案数据集。
用户反馈和需求：使用语言模型的用户反馈可以提供有关模型的不足之处和改进的线索。根据用户的反馈和需求，可以调整数据范围界定，以提高模型的实用性和适应性。

需要注意的是，确定数据范围是一个复杂的任务，需要综合考虑多个因素，并根据具体情况进行权衡。同时，数据范围的界定也可以是一个动态的过程，随着模型的不断迭代和用户反馈的积累进行调整和优化。

互联网服务 · 2023-07-10

在银行行业中，数据的范围界定是非常重要的，因为它直接影响到模型的准确性和可靠性。在对数据范围进行界定时，可以从以下几个方面考虑：

数据来源：数据来源是数据范围界定的一个重要因素。银行可以从多个渠道获取数据，如客户信息、交易记录、信用评估等。因此，需要对数据来源进行分类，以便更好地理解数据的特点和用途。
数据类型：数据类型是数据范围界定的另一个重要因素。银行的数据类型包括结构化数据和非结构化数据。结构化数据是指可以轻松分类和组织的数据，如数字、日期和时间等。非结构化数据是指难以分类和组织的数据，如文本、图像和音频等。因此，需要对数据类型进行分类，以便更好地理解数据的特点和用途。
数据量：数据量是数据范围界定的另一个重要因素。银行需要考虑数据量的大小，以便更好地理解数据的特点和用途。数据量的大小可以影响模型的准确性和可靠性，因此需要对数据量进行分类，以便更好地理解数据的特点和用途。
数据质量：数据质量是数据范围界定的另一个重要因素。银行需要考虑数据质量的好坏，以便更好地理解数据的特点和用途。数据质量的好坏可以影响模型的准确性和可靠性，因此需要对数据质量进行分类，以便更好地理解数据的特点和用途。

综上所述，对于银行行业来说，数据范围界定是非常重要的。在对数据范围进行界定时，需要考虑数据来源、数据类型、数据量和数据质量等因素，以便更好地理解数据的特点和用途。只有对数据范围进行了准确的界定，才能更好地构建大语言模型。