【论文翻译】D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

【论文翻译】D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

原文地址:D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

摘要

继续预训练(CPT)作为一种扩展大型语言模型(LLM)对特定领域认知能力的方法,已被广泛应用于数学、代码等领域的模型训练。然而,在特定领域的 LLM 上实施 CPT 时,关键问题是如何选择通用语料(如 Dolma、Slim-pajama)与领域语料的最佳混合比例。当前的方法往往依赖于大量人工,通过网格搜索不同的混合比例,这不仅耗时,而且伴随着高昂的 GPU 训练成本。更为重要的是,这种方法并不能确保选出的混合比例在特定领域内是最优的。为了克服这些局限,我们受到性能预测尺度定律的启发,提出研究特定领域的继续预训练尺度定律(D-CPT Law)。这一研究旨在为不同规模的 LLM 提供一种能够在可接受训练成本内确定最佳混合比例的方法。通过拟合 D-CPT Law,我们能够在有限的实验样本中,以较低的训练成本准确预测不同混合比例、模型大小和数据集大小下的总体性能和下游任务性能。此外,我们还扩展了标准 D-CPT 定律至跨域设置,提出了跨域 D-CPT Law,以预测目标领域的 D-CPT 定律。这一方法在目标领域的训练成本极低,仅需正常训练成本的约1%。综合六个下游领域的实验结果表明,我们提出的 D-CPT 定律和跨域 D-CPT 定律定律在有效性和普适性方面均取得了显著成效。

1 介绍

继续预训练(CPT)是构建更优秀的大型语言模型(LLMs)的关键环节。本研究专注于特定领域的 CPT( D-CPT),其目标在于提升模型在特定领域的基本理解能力,这一方法已在众多研究中得到广泛应用。在实际操作中,针对 D-CPT,我们通常需要搜集高质量的领域相关语料,以增强模型在下游任务的性能;同时,也需要使用通用语料库,以减轻模型对通用能力的“灾难性遗忘”。因此,如何精准确定领域相关语料库与通用语料库的数据组成及其混合比例,对于打造表现优异的特定领域 LLMs 至关重要。另外,对混合比例进行网格搜索需要大量的 GPU 资源,而在 GPU 资源有限的情况下,我们往往无法获得最理想的混合比例。近期,Scaling 定律被广泛应用于性能预测,它可以帮助我们在有限的 GPU 资源消耗范围内,找到最佳的数据集大小与模型大小。

图 1:D-CPT 定律的表现。

(左图):曲线展示了 Qwen1.5-1.8B 模型在不同的数据集大小 D 下 \(L_g\)\(r_g\) 之间的关系。CPT 数据集由代码语料和通用语料混合而成。在图中,\(L_g\) 代表通用语料库验证集上的损失,\(r_g\) 表示训练数据中通用语料库的百分比。虚线表示 D-CPT Law 预测的曲线,圆形标记代表拟合数据点,而星形标记则代表未见的验证点。

(右图):相应的图表展示了代码语料库验证损失 \(L_d\) 与代码语料库数据比例 \(r_d\) 之间的关系。

因此,对于 D-CPT,我们可以应用尺度定律来确定训练语料库中的最优混合比例,从而提升模型在特定领域任务上的表现吗?

为回答以上问题,本研究深入探讨了 D-CPT 的尺度定律,并提出了D-CPT 尺度定律,旨在确定在有限训练成本约束下,不同规模的 LLM 最优的混合比例。受尺度定律在不同尺度上表现出的良好的预测能力的启发,我们首先在不同混合比例以及几个相对较小的模型和数据尺度上进行了实证研究。继 Chinchilla 尺度定律之后,我们将混合比 \(r\) 融入 D-CPT 定律中,并采用参数化方式对其进行了定义: \[ L(N,D,r)=E+\frac{A}{N^\alpha}+\frac{B \cdot r^\eta}{D^\beta}+\frac{C}{r'^{\gamma}},\space \rm{where} r'=r+\epsilon \tag{1} \] 在本文中,参数 \(\epsilon\) 的引入旨在确保当混合比 \(r\) 逼近于 0 时,损失函数 \(L\) 依然保持稳定。根据公式 (1),当模型规模为 \(N\),数据集大小为 \(D\),且混合比为 \(r\) 时,我们能够精确预测验证损失 \(L\)。特别指出,当混合比 \(r\) 代表领域语料的混合比 \(r_d\) 时,\(L\) 所指即为领域语料的验证损失 \(L_d\);同理,通用语料的验证损失 \(L_g\) 则遵循通用语料混合比例 \(r_g\) 的规律。为了直观阐述我们的 D-CPT 定律,如图 1,我们以代码领域为例,展示了在通用及特定领域实验中的拟合效果。我们在不同数据集大小 \(D\) 的模型上,对不同混合比下的拟合精度进行了验证。我们的主要贡献总结如下:

  1. 展示了 D-CPT 的有效性和泛化性,我们在模型大小从 0.5B 到 4B,数据集大小从 0.1B 到 26B tokens,混合比例从 0 到 1 之间做了广泛的实验。实验表明 D-CPT 定律具有相当高的拟合准确度,Huber 损失低于 0.02,\(R^2\) 大于 0.97。而且泛化性实验表明 D-CPT 定律不仅继承了之前的尺度定律的模型大小和数据集大小的泛化性,而且还准确预测了不同混合比例的表现。

  2. D-CPT 定律不仅在数据点均来源于单一领域的实验中展现出显著效果,我们还将其应用于跨域实验中进行验证。在此类实验中,我们利用来自多个领域的数据点来预测在未见领域中的表现。具体而言,我们首先提出了特定域可学习系数(DLC),用以表征每个领域的特有参数,并将 DLC 整合进 D-CPT 定律中。由此形成的新定律,我们称之为跨域 D-CPT 定律。借助这一方法,一旦获取了新领域的 DLC,我们便能轻松推导出该领域的 D-CPT 定律。在实验中,我们采用来自四个领域的数据点对跨域 D-CPT 定律进行拟合,并应用该定律对另外两个领域进行预测。实验结果显示,DLC 能够精确地描绘每个下游领域的具体特征,从而在跨域场景中实现高效的拟合性能,并显著降低了新领域模型训练的成本。

  3. 为了探究 D-CPT 定律在实际应用中的表现,我们将其应用于以下三个关键场景:一是确定一般与特定领域能力之间的最佳混合比例;二是针对有限的特定领域数据寻找最佳混合策略;三是在图 2 所示的资源分配设置中的应用(具体细节在第4.3节中详述)。通过这些应用,我们能够更深入地理解 D-CPT 定律在实际环境中的适用性和效果。

图 2:D-CPT 定律及跨域 D-CPT 的流程图展示。

(上图):在 D-CPT 定律的流程中,我们首先搜集领域特定的语料库和通用语料库。接着,在小规模实验配置下进行测试,以搜集经验数据点,进而拟合 D-CPT 定律。完成这一步骤后,我们能够预测模型在大规模实验配置下的表现。

(下图):在跨域D-CPT定律的应用流程中,针对未见的下游领域,例如物理学,我们计算其特定领域的可学习系数(DLC),并将其整合进已拟合的跨域 D-CPT 定律中,从而推导出该新领域的 D-CPT 定律。基于 D-CPT 定律,我们提出了以下三种应用场景:确定通用语料与领域语料的最优混合比例、针对有限领域数据的最优混合策略,以及第4.3节所述的资源分配策略。

2 背景

在先前研究的基础上,我们将尺度定律的目标分为两类:资源分配(Allocation)与回报率(Return)。具体而言,(1)资源分配:在固定的计算预算约束下,如何确定模型规模 \(N\) 与数据集大小 \(D\) 的最优分配?(2)回报率:对于增加的资源投入,其预期的回报是多少? 关于资源分配的目标,表述如下: \[ \mathop{\mathrm{argmin}}\limits_{N,D}\ L(N,D)\quad\mathrm{s.t.}\quad\mathrm{FLOPs}(N,D)=C\tag{2} \] 在公式 (2) 中,我们的目标是在给定的计算预算 \(C\) 下,寻找能够最小化损失函数的最优模型规模 \(N\) 和数据集大小 \(D\)。至于回报率的目标,其核心在于尺度定律在拟合数据点之外,对于模型性能的泛化预测能力。

Chinchilla 尺度定律

Hoffmann 等人提出了如下的参数化表示: \[ L=E+\frac{A}{N^\alpha}+\frac{B}{D^\beta}\tag{3} \] 其中 \(\{E,A,B,\alpha,\beta\}\) 是拟合参数(细节参见附录 D)。

3 方法

在图 2 中,D-CPT 定律旨在探讨在特定领域持续预训练场景下,不同混合比对于模型行为的影响。D-CPT 定律的目标是分析适当的参数化规律,该规律描述了验证损失 \(L\) 与模型大小 \(N\)、数据集大小 \(D\) 以及混合比 \(r\) 之间的关系。在本节内容中,我们首先讨论在域内设置下的 D-CPT 定律(详见 3.1节),其中拟合和测试数据点均来源于同一领域。随后,我们将 D-CPT 定律扩展应用于跨域实验(见 3.2 节),在此设置中,拟合和测试数据点分别来自多个不同领域,并引入了跨域 D-CPT 定律,该定律纳入了一个新的概念——特定领域的可学习系数(DLC)。

3.1 D-CPT 定律

鉴于训练数据由通用语料库与领域语料库混合而成,我们引入了两种混合比,即通用语料库混合比 \(r_g\) 和领域语料库混合比 \(r_d\)。相应地,我们定义了两种验证损失,分别是通用语料库验证损失 \(L_g\) 和领域语料库验证损失 \(L_d\)。因此,我们推导出两个 D-CPT 定律,分别对应于 \(L_g(N, D, r_g)\)\(L_d(N, D, r_d)\)。为简化表述,我们通常使用 \(r\)\(L(N, D, r)\) 来代表 D-CPT 定律的默认形式。在附录D中,相较于 OpenAI 的尺度定律,Chinchilla 尺度定律提供了更高的可解释性和清晰度。因此,我们选择以 Chinchilla 尺度定律作为 D-CPT 定律的基础表达形式。此外,由于尺度定律旨在拟合数据点,其参数形式应与数据点中观察到的趋势本质相关。基于先前研究及不同 \(N\)\(D\)\(r\) 的数据趋势,我们总结了 D-CPT 定律的以下四个基本要求:

  • 适应性:D-CPT 定律适用于 \(r\) 值在0到1之间的范围。
  • 显式趋势:根据 \(N\)\(D\)\(r\) 不同取值的结果,我们观察到以下明显趋势: \[ \frac{\partial L}{\partial N} < 0, \frac{\partial L}{\partial D} < 0, \frac{\partial L}{\partial r} < 0 \tag{4} \] 前两个趋势与 Chinchilla 尺度定律相符,第三个趋势也具有直观的解释:较大的 \(r\) 值意味着训练语料库中有效语料库的比例较高,从而导致较低的 \(L\) 值。详细分析见附录 E.1。

  • 隐式趋势:我们还发现了 \(r\)\(D\)\(L\) 之间的内在联系: \[ \frac{\partial^2 L}{\partial D\partial r} < 0 \tag{5} \] 更深入的阐释可在附录 E.2 中找到。

  • 一致性:当 \(r\) 保持不变时,D-CPT 定律应简化为 Chinchilla 尺度定律。这样,D-CPT 定律不仅继承了 Chinchilla 比例定律的优秀特性,还能解决第 2 节中讨论的资源分配问题。

为了满足上述需求,我们在第 4.2 节中对多种参数化表示进行了比较,最终确定了我们提出的参数化形式如下: \[ L(N,D,r)=E+\frac{A}{N^\alpha}+\frac{B \cdot r^\eta}{D^\beta}+\frac{C}{r'^{\gamma}},\space \rm{where} r'=r+\epsilon \tag{6} \] 在公式 (6) 中,参数集合 \(\{E,A,B,C,\alpha,\beta,\gamma,\eta,\epsilon\}\) 是通过使用 L-BFGS 算法拟合 D-CPT 定律得到的,该算法适用于处理大规模优化问题。如第 4.2 节所述,公式 (6) 能够精确拟合不同规模数据点的趋势,并在有效性和泛化能力方面展现出卓越的性能。此外,该公式有效地满足了前述的四个基本要求。有关数学推导的更多细节,请参考附录 E.3。

3.2 跨域 D-CPT 定律

在进行了 D-CPT 定律的单领域实验之后,我们还进一步探讨了跨域场景,并将 D-CPT 定律扩展至跨域D-CPT定律,目的是显著降低 D-CPT 定律的训练成本。具体而言,尽管 D-CPT 定律通过使用小型语言模型(LLM)来收集数据点,但所需的 GPU 资源和时间成本仍然较为可观,这在一定程度上限制了尺度定律的应用范围。因此,在我们的跨域 D-CPT 定律研究中,我们首先为每个领域定义了特定的可学习系数(DLC)\(K\)1,该系数表征了特定领域的可学习性(详细内容请参见第4.4节)。接着,我们将 \(K\) 整合进 D-CPT 定律中,从而得到了跨域 D-CPT 定律,其定义如下: \[ K=\frac{w_1}{k_1}+w_2\times k_2\tag{9} \] 在此公式中,\(w_1\)\(w_2\) 是拟合参数,\(k_1\) 代表未见域的初始验证损失,而 \(k_2\) 则表示验证损失的下降速率。

4 实验

4.1 实验设置

数据设置

为了验证 D-CPT 定律和跨领域 D-CPT 定律的有效性和普遍性,我们已经准备了 6 个不同的下游领域,包括 Code,Math,Law,Chemistry,Music 和 Medical。这些训练数据集中的所有 tokens 都是充分的,因此实验并不是在数据受限的条件下进行的。此外,我们还为每个领域构建了一个高质量的外部验证集。(更多详情请参见附录 F.1。)

模型设置

我们选取了Qwen-1.5 系列模型,这是因为其在英语和中文场景中均展现出了稳定的性能表现。此外,Qwen-1.5 系列提供了多个开源且性能优异的预训练基础模型。具体而言,我们采用了 Qwen-1.5-0.5B、Qwen-1.5-1.8B 以及 Qwen-1.5-4B 这三个模型作为我们的基础模型,以针对多个下游领域进行持续的预训练任务。

表 1:六个领域的五个参数化的平均性能。“G” 和 “D” 表示通用域和下游域。所有域的详细结果如附录 J 所示。

训练设置

我们借鉴了 Chinchilla 模型的方法,通过固定模型大小并调整训练 token 的数量来收集数据点。具体操作上,我们每隔 1,000 个训练步2对验证损失进行一次测试,总训练步数设定为 20,000 步。在此基础上,我们构建了 9 组通用语料库与领域语料库的混合比例,分别为:\(\{0:10, 1:9, 2:8, 3.3:6.7, 5:5, 6.7:3.3, 8:2, 9:1, 10:0\}\)。需要指出的是,所有实验均采用了相同的学习率计划(相关超参数设置可在附录F.2中查阅)。

评估

沿袭先前研究者的方法,我们将验证损失作为衡量模型性能的关键指标。在比较不同参数化方法时,我们采用了 \(R^2\) 系数和 Huber 损失作为评估标准。具体而言,\(R^2\) 系数,即相关系数,用于衡量拟合优度,其值通常介于 0 到 1 之间,数值越高说明回归模型对数据的解释能力越强。另外,Huber 损失是一种结合了均方误差和平均绝对误差特性的损失函数,特别适用于处理含有异常值的数据集。在评估不同参数化方法的拟合质量时,Huber 损失同样被采用,其中更低的 Huber 损失值意味着更好的拟合性能。

4.3 D-CPT 定律

在 3.1 中,一个理想的参数化应该满足四个要求(即适应性、显性趋势、隐性趋势和一致性),我们定义了以下五种参数化方法: \[ \left\{ \begin{align} & L_1 = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + \frac{C}{r'^{\gamma}} \\ & L_2 = E + \frac{A}{N^{\alpha}} + \Big(\frac{B}{D^{\beta}} + \frac{C}{r'^{\gamma}}\Big)^{\eta} \\ & L_3 = E + \frac{A}{N^{\alpha}} + \frac{Br^{\eta}}{D^{\beta}} + \frac{C}{r'^{\gamma}} \\ & L_4 = E + \frac{A}{N^{\alpha}} + \frac{B\cdot b^{r}}{D^{\beta}} + \frac{C}{c^{r}} \\ & L_5 = E + \frac{A}{N^{\alpha}} + \frac{B}{(rD+(1-r)\sigma)^{\beta}} \end{align} \right. \] 在此,\(\{N,D,r\}\) 代表变量,而其他字母所表示的则是通过 L-BFGS 算法优化得到的拟合参数,它们与 Chinchilla 尺度定律中的参数设定保持一致。

有效性验证

如表1所示,我们展示了五种不同参数化方法在性能上的表现。在有效性验证环节中,我们利用全部数据点进行拟合,以检验各参数化方法的有效性。从表1中可以看出,尽管 \(L_5\) 的拟合参数数量最少,但其性能显著不及其他方法。\(L_1\)\(L_4\) 虽然拟合参数较少,但性能仍不及 \(L_2\)\(L_3\)。此外,\(L_1\) 未能满足隐性趋势的要求,而 \(L_4\) 则未能满足显性趋势的要求。最终,\(L_2\)\(L_3\) 的性能相当,但 \(L_2\) 未能满足一致性要求。因此,我们选择 \(L_3\) 作为 D-CPT 定律的参数化方法。此外,如图 3 所示,在不同的数据集大小、混合比例、模型大小及领域情况下,\(L_3\) 展现出了稳定且有效的性能。

模型大小泛化能力

我们的主要实验关注了三种模型大小:0.5B、1.8B和4B。我们采用 3-fold 交叉验证来评估 D-CPT 定律在模型大小上的泛化能力,并在表 2 中展示了不同领域的平均实验结果。例如,我们将 D-CPT 定律拟合于 0.5B 和 1.8B 的数据点,并评估其在 4B 模型上的 Huber 损失和 \(R^2\) 系数。根据表 2 的数据,我们可以看到 D-CPT 定律在不同模型大小上具有良好的泛化能力,且 \(L_3\) 表现最佳。此外,我们还对未曾使用的 7B 模型大小(即 Qwen-1.5 7B)进行了实验,如图 4 所示,当通用语料库混合比例为 0.2 时,D-CPT 定律能够准确预测通用语料库的验证损失。

图 3:D-CPT定律(\(L_3\))的有效性展示。

(左两图):展示了不同模型大小 \(N\) 条件下,代码领域的通用语料库验证损失 \(L_g\) 随数据集大小 \(D\) 的变化情况,其中通用语料库混合比例 \(r_g\) 固定为 0.5。

(右两图):展示了不同模型大小 \(N\) 条件下,代码领域的领域语料库验证损失 \(L_d\) 随数据集大小 \(D\) 的变化情况,其中领域语料库混合比例 \(r_d\) 固定为 0.5。

数据集大小泛化能力

本实验的主要范围覆盖了从 0.1B 至 26B token 的数据集大小,并采用了 3-fold 交叉验证技术。数据点被均匀划分为三个部分,其中三分之二用于模型拟合,剩余三分之一用于测试。如表 3 所示,我们展示了跨领域的平均实验结果,并发现 \(L_3\) 在数据集大小泛化能力方面取得了显著进步。

混合比例泛化能力

我们在多种参数配置下实施了 k-fold 交叉验证。具体而言,我们从 9 个混合比例中选取 7 个进行模型拟合,剩余的比例用于测试,每个领域进行了 36 组实验。为简洁起见,表 4 中呈现了跨领域的平均结果,其中 \(L_3\) 在混合比例泛化能力方面依旧展现出了卓越的性能。另外,如图 1 所示,我们的 D-CPT 定律在未曾见过的混合比例上亦表现出了良好的泛化性。

图 4:\(L_g\)\(D\) 的变化,领域语料是代码,\(r_g=0.2\)\(N=7B\)

表 2:模型大小泛化能力

表 3:数据集大小泛化能力

表 4:混合比例泛化能力

4.3 D-CPT 定律的应用

应用 1:通用和特定领域能力之间的权衡

在 D-CPT 模型中,训练数据集由通用数据和特定领域数据混合而成,其中 \(r_g\)\(r_d\) 分别代表这两种数据的混合比例。根据 D-CPT 定律,随着 \(r_g\) 的增加,通用语料库的验证损失 \(L_g\) 会减小,而领域语料库的验证损失 \(L_d\) 会增加,这反映了预训练语言模型(LLM)在通用能力和领域特定能力之间的权衡。幸运的是,D-CPT 定律能够在任何权衡状态下识别出最优的混合比例。具体而言,我们假设一个初始参数大小为 \(N_0\) 的 LLM,在继续预训练之前,其在通用语料库上的验证损失为 \(L^0_g\),在领域语料库上的验证损失为 \(L^0_d\)。在将 \(D_0\) 大小的训练数据与 \(r_d\) 的领域特定数据和 \(1-r_d\) 的通用数据混合后,我们得到通用语料库的验证损失 \(L_g\) 和领域语料库的验证损失 \(L_d\)。接下来,我们可以通过以下方式确定最优混合比例,同时确保模型通用能力的下降不超过阈值 \(T\)\[ \mathop{\mathrm{argmin}}\limits_{r_{d}} \ L_{d}(N=N_0, D=D_0, r_d) \quad \mathrm{s.t.} \quad \frac{L_g-L^0_g}{L^0_g} < T \tag{10} \] 其中,\(T\) 是一个根据实际需求设定的阈值。在附录 G.1 中,我们设定一个固定的 \(T\) 值,从而得到唯一的最优解 \(r_d\)。为了在实际场景中验证这一结论,我们应用了 D-CPT 定律,在数据集大小 \(D_0=10B\)、模型大小\(N_0=1.8B\)\(T=3\%\),领域语料库为化学以及初始通用验证损失值 \(L^0_g=2.8602\) 的情况下,计算得到最佳的领域语料库混合比例 \(r_d=0.924\)。表 5 展示了在不同领域语料库混合比例下实际通用语料库验证损失和领域语料库验证损失的结果,我们发现实际值与预测值完全吻合(\(L_{g\_pred}=2.9458\)\(L_{d\_pred}=1.7284\)),表明当领域语料库混合比例超过 0.924 时,通用验证损失将超过 \(L^0_g\) 的 3% 阈值。

表 5:在应用 1 的实验中,实际 \(L_g\)\(L_d\) 相对于 \(r_d\) 的关系

应用 2:有限领域语料的最优配比

鉴于领域语料库通常与通用语料库相比更为有限,我们研究了在领域语料库相对有限而通用语料库充足的情况下,如何确定最佳的领域语料库与通用语料库的混合比例。具体而言,对于一个参数规模为 \(N_0\) 且领域语料库大小为 \(D^{0}_{d}\) 有限的 LLM,我们的目标是通过选择最佳的领域语料库混合比例 \(r_d\),来最小化领域语料库的验证损失 \(L_d\)\[ \mathop{\mathrm{argmin}}\limits_{r_{d}} \ L_{d}(N=N_0, D, r_d) \quad \mathrm{s.t.} \quad D_d=D^0_d \tag{11} \] 在公式 (11) 中,我们发现在 \(0 < r_d < 1\) 的范围内可以实现最小值,这一点在附录 G.2 中进行了详细讨论。为了在实际场景中验证这一发现,我们在音乐领域进行了实验,设定模型参数 \(N_0 = 1.8B\),特定领域的数据集大小 \(D_d = 5B\)。由于我们拥有大量数据点,我们仅使用 \(D_d < 2B\) 的数据来拟合 D-CPT 定律,以符合实际应用场景。应用 D-CPT 定律后,我们发现最佳的领域语料库混合比例是 0.732。表 6 展示了音乐领域的实际领域语料库验证损失结果。我们观察到当 \(r_d = 0.732\) 时,领域语料库验证损失达到最低。此外,当 \(r_d = 0.732\) 时,我们预测的领域语料库验证损失为 0.7328,这与实际值(0.7309)非常接近。

表 6:当固定数据集大小 \(D_d\) 为5B时,真实领域语料验证损失相对于 \(r_d\) 的变化情况

应用 3:资源分配

D-CPT 定律在资源分配方面与 Chinchilla 尺度定律保持一致,尤其是在固定混合比例的条件下。具体而言,这涉及如何在给定的计算预算内确定模型大小 \(N\) 和数据集大小 \(D\) 的最佳组合。详细的结果在附录 G.3 中进行了展示。

4.4 跨领域 D-CPT 定律

在 3.2 节中,我们讨论了特定领域的可学习性,该可学习性由 DLC(即K)来度量。对于跨域 D-CPT 定律,K必须满足三个关键要求:可访问性、差异性和鲁棒性。基于这些要求,我们定义了四种不同的 K 表示: \[ \left \{ \begin{align} & K_1 = \frac{w_1}{k_1} \\ & K_2 = w_2 \times k_2 \\ & K_3 = \frac{w_1}{k_1} + w_2 \times k_2 \\ & K_4 = \frac{w_1}{k_1} + w_2 \times k_2 + \frac{w_3}{k_3}\\ \end{align} \right. \tag{12} \] 其中,\(\{w_1, w_2, w_3\}\) 是拟合参数。在接近初始点的验证损失函数的泰勒级数展开中,\(\{k_1, k_2, k_3\}\) 分别代表了前三个系数。由于实际场景中数据点是离散的,\(\{k_1, k_2, k_3\}\) 通过使用验证损失的近似变体进行估计。具体而言,\(k_1\) 表示初始点处的验证损失的精确值,\(k_2\) 表示接近初始点的验证损失的变化率,而 \(k_3\) 是初始点附近验证损失的二次导数的近似值。更详细的信息可在附录 H 中找到。为了比较这四种 \(K\) 表示,我们在有效性和泛化性方面进行了实验。

有效性

我们利用来自六个不同领域的数据点对模型进行拟合,并使用 \(R^2\) 系数和 Huber 损失来评估它们的性能。表 7 显示,\(K\) 的这四种表示在通用领域中均产生了相当的结果。然而,在特定领域方面,\(K_1\)\(K_2\) 的表现明显下降。尽管 \(K_4\) 在特定领域方面略优于 \(K_3\) ,但它需要更多的拟合参数。因此,考虑到拟合效率、拟合性能和可访问性的综合考量,我们认为 \(K_3\) 是最佳的选择。为了更直观地展示这些结果,图 5 在不同设置下展示了预测曲线与实际曲线的对比。

图5:跨领域 D-CPT 定律(\(K_3\))的有效性展示。

(左两图):展示了通用语料库验证损失 \(L_g\) 随数据集大小 \(D\) 的变化情况,在不同的模型大小 \(N\) 下,领域语料设定为音乐,通用语料库混合比例 \(r_g\) 为 0.2。

(右两图):展示了领域语料库验证损失 \(L_d\) 随数据集大小 \(D\) 的变化情况,在不同的模型大小 \(N\) 下,领域语料设定为音乐,领域语料库混合比例 \(r_d\) 为 0.8。

表 7:有效性实验中四种表达式的表现

*在拟合参数的数量方面,“+”符号的多少代表了拟合参数的多少,从而反映了拟合效率的高低。其中,“+”越多,拟合参数越多,拟合效率越低;Accessibility 是指 \(K\) 的易用性,“+”越少易用性越高。

泛化能力

在确定 \(K\) 之后,跨领域 D-CPT 定律可以转换为 D-CPT 定律。我们相信,这种转换保留了 D-CPT 定律中关于模型大小、数据集大小和混合比例的一般性。在本节中,我们将重点讨论跨领域 D-CPT 定律的领域一般性。为了评估这一特性,我们使用六个领域中的四个数据点进行拟合,而将剩余的两个领域用于测试。为了简化展示,我们在表 8 中仅列出了 15 种组合的平均结果。在这四种 \(K\) 表示中,\(K_3\) 展现了卓越的性能,进一步证实了其优势。

表 8:领域泛化性

5 相关工作

尺度定律

研究表明,模型的性能与参数数量和训练数据大小之间存在幂律关系,这对于大型语言模型(LLMs)至关重要。这种关系为从小型模型中获取的知识提供了预测结构,用于确定扩展模型时的最有效设置。此外,将扩展定律扩展至自回归生成模型,使其相关性不仅限于文本生成任务,而是覆盖更广泛的应用。近期研究通过使用完整的预训练数据集跨多个时期来探讨数据约束条件下的扩展定律。同时,也有研究关注数据混合对扩展定律的影响,旨在提高大型语言模型预训练的效率。

领域知识继续预训练

领域知识继续预训练旨在继续预训练 LLMs 以使它们适应新领域。例如引入一个用于领域适应性连续预训练的专家架构混合增长方法。研究表明,连续预训练的模型(RoBERTa 和 BERT)在面对下游任务时的灾难性遗忘现象具有鲁棒性。然而,上述工作仅调查了在有限任务上的小编码器-解码器模型。最近研究了不同的预热策略以获得更好的连续预训练结果。

6 结论

本文探讨了领域继续预训练(D-CPT)的扩展定律,这一研究在优化特定下游领域的语言模型(LLM)训练方面取得了显著进展。通过发展和验证 D-CPT 定律,我们能够轻松预测通用和领域特定语料库的最佳混合比例,从而显著减少了之前成本高昂的网格搜索所需的复杂性。此外,我们还拓展了 D-CPT 定律至跨领域设置,并提出了跨领域 D-CPT 定律,进一步降低了为新领域拟合 D-CPT 定律所需的努力。我们还讨论了 D-CPT 定律在三个实际应用场景中的潜力。最后,我们认为我们的 D-CPT 定律是对领域特定连续预训练的定量预测方法的初步探索。随着对数据工程的日益重视,我们期望我们的研究能够促进对该领域进一步的定量研究和理论分析。


  1. 假设 DLC 较低意味着该领域更容易被学习

  2. 训练步数到训练 token 数的换算关系是:\(t\ \mathrm{steps}=t\cdot 64 \cdot 2,048\cdot 10^{-9}\)


【论文翻译】D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models
https://onlyar.site/2024/07/16/NLP-D-CPT-Law-translation/
作者
Only(AR)
发布于
2024年7月16日
许可协议