Curriculum Learning for LLM Pretraining

문제의 배경 — 기존 연구의 한계

대형 언어 모델(LLM) 사전학습은 수백 페타플롭-일(petaflop-day)에 달하는 막대한 계산량을 요구한다. 이 때문에 현대 사전학습은 단일 에포크(single-pass) 방식으로 진행된다 — 수백억 토큰의 거대 코퍼스를 단 한 번만 순회한다. 이 조건에서 데이터를 어떤 순서로 보느냐는 매우 중요하다: 각 샘플이 정확히 한 번만 등장하기 때문이다.

"data ordering is consequential: each sample is encountered exactly once."
데이터 순서는 중요하다: 각 샘플은 정확히 한 번만 등장하기 때문이다.

이러한 상황에서 커리큘럼 학습(curriculum learning)이 주목받았다 — 예제를 구조화된 순서(흔히 쉬운 것 → 어려운 것)로 제시해 학습 과정을 조형하는 방법이다. 직관적으로, 기초 패턴을 먼저 학습한 뒤 복잡한 패턴으로 넘어가는 것이 효율적일 수 있다.

문제 1 실험 결과가 엇갈린다. 일부 연구는 고정 계산 예산에서 성능 향상을 보고하지만(Fan & Jaggi, 2023), 다른 연구는 스케일이 커질수록 효과가 희박해진다고 보고한다(Campos, 2021). 어떤 조건에서 커리큘럼이 도움이 되는지 명확하지 않다.

문제 2 커리큘럼이 무엇을 바꾸는지 모른다. 커리큘럼이 모델 내부의 학습 궤적(latent trajectory) 자체를 바꾸는 것인지, 아니면 단순히 각 단계에서 어떤 데이터를 보느냐를 바꿀 뿐인지 구분되지 않았다.

문제 3 소프트맥스 병목(softmax bottleneck)의 상호작용. 소형 모델은 저랭크(low-rank) 출력 헤드가 고랭크 언어 분포를 표현하지 못하는 구조적 한계를 갖는다. 훈련 후반에 이 불일치가 성능 저하를 유발할 수 있으나, 데이터 순서와의 상호작용은 최종 손실이나 벤치마크 정확도만으로는 관측되지 않는다.

보충 소프트맥스 병목이란: 출력 헤드가 r차원 표현을 어휘 크기 V의 분포로 매핑할 때, 최적 행렬 W*의 랭크가 r보다 훨씬 크면 저랭크 근사 Wᵣ이 필연적으로 근사 오차를 갖는다. 이 오차는 버려지는 특이값 에너지 Σᵢ₌ᵣ₊₁ σᵢ²에 의해 하한이 주어진다(Godey et al., 2024). 소형 모델일수록 r이 작아 이 병목이 심각해진다.

이 논문의 선택 — 핵심 아이디어와 트레이드오프

이 논문은 커리큘럼 학습을 "초기 학습을 가속"하는 방법이 아니라 "후반 훈련의 불안정성을 예방"하는 안정화 메커니즘으로 재정의한다. 핵심 주장은 다음과 같다:

"curricula help by stabilizing within-phase optimization rather than by creating new phases."
커리큘럼은 새로운 단계를 만드는 것이 아니라, 기존 단계 내 최적화를 안정화함으로써 도움을 준다.

핵심 통찰 모든 데이터 순서는 공통의 잠재 학습 단계(latent phases)를 거친다. 커리큘럼이 달라져도 HMM으로 발견한 학습 단계의 순서는 같다. 커리큘럼은 각 단계 안에서 어떤 데이터를 보느냐를 바꿀 뿐이다.

이론적 근거 난이도 페이싱이 기울기 분산을 제어한다 (Theorem 3.2). 쉬운 예제 먼저 → 기울기 분산 낮게 유지 → SGD 안정성 반지름 (stability radius) 확보.

커리큘럼 학습 메커니즘 개요

무엇을 얻고, 무엇을 포기했는가

얻은 것 소형 모델(≤160M)에서 훈련 후반 기울기 노이즈 감소, 스펙트럼 포화(singular entropy 증가) 억제, 매칭된 계산 예산에서 정확도 향상.

포기한 것 (트레이드오프) 대형 모델(410M+)에서는 커리큘럼 효과가 사라지고 Random 순서가 비슷하거나 더 나은 성능을 보인다. 커리큘럼은 모든 규모에서 보편적으로 효과적이지 않다.

방법론

커리큘럼 설계 — 세 가지 언어학적 난이도 지표

각 커리큘럼은 모든 샘플에 스칼라 점수를 부여하고 오름차순으로 정렬한다 (쉬운 것 → 어려운 것). 세 가지 지표는 모두 계산이 저렴하고 샘플 손실(loss)과 양의 상관관계를 가진다.

보충 이상적 난이도(ideal difficulty)는 최적 모델 θ*에서의 손실 Ψᵢ = ℓ(θ*, zᵢ)로 정의된다(Hacohen & Weinshall, 2019). 그러나 이를 대규모에서 계산하는 것은 불가능하므로, 이 논문은 세 가지 언어학적 지표를 대리 지표(proxy)로 사용한다.

① Age-of-Acquisition (AoA)

\[ \text{Score}_{\text{AoA}}(S) = \frac{1}{N} \sum_{i=1}^{N} \text{AoA}(w_i) \]

변수	의미	비고
`S`	2048-토큰 학습 샘플 (역토크나이즈 후 단어 시퀀스)	Pythia 파이프라인 기준
`N`	샘플 내 단어 수	길이 편향 보정
`AoA(wᵢ)`	단어 wᵢ가 전형적으로 습득되는 나이 (년)	Kuperman et al. 2012, 30,000 영어 단어

직관적 해설

어린 아이가 먼저 배우는 단어일수록(낮은 AoA) 더 기본적인 언어 패턴을 담고 있다. AoA가 낮은 샘플(간단한 단어 → 쉬운 개념)부터 시작해 AoA가 높은 샘플(늦게 습득하는 단어 → 복잡한 개념)로 진행. 모델 손실과의 상관계수: 평균 0.616.

왜 이 지표인가

언어 습득 순서는 인간이 언어를 배우는 자연스러운 순서를 반영한다. 기초 어휘(집, 엄마, 먹다)는 낮은 AoA를 가지며, 전문 용어(알고리즘, 분광학)는 높은 AoA를 가진다. 1/N 정규화로 샘플 길이의 영향을 제거한다. 단, 코드나 숫자 등 AoA 사전에 없는 토큰은 기본값을 받는다.

② Word Frequency (Zipf 척도)

\[ \text{Score}_{\text{Freq}}(S) = \frac{1}{N} \sum_{i=1}^{N} \text{Zipf}(w_i) \]

변수	의미	비고
`Zipf(wᵢ)`	SUBTLEX-US 기반 Zipf 척도 단어 빈도	Brysbaert & New 2009 / Van Heuven et al. 2014

직관적 해설

Zipf 척도는 1(매우 드문 단어) ~ 7(매우 흔한 단어) 범위. 오름차순 정렬이므로 낮은 Zipf(희귀 단어, 전문 용어)가 먼저 등장한다. 즉, Frequency 커리큘럼은 저빈도 콘텐츠(코드, 구조화 데이터, 비영어 텍스트)로 시작해 고빈도 자연어로 진행. 모델 손실과의 상관계수: 평균 0.730.

주의할 점 — 역직관적 순서

"쉬운 것 먼저"라고 했지만 낮은 Zipf 빈도는 오히려 어렵고 전문적인 내용(코드 등)을 의미할 수 있다. 실제로 Frequency 커리큘럼의 낮은 분위수(quantile)에는 소스 코드, URL, 비영어 텍스트가 집중되어 있다. 이것이 Frequency 커리큘럼이 특정 구문 능력(한정 범위 등)에서 Random보다 낮은 성능을 보이는 이유와 연결된다.

③ Verb Variation (VV)

\[ \text{Score}_{\text{VV}}(S) = \begin{cases} \dfrac{\text{Unique Verbs}}{\sqrt{\text{Total Verbs}}} & \text{if Total Verbs} \neq 0 \\ 0 & \text{otherwise} \end{cases} \]

변수	의미	비고
Unique Verbs	샘플 내 고유 동사 유형 수	spaCy en_core_web_sm 품사 태깅
Total Verbs	샘플 내 전체 동사 토큰 수 (반복 포함)	—
√Total Verbs	제곱근 조정으로 샘플 길이 효과 완화	Guiraud's Index (1960)

직관적 해설

VV는 동사 유형의 다양성을 측정. 낮은 VV (단순하고 반복적인 동사 구조) 먼저, 높은 VV (다양한 술어-논항 구조)로 진행. 이는 wh-의문문, 사역동사 구문 등 복잡한 구문 구조 학습을 자연스럽게 뒤로 미룬다. 모델 손실과의 상관계수: 평균 0.764 — 세 지표 중 가장 높다.

√ 조정의 이유

단순히 Unique/Total로 계산하면 짧은 샘플(동사 2개 중 2개가 고유 → VV=1.0)이 긴 샘플보다 항상 높은 점수를 받게 된다. √Total을 분모로 사용하면 샘플 길이가 길수록 VV 점수가 감소하는 패널티가 적용되어 길이 편향을 완화한다.

이론적 프레임워크 — 난이도 페이싱과 최적화 안정성

논문은 커리큘럼을 난이도 점수(difficulty score) d와 페이싱 함수(pacing function) p로 구성된 파라미터화된 샘플링 메커니즘으로 모델화한다.

훈련 목적 함수

\[ F(\theta) = \mathbb{E}_{z \sim P}[\ell(\theta, z)] \]

변수	의미	비고
`θ ∈ ℝ^dθ`	모델 파라미터	dθ: 파라미터 수
`z`	데이터 분포 P에서 뽑은 학습 예제	—
`ℓ(θ, z)`	예제별 손실 (언어 모델링 손실)	—
`P`	데이터 분포 (시간에 따라 변할 수 있음: Pₜ)	커리큘럼: Pₜ 변화

직관적 해설

표준적인 경험적 리스크 최소화 설정이다. 커리큘럼의 핵심은 P를 고정하지 않고 학습 진행에 따라 Pₜ를 변화시키는 것이다: 초기에는 쉬운 예제(Peasy)에서만 샘플링하고, 점차 어려운 예제를 포함시킨다. Random 순서는 Pₜ = P (시불변)에 해당한다.

커리큘럼 SGD 업데이트

\[ \theta_{t+1} = \theta_t - \eta g_t, \quad g_t = \nabla_\theta \ell(\theta_t, z_t), \quad z_t \sim P_t \]

변수	의미	비고
`η`	학습률 (상수)	η > 0
`gₜ`	시점 t에서의 확률적 기울기	불편 추정량: E[gₜ\|θₜ] = ∇F(θₜ)
`Pₜ`	시점 t에서의 (시간-변동) 샘플링 분포	커리큘럼 = Pₜ 설계

왜 Pₜ가 중요한가

이 수식에서 Random 순서와 커리큘럼의 유일한 차이는 Pₜ뿐이다. Random: Pₜ ≡ P (모든 t에서 같음). 커리큘럼: Pₜ는 초기에 쉬운 예제에 집중하고 점차 전체 분포로 확장된다. 이 차이가 기울기 분산 σₜ²에 영향을 주고, 이것이 다시 최적화 안정성에 영향을 준다.

기울기 노이즈 척도 (Gradient Noise Scale, GNS)

\[ \mathcal{B} = \frac{\text{tr}(\Sigma)}{\|G\|_2^2}, \quad G = \mathbb{E}[g_t|\theta_t], \quad \Sigma = \text{cov}(g_t|\theta_t) \]

변수	의미	비고
`G`	진짜(true) 기울기 = ∇F(θₜ)	신호(signal)
`Σ`	확률적 기울기의 공분산	잡음 구조
`tr(Σ)`	총 기울기 분산 (공분산 행렬의 대각합)	총 노이즈 에너지
`‖G‖²₂`	진짜 기울기의 제곱 크기	신호 강도

직관적 해설

GNS는 확률적 기울기의 신호 대 잡음비(SNR)의 역수다. B가 크면 → 배치 간 기울기 방향이 불일치 → 비효율적 최적화. B가 작으면 → 배치 간 기울기가 일관적 → 효율적 최적화. McCandlish et al.(2018)이 정의한 이 척도는 "임계 배치 크기(critical batch size)"와도 연결된다.

커리큘럼과의 연결

샘플링 분포 Pₜ의 유효 기울기 분산이 σₜ²이면, Bₜ ∝ σₜ²/‖Gₜ‖². 커리큘럼이 σₜ²를 제어하면 GNS가 변한다. 이 논문의 예측: 커리큘럼 순서는 Random보다 GNS가 낮을 것 — 특히 훈련 후반 어려운 예제가 많이 등장할 때. 실험(§5)에서 확인된다.

Theorem 3.2 — 커리큘럼과 SGD 안정성

\[ \sigma_{\text{stab}}^2(R) = \frac{\mu}{\eta} R^2, \quad \sup_t \sigma_t^2 \leq \sigma_{\text{stab}}^2(R) \implies \sup_t \mathbb{E}\|\theta_t - \theta^*\|_2^2 \leq R^2 \]

변수	의미	비고
`R`	목표 안정성 반지름	θ*로부터의 최대 거리
`μ`	F의 강볼록성(strong convexity) 상수	F가 μ-강볼록
`η`	학습률, η ∈ (0, 1/L]	L: Lipschitz 상수
`σₜ²`	시점 t에서의 유효 기울기 분산	커리큘럼이 제어하는 대상

직관적 해설

이 정리의 핵심: 기울기 분산을 σ²_stab 이하로 유지하면, SGD 반복은 θ*에서 반지름 R 이내에 머문다. Random 순서에서는 학습 후반에 αₜ(쉬운 예제 기여 비율)가 감소하면서 σₜ²가 σ²_hard(어려운 예제 분산)에 수렴 → σ²_hard > σ²_stab이면 안정성 반지름이 R²_unif = (η/μ)σ²_hard > R²로 커진다. 커리큘럼은 페이싱 함수로 σₜ²를 Tstab 동안 σ²_stab 이하로 유지한다.

가정과 한계 [Appendix 부연]

이 결과는 μ-강볼록, L-Lipschitz 기울기, 불편 기울기, 유계 분산이라는 표준 볼록 최적화 가정 하에서 성립한다. 딥 네트워크는 비볼록이므로 이 가정들이 정확히 성립하지 않는다. 논문은 이를 명시적으로 인정하며: "Although these assumptions are not exact for deep networks, they clarify the mechanisms we measure in §5." 즉, 이 이론은 관측된 현상을 설명하는 이상화된 분석틀이다.

특이 엔트로피 (Singular Entropy) — 스펙트럼 포화 진단

\[ H_{\text{sing}}(W) = D_{\text{KL}}(p \| U) = \sum_{i=1}^{r} p_i \log(r \cdot p_i), \quad p_i = \frac{\sigma_i}{\sum_j \sigma_j} \]

변수	의미	비고
`W`	언어 모델링 헤드 행렬 (출력 선형 레이어)	W ∈ ℝᵛˣʳ
`σᵢ`	W의 i번째 특이값	정규화: pᵢ = σᵢ/Σσⱼ
`U`	r 성분에 대한 균등 분포	최대 엔트로피 기준
`r`	출력 헤드의 랭크 (표현 차원)	r ≪ V이면 소프트맥스 병목

직관적 해설

H_sing = 0: 모든 특이값이 균등 → 출력 헤드가 표현 공간을 골고루 활용 (건강한 상태). H_sing 증가: 특이값이 소수에 집중 → 스펙트럼이 "뾰족(spiked)" → 출력 헤드가 표현 공간을 비효율적으로 활용 → 포화(saturation). 소형 모델(≤160M)에서 Random 순서는 훈련 후반에 H_sing이 급격히 상승 → 성능 저하와 일치. 커리큘럼 순서는 낮은 H_sing을 유지한다.

소프트맥스 병목과의 연결 [Appendix 부연]

Lemma A.1 (Godey et al., 2024): 랭크가 최대 r인 출력 헤드는 최적 헤드 W*와 비교해 최소 손실 갭 Σᵢ₌ᵣ₊₁ σᵢ²을 갖는다. r이 W*의 고유 랭크보다 훨씬 작으면 이 갭이 크다. H_sing은 이 스펙트럼 구조가 훈련 중 어떻게 변화하는지 추적하는 진단 도구다.

페이싱 함수 (Pacing Function) 인터랙티브

페이싱 함수 p(t)는 훈련 진행도 t ∈ [0,1]에서 최대 허용 난이도를 결정한다. 선형 페이싱: p(t) = d_min + t(d_max - d_min). 아래에서 다양한 스케줄을 확인하라.

페이싱 타입: 선형

x축: 훈련 진행도 t (0→1), y축: 노출되는 최대 난이도 p(t). 음영 영역: 해당 시점에서 샘플링 가능한 데이터 범위.

HMM 기반 학습 단계 분석

집합 수준 지표(final loss, benchmark accuracy)는 훈련 중 내부 상태 변화를 은닉한다. 이 논문은 HMM을 훈련 궤적에 적합시켜 이산적인 잠재 학습 단계(latent phases)를 추출한다.

단계 1 / 5

단계 설명이 여기에 표시됩니다.

구현 세부사항

Pythia 데이터 처리 파이프라인을 따른다: The Pile의 문서를 2048-토큰 고정 길이 샘플로 분할/연접(sequence packing). 이 샘플 집합을 고정하고 오직 순서만 바꿔 순서의 영향만을 격리한다.

항목	설정값	비고
모델	Pythia 14M, 31M, 70M, 160M, 410M, 1B	표준 아키텍처 및 로깅
학습 데이터	The Pile (800GB)	300B 토큰, 단일 에포크
시퀀스 길이	2048 토큰	Sequence packing (Raffel et al., 2020)
커리큘럼	AoA, Frequency, VV, Random	오름차순 정렬
체크포인트	20B, 60B, 300B 토큰	HMM 관측 지표: 14개
HMM 상태 수	5	BIC 기준 최적, 순서 간 공동 학습
난이도-손실 상관	VV: 0.76, Freq: 0.73, AoA: 0.62	평균, 모델 크기별 표 참조
언어 특징 추출	LFTK 툴킷 + spaCy en_core_web_sm	AoA: Kuperman; Freq: SUBTLEX-US
GPU (14M/31M)	64× 2080Ti	14M: 860 GPU-시간, 31M: 1,170
GPU (70M–410M)	16× A100 80GB	70M: 530h, 160M: 1,140h, 410M: 2,730h
GPU (1B)	A100	5,700 GPU-시간 (Random + VV만)
재현성	Seed 1234 (기본), 14M/31M: 3 seed	코드·데이터·체크포인트 공개 예정

결과 — 수치 비교 & 시각화

+9pp

wh-의문문 정확도 향상

VV vs Random (14M–410M 평균)

≤160M

커리큘럼 효과 유의미한 규모

GNS & 특이 엔트로피 차이 존재

410M+

Random이 최고 성능

커리큘럼 효과 희박

제로샷 벤치마크 정확도 (Table 1)

8개 벤치마크(ARC-E, ARC-C, PIQA, SciQ, LogiQA, Lambada, WinoGrande, WSC)의 평균. 어떤 단일 순서도 모든 규모에서 지배적이지 않음.

규모	순서	ARC-E	ARC-C	PIQA	SciQ	Lambada	평균
14M	최고 Frequency	32.7	17.2	55.9	51.0	10.2	37.7
	AoA	32.9	17.7	56.3	50.9	9.7	36.3
	VV	32.4	18.2	55.9	51.8	11.1	36.3
	최저 Random	31.5	18.0	55.4	41.8	5.9	35.7
70M	최고 VV	41.7	17.3	59.6	73.6	27.3	41.1
	AoA	39.5	18.3	58.9	68.7	23.6	39.6
	Frequency	39.4	19.0	59.3	67.0	20.7	39.2
	최저 Random	38.1	17.7	59.7	64.5	20.4	39.0
410M	최고 Random	51.9	21.2	66.8	80.9	51.5	51.0
410M	VV	50.8	21.0	67.5	82.0	50.5	47.9
1B	최고 Random	56.9	24.3	70.7	84.0	56.2	50.5
1B	VV	55.3	23.7	69.6	85.3	55.1	50.1

모델 규모별 평균 정확도 비교 (Chart)

14M–160M에서는 커리큘럼(특히 VV)이 Random보다 우세. 410M에서는 Random이 역전. 이는 모델 용량이 충분해지면 소프트맥스 병목이 완화되어 데이터 순서의 영향이 줄어들기 때문.

기울기 노이즈 척도(GNS) — 규모별 패턴

소형 모델(14M–70M)에서 Random 순서는 커리큘럼보다 높은 GNS를 보인다. 대형 모델(160M–410M)에서는 이 차이가 좁아진다. 아래는 모식적 GNS 궤적이다 (논문 Figure 3 기반).

실선: 14M 모델, 점선: 410M 모델. 14M에서 Random의 GNS가 훈련 후반에 급격히 상승하는 반면, VV는 낮은 수준을 유지. 410M에서는 두 순서의 차이가 거의 없음.

BLiMP 구문 능력 — 순서별 차이 (Appendix B)

집합 평균이 비슷하더라도 개별 구문 능력에서는 큰 차이가 나타난다. 아래는 14M–410M 평균 기준 주요 구문 현상.

구문 현상	최고 순서	최저 순서	평균 차이	해석
wh-의문문 목적어 간격	VV	Random	+≈9pp	VV가 동사 다양성 → 채움어-간격 구문 일찍 노출
사역 구문 (Causatives)	VV	Random	+≈4–5pp	논항 구조 다양성 → 사역 교체 학습 향상
상위격 한정사 (Superlative quantifiers)	Random	Frequency	–≈14pp	Frequency가 자연어 컨텍스트를 늦게 노출 → 한정 범위 학습 저하
Only-NPI 범위	Random	Frequency	–≈4pp	—

한계점 & 트레이드오프

한계 1 고정 샘플 집합 가정. 이 연구는 2048-토큰 샘플 집합을 고정하고 순서만 바꾼다. 시퀀스 패킹(sequence packing) 자체, 문서 그룹화, 청킹 방법을 난이도 기반으로 설계하는 방향은 탐색되지 않았다.

difficulty-aware sequence packing document grouping pretraining

한계 2 대규모 모델 및 다양한 데이터셋 일반화 불확실. 단계 조건부 안정성 효과가 더 큰 모델(1B 이상)이나 다른 데이터셋·커리큘럼 전략에서도 나타나는지 불명확하다.

curriculum learning large scale

한계 3 구문 능력의 이질적 효과. BLiMP 결과(§5)는 순서별 효과가 구문 현상에 따라 매우 다르다는 것을 보여준다. 어떤 언어 구조가 어떤 순서에서 이익을 얻는지 이해하지 못하면 커리큘럼 설계를 목표화하기 어렵다.

BLiMP syntactic evaluation targeted curriculum design

한계 4 영어 중심 어휘 자원. AoA와 Frequency 지표는 영어 어휘 데이터베이스에 기반한다. 코드, 숫자, 비영어 텍스트를 포함하는 The Pile에서는 일부 토큰이 사전 범위를 벗어나 기본값을 받는다. 다국어, 멀티모달 데이터에 이 접근법을 확장하려면 새로운 난이도 지표가 필요하다.

multilingual curriculum LLM

평가 이 연구의 가장 실질적인 제약은 이론과 실험의 규모 간격이다. Theorem 3.2는 μ-강볼록 가정 하에 성립하지만, 실제 LLM 학습은 비볼록이다. 410M–1B에서 관측된 커리큘럼 효과 소멸이 이론적으로 예측 가능한 범위인지, 아니면 더 근본적인 메커니즘 변화인지는 후속 연구가 필요하다.

영향력 & 후속 연구

이 논문의 실용적 지침: 커리큘럼은 모델 용량이 제약되고 후반 포화가 우려될 때 가장 가치 있다. 충분한 용량이 확보된 대형 모델에서는 Random 순서가 비교할 만한 성능을 보인다.

실용적 시사점 1 하이브리드 커리큘럼. 단계 소속(phase membership)이나 스펙트럼 진단(특이 엔트로피)을 실시간 모니터링해 포화 시작점을 감지하고 그에 맞춰 데이터 난이도를 동적으로 조정한다.

실용적 시사점 2 k-단계 커리큘럼. 완전 정렬(fully sorted)이 아닌 소수의 난이도 구간으로 나누면 분산 파이프라인에서 구현이 더 쉽다.

실용적 시사점 3 도메인·믹스처 인식 난이도 점수. 현대 사전학습 믹스처는 이질적 도메인을 포함한다. 도메인이나 믹스처 구성을 반영한 난이도 점수가 필요하다 (예: DoReMi, Xie et al., 2023).

Q&A — 연구자의 고민과 독자의 질문

Q1. 커리큘럼이 새로운 학습 단계를 만든다면 더 좋지 않을까? 왜 단계를 "바꾸지 않는다"는 게 중요한 발견인가?

만약 커리큘럼이 새로운 단계를 만든다면, 그 효과는 아키텍처나 데이터셋 구성에서 비롯된 것일 수 있다. 그러나 이 연구는 동일한 코퍼스, 동일한 아키텍처, 오직 순서만 다른 통제 설정에서 모든 순서가 공유된 전이 구조(shared transition structure)를 따른다는 것을 보인다. 이는 커리큘럼의 메커니즘을 "단계 내 데이터 노출 조정"으로 명확히 국한하며, 이로부터 실용적 귀결이 따른다: 단계 자체가 아니라 각 단계에서 무엇을 볼 것인가를 최적화해야 한다.

"curricula do not create new phases, but change how training time and data exposure are allocated within shared phases."

Q2. VV(동사 변화)가 왜 wh-의문문 정확도를 9pp 향상시키는가?

VV는 동사 유형 다양성을 측정한다. 낮은 VV(단순 동사 구조)에서 높은 VV(다양한 술어-논항 구조)로 진행하면, 모델은 초기부터 다양한 동사-논항 관계에 노출된다. wh-의문문 목적어 간격(wh-object gap)은 채움어-간격 의존성(filler-gap dependency)과 논항 구조 교체를 모두 요구한다. VV 커리큘럼이 이러한 구조를 초기 단계에 풍부하게 제공함으로써 관련 문법 지식의 학습을 강화한다.

평가 이 설명은 논문이 제시하는 가설적 해석이다. 정확한 인과관계 확인을 위해서는 더 세밀한 프로빙(probing) 실험이 필요하다.

Q3. 대형 모델(410M+)에서는 왜 Random이 더 좋은가?

논문의 가설: 대형 모델은 충분한 표현 용량을 갖고 있어 소프트맥스 병목(softmax bottleneck)이 덜 심각하다. 소형 모델에서 커리큘럼이 억제하는 후반 포화(late-stage saturation)가 대형 모델에서는 발생하지 않거나 미미하다. 따라서 커리큘럼의 안정화 효과가 의미 없어지고, Random의 다양하고 무작위적인 노출이 오히려 더 넓은 분포를 커버하는 이점을 가질 수 있다.

410M에서 Random의 평균 정확도(51.0%)는 커리큘럼 중 최고(VV, Freq: 47.9%)보다 상당히 높다. WSC 벤치마크에서 Random이 60.6%를 기록하는 반면 커리큘럼은 36.5%에 머무는 점이 특히 두드러진다.

Q4. Theorem 3.2의 강볼록 가정은 현실적인가?

현실적이지 않다 — 논문도 이를 명시한다. 딥 네트워크의 손실 함수는 비볼록이며 실제 훈련에서는 강볼록이나 Lipschitz 기울기 조건이 정확히 성립하지 않는다. 그러나 이 정리는 관측된 현상(커리큘럼이 GNS를 낮추고 안정성을 높인다)에 대한 메커니즘 이해를 제공하는 이상화된 분석틀이다. 실험 결과가 이론의 예측 방향과 일치한다는 점에서 이론의 가치가 있다.

"Although these assumptions are not exact for deep networks, they clarify the mechanisms we measure in §5."

Q5. 코드와 체크포인트는 어디서 얻을 수 있는가?

논문은 "Code, data, and checkpoints will be made available"이라고 명시하고 있으나, 아직 구체적인 링크를 제공하지 않는다. arXiv 페이지(2601.21698)나 저자(Mohamed Elgaar, UMass Lowell)의 페이지를 주기적으로 확인하거나, Pythia 공식 GitHub(EleutherAI/pythia)에서 관련 데이터셋과 베이스 모델을 얻을 수 있다.

Q6. 이 결과가 RLHF, 파인튜닝에도 적용되는가?

평가 논문은 이 질문을 다루지 않는다. 그러나 RLHF의 Reward 모델 학습이나 Supervised Fine-tuning(SFT)은 일반적으로 훨씬 적은 토큰으로 이루어지며 멀티 에포크 방식이 흔하다. 이 논문이 다루는 단일 에포크 300B 토큰 사전학습과는 설정이 매우 다르다. 파인튜닝에서의 커리큘럼 효과는 별도의 연구 영역이다.

원본 Figure

논문의 주요 그림을 원본 그대로 제공합니다. 각 Figure의 논문 내 위치와 핵심 포인트를 함께 확인하세요.

**Figure 1** (논문 §1 소개, p.1): 이 연구가 분석하는 메커니즘 개요.
**주목할 포인트:** Random 순서 → 높은 기울기 분산 + 스펙트럼 붕괴 vs. 커리큘럼 → 유계 분산 + 스펙트럼 안정성. 논문 전체 주장의 핵심이 한 그림에 요약되어 있다.

**Figure 2** (논문 §5 결과, p.6): 언어 모델링 헤드의 특이 엔트로피(singular entropy) vs. 학습 스텝.
**주목할 포인트:** ≤160M 모델에서 Random 순서는 훈련 후반에 특이 엔트로피가 날카롭게 상승(스펙트럼 붕괴 신호). 커리큘럼 순서는 낮은 엔트로피를 유지. 410M에서는 차이 최소화. 이것이 스케일 의존성의 핵심 증거다.

**Figure 3** (논문 §5 결과, p.7): 기울기 노이즈 척도(GNS) vs. 학습 스텝, 모델 크기별·순서별.
**주목할 포인트:** 14M–70M에서 Random이 후반에 높은 GNS를 보임. 160M–410M에서는 순서 간 차이가 좁아지고 비일관적. 이론(Theorem 3.2)의 예측과 일치.

**Figure 4** (논문 §5 결과, p.8): 14M 모델의 공유 HMM 상태 전이 다이어그램 + 정확도 궤적.
**주목할 포인트:** (a) 모든 순서의 정확도 궤적이 동일한 HMM 상태로 색칠됨 — 공유 단계 구조 시각적 확인. (b) 상태 전이 다이어그램이 모든 순서에서 공통. 커리큘럼은 단계 순서를 바꾸지 않고 각 단계의 길이와 데이터 노출만 조정한다.

Curriculum Learning for LLM Pretraining:
An Analysis of Learning Dynamics

문제의 배경 — 기존 연구의 한계