커리큘럼 학습은 새로운 학습 단계(phase)를 만들지 않는다 — 이미 존재하는 단계 안에서 어떤 데이터를 보느냐를 바꿀 뿐이며, 그 효과는 소형 모델의 기울기 분산을 줄이는 것에서 비롯된다.
arXiv 2601.21698 →대형 언어 모델(LLM) 사전학습은 수백 페타플롭-일(petaflop-day)에 달하는 막대한 계산량을 요구한다. 이 때문에 현대 사전학습은 단일 에포크(single-pass) 방식으로 진행된다 — 수백억 토큰의 거대 코퍼스를 단 한 번만 순회한다. 이 조건에서 데이터를 어떤 순서로 보느냐는 매우 중요하다: 각 샘플이 정확히 한 번만 등장하기 때문이다.
"data ordering is consequential: each sample is encountered exactly once."데이터 순서는 중요하다: 각 샘플은 정확히 한 번만 등장하기 때문이다.
이러한 상황에서 커리큘럼 학습(curriculum learning)이 주목받았다 — 예제를 구조화된 순서(흔히 쉬운 것 → 어려운 것)로 제시해 학습 과정을 조형하는 방법이다. 직관적으로, 기초 패턴을 먼저 학습한 뒤 복잡한 패턴으로 넘어가는 것이 효율적일 수 있다.
보충 소프트맥스 병목이란: 출력 헤드가 r차원 표현을 어휘 크기 V의 분포로 매핑할 때, 최적 행렬 W*의 랭크가 r보다 훨씬 크면 저랭크 근사 Wᵣ이 필연적으로 근사 오차를 갖는다. 이 오차는 버려지는 특이값 에너지 Σᵢ₌ᵣ₊₁ σᵢ²에 의해 하한이 주어진다(Godey et al., 2024). 소형 모델일수록 r이 작아 이 병목이 심각해진다.
이 논문은 커리큘럼 학습을 "초기 학습을 가속"하는 방법이 아니라 "후반 훈련의 불안정성을 예방"하는 안정화 메커니즘으로 재정의한다. 핵심 주장은 다음과 같다:
"curricula help by stabilizing within-phase optimization rather than by creating new phases."커리큘럼은 새로운 단계를 만드는 것이 아니라, 기존 단계 내 최적화를 안정화함으로써 도움을 준다.
각 커리큘럼은 모든 샘플에 스칼라 점수를 부여하고 오름차순으로 정렬한다 (쉬운 것 → 어려운 것). 세 가지 지표는 모두 계산이 저렴하고 샘플 손실(loss)과 양의 상관관계를 가진다.
보충 이상적 난이도(ideal difficulty)는 최적 모델 θ*에서의 손실 Ψᵢ = ℓ(θ*, zᵢ)로 정의된다(Hacohen & Weinshall, 2019). 그러나 이를 대규모에서 계산하는 것은 불가능하므로, 이 논문은 세 가지 언어학적 지표를 대리 지표(proxy)로 사용한다.
| 변수 | 의미 | 비고 |
|---|---|---|
S | 2048-토큰 학습 샘플 (역토크나이즈 후 단어 시퀀스) | Pythia 파이프라인 기준 |
N | 샘플 내 단어 수 | 길이 편향 보정 |
AoA(wᵢ) | 단어 wᵢ가 전형적으로 습득되는 나이 (년) | Kuperman et al. 2012, 30,000 영어 단어 |
직관적 해설
왜 이 지표인가
| 변수 | 의미 | 비고 |
|---|---|---|
Zipf(wᵢ) | SUBTLEX-US 기반 Zipf 척도 단어 빈도 | Brysbaert & New 2009 / Van Heuven et al. 2014 |
직관적 해설
주의할 점 — 역직관적 순서
| 변수 | 의미 | 비고 |
|---|---|---|
| Unique Verbs | 샘플 내 고유 동사 유형 수 | spaCy en_core_web_sm 품사 태깅 |
| Total Verbs | 샘플 내 전체 동사 토큰 수 (반복 포함) | — |
| √Total Verbs | 제곱근 조정으로 샘플 길이 효과 완화 | Guiraud's Index (1960) |
직관적 해설
√ 조정의 이유
논문은 커리큘럼을 난이도 점수(difficulty score) d와 페이싱 함수(pacing function) p로 구성된 파라미터화된 샘플링 메커니즘으로 모델화한다.
| 변수 | 의미 | 비고 |
|---|---|---|
θ ∈ ℝdθ | 모델 파라미터 | dθ: 파라미터 수 |
z | 데이터 분포 P에서 뽑은 학습 예제 | — |
ℓ(θ, z) | 예제별 손실 (언어 모델링 손실) | — |
P | 데이터 분포 (시간에 따라 변할 수 있음: Pₜ) | 커리큘럼: Pₜ 변화 |
직관적 해설
| 변수 | 의미 | 비고 |
|---|---|---|
η | 학습률 (상수) | η > 0 |
gₜ | 시점 t에서의 확률적 기울기 | 불편 추정량: E[gₜ|θₜ] = ∇F(θₜ) |
Pₜ | 시점 t에서의 (시간-변동) 샘플링 분포 | 커리큘럼 = Pₜ 설계 |
왜 Pₜ가 중요한가
| 변수 | 의미 | 비고 |
|---|---|---|
G | 진짜(true) 기울기 = ∇F(θₜ) | 신호(signal) |
Σ | 확률적 기울기의 공분산 | 잡음 구조 |
tr(Σ) | 총 기울기 분산 (공분산 행렬의 대각합) | 총 노이즈 에너지 |
‖G‖²₂ | 진짜 기울기의 제곱 크기 | 신호 강도 |
직관적 해설
커리큘럼과의 연결
| 변수 | 의미 | 비고 |
|---|---|---|
R | 목표 안정성 반지름 | θ*로부터의 최대 거리 |
μ | F의 강볼록성(strong convexity) 상수 | F가 μ-강볼록 |
η | 학습률, η ∈ (0, 1/L] | L: Lipschitz 상수 |
σₜ² | 시점 t에서의 유효 기울기 분산 | 커리큘럼이 제어하는 대상 |
직관적 해설
가정과 한계 [Appendix 부연]
| 변수 | 의미 | 비고 |
|---|---|---|
W | 언어 모델링 헤드 행렬 (출력 선형 레이어) | W ∈ ℝᵛˣʳ |
σᵢ | W의 i번째 특이값 | 정규화: pᵢ = σᵢ/Σσⱼ |
U | r 성분에 대한 균등 분포 | 최대 엔트로피 기준 |
r | 출력 헤드의 랭크 (표현 차원) | r ≪ V이면 소프트맥스 병목 |
직관적 해설
소프트맥스 병목과의 연결 [Appendix 부연]
페이싱 함수 p(t)는 훈련 진행도 t ∈ [0,1]에서 최대 허용 난이도를 결정한다. 선형 페이싱: p(t) = dmin + t(dmax - dmin). 아래에서 다양한 스케줄을 확인하라.
x축: 훈련 진행도 t (0→1), y축: 노출되는 최대 난이도 p(t). 음영 영역: 해당 시점에서 샘플링 가능한 데이터 범위.
집합 수준 지표(final loss, benchmark accuracy)는 훈련 중 내부 상태 변화를 은닉한다. 이 논문은 HMM을 훈련 궤적에 적합시켜 이산적인 잠재 학습 단계(latent phases)를 추출한다.
Pythia 데이터 처리 파이프라인을 따른다: The Pile의 문서를 2048-토큰 고정 길이 샘플로 분할/연접(sequence packing). 이 샘플 집합을 고정하고 오직 순서만 바꿔 순서의 영향만을 격리한다.
| 항목 | 설정값 | 비고 |
|---|---|---|
| 모델 | Pythia 14M, 31M, 70M, 160M, 410M, 1B | 표준 아키텍처 및 로깅 |
| 학습 데이터 | The Pile (800GB) | 300B 토큰, 단일 에포크 |
| 시퀀스 길이 | 2048 토큰 | Sequence packing (Raffel et al., 2020) |
| 커리큘럼 | AoA, Frequency, VV, Random | 오름차순 정렬 |
| 체크포인트 | 20B, 60B, 300B 토큰 | HMM 관측 지표: 14개 |
| HMM 상태 수 | 5 | BIC 기준 최적, 순서 간 공동 학습 |
| 난이도-손실 상관 | VV: 0.76, Freq: 0.73, AoA: 0.62 | 평균, 모델 크기별 표 참조 |
| 언어 특징 추출 | LFTK 툴킷 + spaCy en_core_web_sm | AoA: Kuperman; Freq: SUBTLEX-US |
| GPU (14M/31M) | 64× 2080Ti | 14M: 860 GPU-시간, 31M: 1,170 |
| GPU (70M–410M) | 16× A100 80GB | 70M: 530h, 160M: 1,140h, 410M: 2,730h |
| GPU (1B) | A100 | 5,700 GPU-시간 (Random + VV만) |
| 재현성 | Seed 1234 (기본), 14M/31M: 3 seed | 코드·데이터·체크포인트 공개 예정 |
8개 벤치마크(ARC-E, ARC-C, PIQA, SciQ, LogiQA, Lambada, WinoGrande, WSC)의 평균. 어떤 단일 순서도 모든 규모에서 지배적이지 않음.
| 규모 | 순서 | ARC-E | ARC-C | PIQA | SciQ | Lambada | 평균 |
|---|---|---|---|---|---|---|---|
| 14M | 최고 Frequency | 32.7 | 17.2 | 55.9 | 51.0 | 10.2 | 37.7 |
| AoA | 32.9 | 17.7 | 56.3 | 50.9 | 9.7 | 36.3 | |
| VV | 32.4 | 18.2 | 55.9 | 51.8 | 11.1 | 36.3 | |
| 최저 Random | 31.5 | 18.0 | 55.4 | 41.8 | 5.9 | 35.7 | |
| 70M | 최고 VV | 41.7 | 17.3 | 59.6 | 73.6 | 27.3 | 41.1 |
| AoA | 39.5 | 18.3 | 58.9 | 68.7 | 23.6 | 39.6 | |
| Frequency | 39.4 | 19.0 | 59.3 | 67.0 | 20.7 | 39.2 | |
| 최저 Random | 38.1 | 17.7 | 59.7 | 64.5 | 20.4 | 39.0 | |
| 410M | 최고 Random | 51.9 | 21.2 | 66.8 | 80.9 | 51.5 | 51.0 |
| VV | 50.8 | 21.0 | 67.5 | 82.0 | 50.5 | 47.9 | |
| 1B | 최고 Random | 56.9 | 24.3 | 70.7 | 84.0 | 56.2 | 50.5 |
| VV | 55.3 | 23.7 | 69.6 | 85.3 | 55.1 | 50.1 |
14M–160M에서는 커리큘럼(특히 VV)이 Random보다 우세. 410M에서는 Random이 역전. 이는 모델 용량이 충분해지면 소프트맥스 병목이 완화되어 데이터 순서의 영향이 줄어들기 때문.
소형 모델(14M–70M)에서 Random 순서는 커리큘럼보다 높은 GNS를 보인다. 대형 모델(160M–410M)에서는 이 차이가 좁아진다. 아래는 모식적 GNS 궤적이다 (논문 Figure 3 기반).
실선: 14M 모델, 점선: 410M 모델. 14M에서 Random의 GNS가 훈련 후반에 급격히 상승하는 반면, VV는 낮은 수준을 유지. 410M에서는 두 순서의 차이가 거의 없음.
집합 평균이 비슷하더라도 개별 구문 능력에서는 큰 차이가 나타난다. 아래는 14M–410M 평균 기준 주요 구문 현상.
| 구문 현상 | 최고 순서 | 최저 순서 | 평균 차이 | 해석 |
|---|---|---|---|---|
| wh-의문문 목적어 간격 | VV | Random | +≈9pp | VV가 동사 다양성 → 채움어-간격 구문 일찍 노출 |
| 사역 구문 (Causatives) | VV | Random | +≈4–5pp | 논항 구조 다양성 → 사역 교체 학습 향상 |
| 상위격 한정사 (Superlative quantifiers) | Random | Frequency | –≈14pp | Frequency가 자연어 컨텍스트를 늦게 노출 → 한정 범위 학습 저하 |
| Only-NPI 범위 | Random | Frequency | –≈4pp | — |
평가 이 연구의 가장 실질적인 제약은 이론과 실험의 규모 간격이다. Theorem 3.2는 μ-강볼록 가정 하에 성립하지만, 실제 LLM 학습은 비볼록이다. 410M–1B에서 관측된 커리큘럼 효과 소멸이 이론적으로 예측 가능한 범위인지, 아니면 더 근본적인 메커니즘 변화인지는 후속 연구가 필요하다.
이 논문의 실용적 지침: 커리큘럼은 모델 용량이 제약되고 후반 포화가 우려될 때 가장 가치 있다. 충분한 용량이 확보된 대형 모델에서는 Random 순서가 비교할 만한 성능을 보인다.
만약 커리큘럼이 새로운 단계를 만든다면, 그 효과는 아키텍처나 데이터셋 구성에서 비롯된 것일 수 있다. 그러나 이 연구는 동일한 코퍼스, 동일한 아키텍처, 오직 순서만 다른 통제 설정에서 모든 순서가 공유된 전이 구조(shared transition structure)를 따른다는 것을 보인다. 이는 커리큘럼의 메커니즘을 "단계 내 데이터 노출 조정"으로 명확히 국한하며, 이로부터 실용적 귀결이 따른다: 단계 자체가 아니라 각 단계에서 무엇을 볼 것인가를 최적화해야 한다.
"curricula do not create new phases, but change how training time and data exposure are allocated within shared phases."
VV는 동사 유형 다양성을 측정한다. 낮은 VV(단순 동사 구조)에서 높은 VV(다양한 술어-논항 구조)로 진행하면, 모델은 초기부터 다양한 동사-논항 관계에 노출된다. wh-의문문 목적어 간격(wh-object gap)은 채움어-간격 의존성(filler-gap dependency)과 논항 구조 교체를 모두 요구한다. VV 커리큘럼이 이러한 구조를 초기 단계에 풍부하게 제공함으로써 관련 문법 지식의 학습을 강화한다.
평가 이 설명은 논문이 제시하는 가설적 해석이다. 정확한 인과관계 확인을 위해서는 더 세밀한 프로빙(probing) 실험이 필요하다.
논문의 가설: 대형 모델은 충분한 표현 용량을 갖고 있어 소프트맥스 병목(softmax bottleneck)이 덜 심각하다. 소형 모델에서 커리큘럼이 억제하는 후반 포화(late-stage saturation)가 대형 모델에서는 발생하지 않거나 미미하다. 따라서 커리큘럼의 안정화 효과가 의미 없어지고, Random의 다양하고 무작위적인 노출이 오히려 더 넓은 분포를 커버하는 이점을 가질 수 있다.
410M에서 Random의 평균 정확도(51.0%)는 커리큘럼 중 최고(VV, Freq: 47.9%)보다 상당히 높다. WSC 벤치마크에서 Random이 60.6%를 기록하는 반면 커리큘럼은 36.5%에 머무는 점이 특히 두드러진다.
현실적이지 않다 — 논문도 이를 명시한다. 딥 네트워크의 손실 함수는 비볼록이며 실제 훈련에서는 강볼록이나 Lipschitz 기울기 조건이 정확히 성립하지 않는다. 그러나 이 정리는 관측된 현상(커리큘럼이 GNS를 낮추고 안정성을 높인다)에 대한 메커니즘 이해를 제공하는 이상화된 분석틀이다. 실험 결과가 이론의 예측 방향과 일치한다는 점에서 이론의 가치가 있다.
"Although these assumptions are not exact for deep networks, they clarify the mechanisms we measure in §5."
논문은 "Code, data, and checkpoints will be made available"이라고 명시하고 있으나, 아직 구체적인 링크를 제공하지 않는다. arXiv 페이지(2601.21698)나 저자(Mohamed Elgaar, UMass Lowell)의 페이지를 주기적으로 확인하거나, Pythia 공식 GitHub(EleutherAI/pythia)에서 관련 데이터셋과 베이스 모델을 얻을 수 있다.
평가 논문은 이 질문을 다루지 않는다. 그러나 RLHF의 Reward 모델 학습이나 Supervised Fine-tuning(SFT)은 일반적으로 훨씬 적은 토큰으로 이루어지며 멀티 에포크 방식이 흔하다. 이 논문이 다루는 단일 에포크 300B 토큰 사전학습과는 설정이 매우 다르다. 파인튜닝에서의 커리큘럼 효과는 별도의 연구 영역이다.
논문의 주요 그림을 원본 그대로 제공합니다. 각 Figure의 논문 내 위치와 핵심 포인트를 함께 확인하세요.