Zhenting Wang · Guofeng Cui · Yu-Jhe Li · Kun Wan · Wentian Zhao  ·  Rutgers University & Adobe Inc.  ·  2025

DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training

이 논문은 LLM 강화학습 후훈련의 데이터 스케줄링 문제를, 각 데이터 분포의 어드밴티지 크기를 학습 가능성의 신호로 삼아 다중 슬롯머신(MAB) 탐색-활용 균형 문제로 재정의한다.

arXiv 2504.09710 →
커리큘럼 학습 GRPO Multi-Armed Bandit LLM 후훈련 UCB 분포 샘플링

문제의 배경 — 기존 연구의 한계

강화학습(RL) 기반 후훈련(post-training)은 LLM의 추론 능력을 극적으로 끌어올리는 핵심 기법으로 자리잡았습니다. OpenAI o1/o3, DeepSeek-R1 같은 모델들이 수학·코딩 벤치마크에서 기존 모델을 압도할 수 있었던 것도 이 방법 덕분입니다. 그런데 실제 후훈련 데이터는 균질하지 않습니다. Tülu 3처럼 대규모 후훈련 데이터셋은 일반 대화, 논리 퍼즐, STEM 문제, 다국어 지시 등 출처와 난이도가 전혀 다른 데이터를 섞어 사용합니다. 더 나아가 Seed-Thinking v1.5 같은 차세대 파이프라인은 난이도를 세밀하게 조절한 합성 데이터를 생성할 수 있어, 어떤 분포에서 얼마나 샘플링할지가 점점 더 중요한 설계 결정이 되었습니다.

"most RL-based pipelines still treat all data distributions equally—uniformly sampling tasks throughout training or relying on static, hand-designed curricula. This static treatment ignores the model's evolving learning needs and underutilizes the training budget."

대부분의 RL 기반 파이프라인은 여전히 모든 데이터 분포를 동일하게 취급합니다—훈련 내내 균등하게 샘플링하거나 정적으로 수작업 설계된 커리큘럼에 의존합니다. 이 정적인 처리 방식은 모델의 진화하는 학습 요구를 무시하고 훈련 예산을 낭비합니다.

기존 접근법과 그 한계

균등 샘플링(Uniform Sampling)은 가장 단순한 기준선입니다. 모든 분포에서 동일한 확률로 샘플을 뽑습니다. 문제는, 모델이 특정 분포에서 이미 충분히 학습했는데도 계속 샘플을 낭비한다는 것입니다. 반대로 배우기 어려워 신호가 약한 분포는 과도하게 집중될 수 있습니다.

한계 ① 균등 샘플링은 모델의 학습 진행 상태를 반영하지 못합니다. 이미 포화된 분포와 아직 탐색되지 않은 분포를 동일하게 다룹니다.

수작업 커리큘럼(Heuristic Curriculum)은 Kimi k1.5와 Logic-RL에서 사용한 방식입니다. "처음 N 스텝은 쉬운 데이터, 그 다음은 어려운 데이터"처럼 고정된 스케줄을 미리 설계합니다. 이는 특정 도메인에서 효과를 보이기도 하지만, 심각한 제약이 따릅니다.

한계 ② 수작업 커리큘럼은 사전 지식이 필요합니다. 데이터 분포들의 상대적 난이도와 학습 가능성을 미리 알아야 설계할 수 있습니다. 다양한 도메인이 혼합된 경우 이 지식을 얻기 어렵거나 오해를 부를 수 있습니다.
한계 ③ 수작업 커리큘럼은 정적이고 적응하지 못합니다. 한번 설계된 스케줄은 훈련 중 모델의 실제 학습 상태와 무관하게 동일하게 실행됩니다.

인스턴스 수준 커리큘럼(Instance-Level Curriculum)은 Curri-DPO 같은 방법에서 사용됩니다. 개별 샘플의 난이도를 기반으로 순서를 정합니다. 그러나 이 방법은 분포 수준의 스케줄링을 다루지 않으며, RL 기반 후훈련에는 직접 적용하기 어렵습니다.

핵심 공백 자동화된 분포 수준 커리큘럼 학습—특히 RL 기반 능력 향상 후훈련 맥락에서—은 아직 충분히 탐구되지 않았습니다. 이 논문이 채우려는 공백입니다.

이 논문의 선택 — 핵심 아이디어와 트레이드오프

DUMP의 핵심 통찰은 한 줄로 압축됩니다: "어드밴티지의 크기(magnitude)가 학습 가능성의 척도다."

"Our central insight is that the magnitude of policy advantages—the expected absolute difference between a model's predicted return and its baseline value—serves as a natural proxy for distribution-level learnability."

우리의 핵심 통찰은, 정책 어드밴티지의 크기—모델의 예측 반환값과 기준값 사이의 기대 절댓값 차이—가 분포 수준 학습 가능성의 자연스러운 대리 지표로 기능한다는 것입니다.

왜 "어드밴티지 크기"인가?

강화학습에서 어드밴티지(advantage) \(\hat{A}_i\)는 어떤 행동이 기준보다 얼마나 더(혹은 덜) 좋은지를 나타냅니다. 만약 어드밴티지가 크다면, 모델이 그 데이터 분포에서 아직 최적에서 많이 벗어나 있다는 의미입니다—즉, 학습할 여지가 많습니다. 어드밴티지가 작다면, 이미 잘 하고 있거나 반대로 너무 어려워서 아무 신호도 얻지 못하고 있다는 뜻입니다.

핵심 장점 어드밴티지는 RL 파이프라인에서 이미 계산되는 값입니다. 추가 비용 없이 학습 가능성 신호를 얻을 수 있습니다.

절댓값을 취하는가? 같은 배치 안에서 양의 어드밴티지와 음의 어드밴티지가 함께 있으면 평균을 내면 서로 상쇄되어 실제 불확실성이나 학습 가능성이 숨겨집니다. 절댓값을 취하면 두 방향의 편차를 모두 포착할 수 있습니다.

어떻게 분포 스케줄링으로 연결하는가?

DUMP는 이 문제를 다중 슬롯머신(Multi-Armed Bandit, MAB)으로 형식화합니다. 각 데이터 분포가 하나의 "슬롯머신 팔(arm)"이고, 그 팔을 당겼을 때의 보상이 해당 분포의 기대 절대 어드밴티지입니다. 목표는 훈련 전체 기간 동안 누적 학습 가능성 이득을 최대화하는 것입니다.

▶ DUMP UCB 스케줄링 시뮬레이션 — "다음 스텝" 버튼을 눌러 진행하세요
스텝 0 / 8
초기 상태: 모든 분포가 동일한 확률(1/N)로 샘플링됩니다.

왜 UCB인가? 왜 소프트 선택인가?

UCB(Upper Confidence Bound) 원칙은 "높은 보상이 기대되는 팔은 활용(exploit)하되, 아직 충분히 시도되지 않은 팔은 탐색(explore)하라"는 원칙을 수학적으로 구현합니다. DUMP는 여기에 소프트 선택(soft selection)을 추가합니다: 가장 높은 UCB 점수의 분포를 하드하게 선택하는 대신, UCB 점수에 softmax를 적용하여 모든 분포에 양의 확률을 유지합니다.

설계 선택 소프트 선택은 분산을 줄이고, 특정 분포로의 조기 수렴(premature lock-in)을 방지하며, LLM 훈련 파이프라인에 쉽게 통합됩니다.

얻은 것과 잃은 것 — 트레이드오프

얻은 것 수작업 커리큘럼 없이도 자동으로 효율적인 분포 스케줄을 학습합니다. 어드밴티지 계산은 RL 파이프라인에 이미 존재하므로 추가 계산 비용이 거의 없습니다.
트레이드오프 어드밴티지 추정값은 노이즈가 있을 수 있습니다. 슬라이딩 윈도우 크기(k), 온도 파라미터(τ) 같은 하이퍼파라미터 튜닝이 필요합니다.

방법론

전체 흐름 — DUMP 파이프라인

DUMP는 기존 RL 훈련 루프에 분포 스케줄러를 추가하는 방식으로 동작합니다. 아래 다이어그램에서 각 모듈을 클릭하면 세부 설명을 볼 수 있습니다.

데이터셋 D {d₁,…,dₙ} UCB 스케줄러 P(dⱼ) 계산 슬라이딩 윈도우 배치 샘플링 Bₜ 구성 RL 업데이트 GRPO / PPO 어드밴티지 계산 어드밴티지 피드백 θ*
모듈을 클릭하면 상세 설명이 표시됩니다.

수식 1 — GRPO 어드밴티지 정규화

DUMP의 학습 가능성 신호는 GRPO 어드밴티지에 기반합니다. GRPO는 각 프롬프트 \(x\)에 대해 G개의 후보 출력 \(\{o_1, \ldots, o_G\}\)를 샘플링하고, 각 출력의 어드밴티지를 그룹 내 상대 품질로 정규화합니다:

\[ \hat{A}_i = \frac{r_i - \text{mean}(\{r_1, \ldots, r_G\})}{\text{std}(\{r_1, \ldots, r_G\}) + \epsilon} \tag{1} \]
변수 의미 비고
r_i 출력 \(o_i\)에 할당된 보상 형식 보상 + 정답 보상으로 구성
G 그룹 크기 (후보 출력 수) 실험에서 16으로 설정
ε 수치 안정화 상수 분모가 0이 되는 것 방지
Â_i 정규화된 어드밴티지 DUMP는 |Â_i|를 학습 가능성 신호로 사용

직관적 해설

같은 프롬프트에 대해 여러 답을 생성하고, 그 중 평균보다 얼마나 좋은지(혹은 나쁜지)를 정규화한 값입니다. 이 정규화 덕분에 절대적인 보상 스케일에 무관하게 상대적 품질을 비교할 수 있습니다. DUMP는 이 값의 절댓값을 사용합니다 — 얼마나 잘 했느냐가 아니라, 현재 모델이 이 분포에서 얼마나 불확실한가를 측정하기 위해서입니다.

수학적 유도

이는 표준 점수(z-score) 정규화와 동일한 형태입니다. 분자는 해당 출력의 보상이 그룹 평균으로부터 얼마나 벗어났는지를, 분모는 그룹 내 보상의 표준편차로 이를 스케일링합니다. ε는 모든 출력이 동일한 보상을 받는 엣지 케이스(분모=0)를 방지합니다. 이 정규화는 명시적인 가치 함수(value function) 없이도 안정적인 정책 업데이트를 가능하게 합니다.

수식 2 — GRPO 클리핑 목적함수

GRPO는 정규화된 어드밴티지를 사용해 클리핑 서로게이트 목적함수를 최대화합니다:

\[ J_{\text{GRPO}}(\theta) = \mathbb{E}_{x,\{o_i\}} \left[ \frac{1}{G} \sum_{i=1}^{G} \min\left( \frac{\pi_\theta(o_i|x)}{\pi_{\text{old}}(o_i|x)} \hat{A}_i,\ \text{clip}\left(\frac{\pi_\theta(o_i|x)}{\pi_{\text{old}}(o_i|x)}, 1-\epsilon, 1+\epsilon\right) \hat{A}_i \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) \right] \tag{2} \]
변수 의미 비고
π_θ 현재 모델 정책 업데이트 대상
π_old 이전 스텝 모델 정책 정책 비율 계산용
π_ref 고정된 참조 정책 KL 발산 계산 기준
ε 클리핑 범위 과도한 정책 업데이트 방지
β KL 페널티 계수 실험에서 0.001로 설정

직관적 해설

두 가지 안전장치가 있습니다. 첫째, clip()은 정책 비율이 [1-ε, 1+ε] 범위를 벗어나지 못하게 해서 한 번의 업데이트로 너무 많이 변하는 것을 막습니다(PPO의 핵심 아이디어). 둘째, KL 발산 항은 업데이트된 정책이 참조 정책에서 너무 멀어지지 않도록 규제합니다. GRPO는 명시적 가치 함수가 필요 없다는 점에서 PPO보다 단순합니다.

수학적 유도

이 목적함수는 PPO의 클리핑된 서로게이트 목적함수를 그룹 기반 어드밴티지에 적용한 것입니다. 정책 비율 \(\frac{\pi_\theta}{\pi_{\text{old}}}\)은 중요도 샘플링(importance sampling) 가중치입니다. min() 연산은 어드밴티지가 양수일 때는 정책 비율이 1+ε 이상 커지지 않게, 음수일 때는 1-ε 이하로 작아지지 않게 보장합니다. KL 항은 RLHF에서 과도한 보상 해킹을 방지하기 위한 장치입니다.

수식 3 — UCB 스케줄링 점수

DUMP의 핵심 수식입니다. 각 데이터 분포 \(d_j\)에 대한 UCB 점수:

\[ \text{UCB}(d_j) = \hat{L}(d_j) + \sqrt{\frac{2 \log(n_{\text{total}} + 1)}{n_{d_j} + 1}} \tag{3} \]
변수 의미 비고
L̂(d_j) 분포 j의 경험적 학습 가능성 슬라이딩 윈도우 내 절대 어드밴티지 평균
n_total 전체 샘플 수 모든 분포 합계
n_{d_j} 분포 j에서의 샘플 수 +1은 분모 0 방지
첫째 항 활용(exploitation) 항 높은 학습 가능성 분포 우선
둘째 항 탐색(exploration) 항 덜 샘플링된 분포 보너스

직관적 해설

이 수식은 "어디에 투자할까?"라는 질문에 답합니다. 첫째 항은 지금까지 관찰한 데이터로 이 분포가 얼마나 유익한지를 말하고(활용), 둘째 항은 "아직 많이 보지 못한 분포일 수 있으니 추가 탐색이 필요하다"는 불확실성 보너스입니다(탐색). 훈련 초기에는 n_total이 작아 탐색 보너스가 지배적이고, 훈련이 진행될수록 활용 항이 더 중요해집니다.

수학적 유도

이는 UCB1 알고리즘(Auer et al., 2002)의 직접 적용입니다. Hoeffding 부등식에 의해, 탐색 항의 크기만큼의 마진 내에서 경험적 평균이 진짜 평균에 높은 확률로 수렴합니다. UCB 알고리즘은 최적 고정 팔(분포)에 비해 누적 후회(regret)가 O(C · Σ log T / Δⱼ)에 해당한다는 이론적 보장을 제공합니다 — 즉 T가 커져도 후회가 로그 수준으로만 증가합니다.

수식 4 — 소프트맥스 샘플링 가중치

UCB 점수를 샘플링 확률로 변환합니다:

\[ P(d_j) = \frac{\exp(\text{UCB}(d_j)/\tau)}{\sum_{k=1}^{N} \exp(\text{UCB}(d_k)/\tau)} \]
변수 의미 비고
τ 온도 파라미터 기본값 0.1; 낮을수록 더 집중적
N 분포 수 Setting 1: 12, Setting 2: 15, Setting 3: 5

직관적 해설

τ=0.1(기본값)은 상위 분포에 집중하되 다른 분포도 완전히 무시하지 않는 날카로운 분포를 만듭니다. τ→0은 그리디 선택(가장 높은 UCB 점수만 선택)에 수렴하고, τ→∞는 균등 샘플링에 수렴합니다. 에블레이션 실험에서 τ=0(그리디)은 탐색 부족으로 성능이 크게 떨어짐을 보였습니다.

수학적 유도

이 소프트맥스 변환은 원래 UCB의 하드 선택을 연속적인 확률 분포로 확장합니다. τ로 나누는 것은 점수 간의 차이를 증폭(τ<1)하거나 완화(τ>1)하는 역할을 합니다. 이 소프트 선택 메커니즘은 볼츠만 탐색(Boltzmann exploration) 또는 softmax action selection과 동일한 형태입니다.

알고리즘 1 — DUMP 전체 절차

아래는 논문의 Algorithm 1을 단계별로 따라가는 스텝 플레이어입니다. "다음 →" 버튼을 눌러 각 단계의 의미를 확인하세요.

스텝 1 / 7
function DUMP(D, θ)   // 초기화   for each dⱼ ∈ D:     Aʷ_dⱼ ← [] // 슬라이딩 윈도우     n_dⱼ ← 0 // 샘플 카운터     P(dⱼ) ← 1/N // 균등 초기화   for t = 1, 2, …, T:     Bₜ ← sample from D according to P(dⱼ)     compute Â(o) for all o ∈ Bₜ via rollout     for each dⱼ with samples in Bₜ:       n_dⱼ ← n_dⱼ + |Bₜ,dⱼ|       Aʷ_dⱼ ← Aʷ_dⱼ ∪ {|Â(o)| | o ∈ Bₜ,dⱼ}       Aʷ_dⱼ ← Aʷ_dⱼ[-k:] // 최근 k=300개 유지     n_total ← Σ n_dⱼ     for each dⱼ:       L̂(dⱼ) ← mean(|a| for a in Aʷ_dⱼ)       UCB(dⱼ) ← L̂(dⱼ) + √(2log(n_total+1)/(n_dⱼ+1))     P(dⱼ) ← softmax(UCB(dⱼ)/τ) ∀dⱼ ∈ D     update θ using Bₜ with RL (e.g., GRPO)   return θ
스텝 1: 초기화 단계. 각 분포 dⱼ에 대해 빈 슬라이딩 윈도우, 샘플 카운터, 균등 초기 확률을 설정합니다.

구현 세부사항

설정 항목 비고
RL 알고리즘 GRPO DeepSeekMath 기반
베이스 모델 Qwen2.5-7B-Instruct-1M, Qwen2.5-3B-Instruct Setting별로 다름
액터 학습률 1e−6
훈련 배치 크기 128
PPO 미니배치 크기 32
KL 계수 β 0.001
롤아웃 응답 수 16 그룹 크기 G=16
최대 응답 길이 20480 (7B), 4096 (3B) 토큰
슬라이딩 윈도우 크기 k 300 DUMP 하이퍼파라미터
온도 τ 0.1 DUMP 하이퍼파라미터
학습 프레임워크 VeRL LLM RL 프레임워크
하드웨어 8× Nvidia A100 GPU
코드 github.com/ZhentingWang/DUMP

보상 설계는 Logic-RL 방식을 따릅니다. 각 응답은 <think>...</think><answer>...</answer> 형식을 요구하며, 형식 보상(±1)과 정답 보상(+2/−1.5/−2)으로 구성됩니다.

결과 — 수치 비교 & 분석

+30%
평균 보상 향상
Setting 2: 0.90 → 1.17
1.82×
K&K 7자 성능
0.56 → 1.02
+32%
수학 평균 보상
Setting 3: −0.59 → −0.43

Setting 1: K&K 퍼즐 12개 난이도 분포

3~14명의 캐릭터를 가진 K&K 퍼즐 12개 분포에서 DUMP를 평가했습니다. DUMP는 모든 분포에서 균등 샘플링 기준선보다 지속적으로 우수한 성능을 보이며, 특히 중~고난이도 분포(6~12 캐릭터)에서 개선이 두드러집니다.

"in the 9-character distribution, the model trained with DUMP achieves a reward of over 0.5, whereas the baseline remains below 0.0."

9-캐릭터 분포에서, DUMP로 훈련된 모델은 0.5 이상의 보상을 달성하는 반면, 기준선은 0.0 이하에 머뭅니다.

Setting 2: 다양한 논리 추론 분포 (15개)

데이터 분포 DUMP 없음 DUMP 적용 변화
RuleTaker 2단계 0.79 0.79
RuleTaker 3단계 0.76 1.02 +0.26
RuleTaker 5단계 0.56 0.98 +0.42
ProofWriter 3단계 1.18 1.09 −0.09
ProofWriter 4단계 0.97 1.09 +0.12
ProofWriter 5단계 1.24 1.05 −0.19
AR-LSAT −0.70 −0.52 +0.18
LogiQA 1.94 1.70 −0.24
LogicNLI −0.29 −0.23 +0.06
LongICLBench Geomotion 0.54 0.25 −0.29
K&K 3 캐릭터 2.00 2.00
K&K 4 캐릭터 1.54 1.76 +0.22
K&K 5 캐릭터 1.53 1.84 +0.31
K&K 6 캐릭터 0.83 1.42 +0.59
K&K 7 캐릭터 0.56 1.02 +0.46
평균 0.90 1.17 +0.27

주목할 점: DUMP는 학습 가능성이 높은 분포(K&K 6~7자, RuleTaker 5단계)에서 큰 폭의 개선을 보이는 반면, 이미 포화된 분포(K&K 3자, RuleTaker 2단계)에서는 불필요한 샘플링을 줄이는 경향이 있습니다. 이는 DUMP의 핵심 직관인 "학습 신호가 큰 곳에 집중"이 실제로 작동함을 보여줍니다.

Setting 3: 수학 추론 분포 (5개)

데이터 분포 DUMP 없음 DUMP 적용 변화
GSM-8K 1.50 1.47 −0.03
AIME 1983–1993 −0.76 −0.39 +0.37
AIME 1994–2004 −1.50 −1.02 +0.48
AIME 2005–2015 −0.94 −0.94
AIME 2016–2024 −1.27 −1.27
평균 −0.59 −0.43 +0.16

에블레이션: 그리디 선택 vs 소프트 샘플링

온도 τ=0(그리디) vs τ=0.1(기본값) 비교 실험을 Setting 1의 100 훈련 스텝에서 수행했습니다. 그리디 전략은 탐색 부족으로 특정 분포에 조기 고착되어 성능이 크게 떨어집니다.

DUMP가 만들어내는 커리큘럼 분석

Figure 2는 K&K 12개 분포에서 DUMP가 자동으로 유도한 샘플링 패턴을 보여줍니다. 훈련 초기에는 쉬운 분포(3~5 캐릭터)가 많이 샘플링되고, 훈련이 진행됨에 따라 더 어려운 분포(10~14 캐릭터)로 점차 포커스가 이동합니다. 이는 전통적인 "쉬운 것부터 어려운 것으로" 커리큘럼을 수작업 없이 자동으로 재현한 것입니다.

"this adaptive sampling behavior emerges automatically from empirical advantage signals without requiring manual specification of curriculum order."

이 적응적 샘플링 동작은 커리큘럼 순서를 수동으로 지정하지 않고도 경험적 어드밴티지 신호로부터 자동으로 나타납니다.

한계점 & 트레이드오프

한계 ① LLM에만 평가됨 — 멀티모달 미적용. DUMP의 핵심 아이디어(어드밴티지 기반 학습 가능성)는 이론적으로 멀티모달 LLM(MLLM)에도 적용 가능하지만, 계산 제약으로 인해 텍스트 전용 LLM에서만 검증되었습니다.
한계 ② 7B 이하 스케일만 검증됨. 실험은 Qwen2.5-7B-Instruct-1M과 Qwen2.5-3B-Instruct에 한정됩니다. 더 큰 모델(70B+)에서도 동일한 효과가 나타나는지는 확인되지 않았습니다.
한계 ③ 어드밴티지 추정의 노이즈. 슬라이딩 윈도우 내 어드밴티지는 노이즈가 있을 수 있습니다. 보상 함수가 불안정하거나 희소한 경우, 학습 가능성 신호의 신뢰도가 떨어질 수 있습니다.
트레이드오프 일부 분포(ProofWriter 5단계, LogiQA, LongICLBench)에서는 DUMP 적용 후 성능이 소폭 하락했습니다. 이는 DUMP가 다른 분포에 자원을 집중하면서 이미 높은 성능의 분포를 상대적으로 덜 샘플링했기 때문입니다. 전체 평균은 향상되지만 모든 개별 분포에서 동시에 향상되지는 않습니다.

영향력 & 후속 연구

DUMP는 LLM 강화학습 후훈련의 데이터 효율성 문제에 실용적인 해법을 제시합니다. 특히 다음과 같은 맥락에서 직접 활용 가능합니다:

저자 제안 후속 과제 더 큰 모델 스케일로의 확장, 멀티모달 LLM 적용, 다른 RL 알고리즘과의 통합 검증이 향후 연구 방향으로 제시됩니다.

Q&A — 연구자의 고민과 독자의 질문

왜 어드밴티지 "크기(magnitude)"를 사용하는가? 부호 있는 어드밴티지를 쓰면 안 되는가?

같은 배치 안에서 양의 어드밴티지(모델이 기대보다 잘한 출력)와 음의 어드밴티지(기대보다 못한 출력)가 공존할 때, 이 둘을 평균하면 서로 상쇄되어 학습 신호의 크기가 과소 추정됩니다. 예를 들어 어드밴티지가 [+2, −2]라면 평균은 0이 되어 "학습할 것이 없다"고 잘못 판단하게 됩니다. 실제로는 모델이 해당 분포에서 매우 불확실하게 동작하고 있는 것입니다. 절댓값을 취하면 [|+2|, |−2|] = [2, 2], 평균 2로 올바르게 학습 가능성이 높다고 판단합니다.

왜 UCB인가? 다른 MAB 알고리즘(Thompson Sampling, ε-greedy 등)은 왜 선택하지 않았는가?

UCB1은 이론적 후회 보장(regret bound)이 잘 확립되어 있고, 추가적인 하이퍼파라미터(사전 분포 등) 없이 적용할 수 있습니다. Thompson Sampling은 보상 분포에 대한 사전 지식이 필요하고, ε-greedy는 탐색-활용 균형이 덜 정교합니다. 무엇보다 UCB의 탐색 항 \(\sqrt{2\log n/n_j}\)은 자연스럽게 충분히 탐색된 분포의 보너스를 감소시키는 반면, ε-greedy는 고정된 탐색률을 유지합니다. [평가] 논문은 명시하지 않지만, UCB의 결정론적 특성(랜덤성 최소화)이 LLM 훈련의 재현성 측면에서도 유리할 수 있습니다.

어드밴티지 크기가 낮을 때 두 가지 경우를 어떻게 구분하는가? (이미 마스터 vs 너무 어려움)

이것이 논문이 솔직하게 인정하는 한계이자 흥미로운 미해결 문제입니다. 논문은 다음과 같이 서술합니다: "A small advantage magnitude does not necessarily imply mastery—it may also occur when a task is too difficult or noisy for the model to learn from effectively." DUMP는 이 두 경우를 명시적으로 구분하지 않습니다. 그러나 UCB의 탐색 항이 간접적으로 이를 완화합니다: 어떤 이유로든 잘 탐색되지 않은 분포는 탐색 보너스를 받아 다시 시도되기 때문입니다. [평가] 이 문제를 근본적으로 해결하려면 어드밴티지의 분산이나 학습 곡선의 기울기 등 추가 신호를 활용해야 할 것입니다.

ProofWriter 5단계, LogiQA에서 성능이 소폭 하락한 이유는?

DUMP는 학습 가능성이 높은 분포에 훈련 자원을 집중합니다. ProofWriter 5단계나 LogiQA처럼 이미 높은 초기 성능을 보이는 분포는 DUMP 하에서 샘플링 비율이 줄어들 수 있습니다. 이로 인해 해당 분포에서의 성능 유지보다 전체 평균 향상을 우선하게 됩니다. [평가] 이는 본질적인 트레이드오프입니다: 자원을 어디에 집중하든 일부 분포는 상대적으로 덜 훈련됩니다. 이 문제를 해결하려면 최소 성능 하한(lower bound constraint)을 UCB에 결합하는 접근이 필요할 수 있습니다.

DUMP를 GRPO 외 다른 RL 알고리즘(PPO, DPO 등)에 적용할 수 있는가?

논문은 "DUMP는 어드밴티지 기반 RL 알고리즘이라면 어떤 것과도 호환된다"고 명시합니다. PPO는 직접 호환됩니다. DPO의 경우, DPO는 엄밀히 어드밴티지를 명시적으로 계산하지 않지만, 선호/비선호 쌍의 로그 확률 차이를 어드밴티지의 대리 지표로 활용할 수 있습니다. 실제로 Curri-DPO는 인스턴스 수준에서 유사한 아이디어를 시도했습니다. [평가] DUMP를 DPO에 적용하려면 어드밴티지 크기에 해당하는 적절한 대리 지표 정의가 필요하며, 이는 탐구할 만한 연구 방향입니다.

코드와 데이터는 어디서 볼 수 있는가?

코드는 github.com/ZhentingWang/DUMP에 공개되어 있습니다. 실험에 사용된 데이터셋(K&K, RuleTaker, ProofWriter, AR-LSAT, LogiQA, LogicNLI, LongICLBench, GSM-8K, AIME 1983–2024)은 모두 공개 데이터셋입니다. 베이스 모델 Qwen2.5도 Hugging Face에서 공개되어 있습니다.

부록 (Appendix) — 이론적 보강 & 원본 Figure

[Appendix A] 정리 3.1 증명 — 절대 어드밴티지가 학습 가능성을 반영하는 이유

논문의 핵심 이론적 기반입니다. 정책 \(\pi_\theta\)와 데이터 분포 \(d\)가 주어졌을 때, 기대 절대 어드밴티지 \(\mathbb{E}_{x \sim d}\left[\mathbb{E}_{o_i \sim \pi_\theta(\cdot|x)}\left[|\hat{A}_i|\right]\right]\)가 분포 \(d\)에서 훈련이 모델을 얼마나 개선할 수 있는지의 대리 지표가 됩니다.

[Appendix A] 증명 핵심

정책 그래디언트 방법(PPO, GRPO)에서 \(\nabla_\theta J(\theta)\)는 다음과 같이 표현됩니다:

\[ \nabla_\theta J(\theta) = \mathbb{E}_{x \sim d}\left[\mathbb{E}_{o_i \sim \pi_\theta(\cdot|x)}\left[\hat{A}_i \cdot \nabla_\theta \log \pi_\theta(o_i|x)\right]\right] \]

그래디언트 벡터의 노름(크기)에 대한 하계(lower bound):

\[ \|\nabla_\theta J(\theta)\| \gtrsim \mathbb{E}_{x \sim d}\left[\mathbb{E}_{o_i \sim \pi_\theta(\cdot|x)}\left[|\hat{A}_i| \cdot \|\nabla_\theta \log \pi_\theta(o_i|x)\|\right]\right] \]

\(\|\nabla_\theta \log \pi_\theta(o_i|x)\|\)가 분포 \(d\) 전체에서 서서히 변한다(bounded & slowly varying)는 가정 하에, 그래디언트 노름을 결정하는 지배적 항은 \(\mathbb{E}[|\hat{A}_i|]\)입니다. 즉, 절대 어드밴티지가 클수록 그래디언트가 크고, 파라미터 개선 가능성이 높습니다.

[Appendix B] UCB 기반 분포 스케줄링의 이론적 보장

DUMP의 UCB 전략이 단순한 휴리스틱이 아닌 이론적 보장을 갖는다는 것이 Theorem B.1에서 증명됩니다.

Theorem B.1. D = {d₁, …, dₙ}의 기대 보상 L(dⱼ) ∈ [0, C]일 때, UCB1 알고리즘을 적용하면 누적 후회(regret)는 다음으로 상한됩니다:
\[ \text{Regret}(T) \leq O\left(C \cdot \sum_{j:\Delta_j > 0} \frac{\log T}{\Delta_j}\right), \quad \Delta_j = L(d^*) - L(d_j) \]

이 결과는 T가 커져도 후회가 로그 수준으로만 증가함을 의미합니다. 즉, 충분한 훈련 스텝이 주어지면 DUMP는 최적 고정 분포 전략에 수렴합니다. 증명은 UCB1의 고전적 후회 한계를 보상이 [0, C]에 있는 경우로 확장한 것이며, Hoeffding 부등식에 의한 경험적 평균의 집중 현상을 활용합니다.

[Appendix C] 수작업 커리큘럼 vs DUMP

Kimi k1.5와 Logic-RL은 고정된 N 스텝 후 다음 단계로 넘어가는 방식을 사용합니다. DUMP와의 근본적 차이:

특성 수작업 커리큘럼 DUMP
스케줄 고정(static) 동적(adaptive)
사전 지식 요구 분포 난이도 지식 필요 불필요
적응성 훈련 중 변경 불가 매 스텝 자동 갱신
이론적 보장 없음 UCB regret bound
다양한 도메인 혼합 설계 어려움 자동 처리

원본 Figure 1 — K&K 퍼즐 12개 분포에서의 DUMP 효과

Figure 1 — K&K puzzle results
Figure 1 (논문 §4.2, p.8): K&K 퍼즐 12개 난이도 분포에서 DUMP vs 기준선 비교. 각 서브플롯은 캐릭터 수(3~14)별 테스트 보상의 훈련 스텝에 따른 변화를 보여줍니다. DUMP(주황)가 기준선(파랑)을 모든 분포에서 일관되게 상회하며, 특히 6~12 캐릭터의 중~고난이도 분포에서 차이가 두드러집니다.

원본 Figure 2 — DUMP가 유도하는 자동 커리큘럼 (샘플 수)

Figure 2 — Curriculum induced by DUMP
Figure 2 (논문 §4.4, p.9): DUMP가 유도하는 커리큘럼 — 각 분포의 누적 샘플 수. 초기에는 쉬운 분포(3~5 캐릭터)가 집중 샘플링되고, 훈련이 진행됨에 따라 어려운 분포(10~14 캐릭터)로 자동으로 포커스가 이동합니다. 수작업 커리큘럼 설계 없이 "쉬운→어려운" 순서가 자연스럽게 창발(emerge)됩니다.