이 논문은 "어떤 데이터를 얼마나 섞어야 LLM이 잘 학습되는가"라는 질문을 회귀 예측 문제로 재정의한다 — 극소형 프록시 모델들의 집합적 결과로부터 최적 혼합 비율을 예측하고, 그것을 수천 배 큰 모델 훈련에 그대로 적용한다는 것이 핵심이다.
arXiv →대형 언어 모델(LLM)은 인터넷에서 수집한 방대한 텍스트 데이터를 기반으로 학습된다. 이 데이터는 학술 논문(arXiv), 책(Project Gutenberg), 코드(GitHub), 웹페이지(CommonCrawl) 등 다양한 도메인(domain)으로 구성되어 있다. 그런데 문제가 있다: 각 도메인을 얼마나 섞어서 학습해야 하는가?
GPT-3를 만들 때부터 이 질문은 중요했다. OpenAI 연구자들은 Wikipedia가 '고품질'이라는 직관에 따라 Wikipedia를 업샘플링(upsample)했다. 그러나 이런 방식은 확장성이 없다 — 도메인이 수십, 수백 개가 되면 인간의 직관만으로 최적 비율을 결정하기 어렵고, 직관적으로 '좋아 보이는' 데이터가 반드시 더 나은 모델을 만들지 않는다.
데이터 선택 방법은 세 가지 수준으로 구분된다:
"Training a proxy model for current models, such as Llama-3, would require using up to 15T tokens, which is likely too expensive and too slow to make it worthwhile."현재 Llama-3 수준의 모델에 기존 프록시 방식을 적용하려면 최대 15T 토큰이 필요해, 실용적이지 않다.
그렇다면 어떻게 해야 할까? 논문은 이 문제를 완전히 다른 방향에서 접근한다: "많은 소형 모델을 병렬로 훈련해서, 데이터 혼합이 성능에 미치는 영향을 회귀 모델로 예측하자."
RegMix의 모든 것은 하나의 대담한 가설 위에 서 있다:
"The relative ranking of data mixtures in terms of their impact on model performance is consistent across different model sizes and numbers of training tokens."데이터 혼합이 모델 성능에 미치는 영향의 상대적 순위는 모델 크기와 학습 토큰 수가 달라져도 일관되게 유지된다.
이 가설이 맞다면, 극소형 모델(1M 파라미터)로 얻은 순위 정보를 훨씬 큰 모델(1B 파라미터)에도 적용할 수 있다. 즉, 비싼 실험을 줄이면서도 좋은 혼합 비율을 찾을 수 있다.
순위 불변성 가설: 소형 모델에서 혼합 A > B > C > D 였다면, 대형 모델에서도 같은 순위가 유지된다. 검증 결과 LightGBM 모델 기준 97.12% Spearman 상관계수를 달성했다.
보충 "회귀 = 예측 함수 학습"이라는 프레임은 NLP에서 다소 이례적이다. 일반적으로 딥러닝 연구에서 회귀는 최종 목표가 아닌 보조 도구로 쓰인다. 여기서는 회귀 모델 자체가 핵심 기여다 — 딥러닝 모델이 아닌 LightGBM이 최선의 결과를 낸다는 것도 흥미롭다.
RegMix는 4단계 파이프라인으로 구성된다:
첫 번째 과제는 회귀 모델 학습을 위한 훈련 데이터 생성이다. 단순히 균일하게 혼합을 샘플링하면 특정 극단적 조합을 놓칠 수 있다. RegMix는 Dirichlet 분포를 사용한다:
| 변수 | 의미 | 비고 |
|---|---|---|
xi | i번째 프록시 모델의 데이터 혼합 비율 벡터 | n개 도메인의 가중치, 합이 1 |
α | Dirichlet 분포의 집중도 파라미터 | 값이 클수록 균일 분포에 가까워짐 |
x0 | 도메인별 토큰 수 기반 기본 분포 | 데이터 가용성 반영 |
λ | 분포 희소성 조절 파라미터 | 0.1이면 희소(극단적), 5.0이면 균일에 가까움 |
직관적 해설
수학적 유도
N개 프록시 모델의 훈련 결과 {(혼합 비율 벡터, 검증 손실)} 쌍을 가지고 회귀 모델을 학습한다.
| 변수 | 의미 | 비고 |
|---|---|---|
y | 예측 타깃값 (예: Pile-CC 검증 손실) | 낮을수록 좋음 |
xi | i번째 도메인의 데이터 혼합 가중치 | 0 ≤ xᵢ ≤ 1, Σxᵢ = 1 |
ωi | i번째 도메인의 회귀 계수 | 양수면 해당 도메인 증가 시 손실 증가 |
ω0 | 편향(intercept) | |
ε | 오차항 |
직관적 해설
수학적 유도
LightGBM은 결정 트리 앙상블을 그래디언트 부스팅으로 학습한다. 비선형적인 도메인 상호작용까지 포착할 수 있어 선형 회귀보다 훨씬 높은 예측 정확도를 달성한다. 하이퍼파라미터: 1000 반복, 학습률 1e-2.
회귀 모델이 학습되면, 이를 이용해 방대한 혼합 공간을 탐색한다:
"Running prediction for 1,000,000 data mixtures takes less than 10 CPU seconds."100만 개 데이터 혼합에 대한 예측이 CPU 10초도 안 걸린다.
그 중 가장 좋은 예측값을 가진 상위 100개 혼합을 평균 내어 최종 혼합 비율을 결정한다. 상위 1개만 쓰지 않고 100개를 평균내는 이유는 예측 불확실성에 대한 앙상블(ensemble) 효과로 더 안정적인 결과를 얻기 위해서다.
논문 Appendix H에 수록된 의사코드를 풀어서 설명한다:
-- 입력 -- x₀: n개 도메인의 기본 토큰 분포 벡터 N: 프록시 모델 수 (실험에서 N=512) f: 회귀 모델 (LightGBM) y: 타깃 메트릭 (Pile-CC 검증 손실) -- 1단계: 프록시 모델 훈련 -- for i = 1 to N: λ ← Uniform([0.1, 5.0]) xᵢ ← Dirichlet(α = λ · x₀) // 다양한 혼합 샘플링 소형 모델을 xᵢ 혼합으로 T 토큰 훈련 // 병렬 가능 yᵢ ← 검증 손실 측정 -- 2단계: 회귀 모델 피팅 -- f ← Fit({(x₁,y₁), ..., (xₙ,yₙ)}) // LightGBM 학습 -- 3단계: 시뮬레이션 & 예측 -- {x₁,...,x_M} ← 후보 혼합 생성 (M=1,000,000) x* ← argmin_{xⱼ} f(xⱼ) // 상위 100개 평균 -- 4단계: 대규모 모델 훈련 -- 대규모 모델을 x* 혼합으로 훈련 (1000× 파라미터, 25× 토큰) return x*
모델 아키텍처는 TinyLlama를 기반으로 하며, 레이어 수·헤드 수·임베딩 차원을 조절해 1M, 60M, 1B, 7B 변형을 만든다.
| 모델 | 레이어 수 | 헤드 수 | 임베딩 차원 | FFN 차원 | 어휘 크기 |
|---|---|---|---|---|---|
| 1M | 2 | 8 | 256 | 512 | 50,432 |
| 60M | 10 | 8 | 768 | 1,536 | 50,432 |
| 1B | 22 | 16 | 2,048 | 5,632 | 50,432 |
| 7B | 32 | 16 | 4,096 | 12,288 | 50,432 |
공통 훈련 설정:
| 항목 | 값 |
|---|---|
| 토크나이저 | GPTNeoX (어휘 크기 50,432) |
| 배치 크기 | 1M 토큰 |
| 학습률 | 4e-4 |
| 스케줄러 | 코사인(cosine) 학습률 감소 |
| 1M 프록시 모델 | 1,000 스텝 × 1M 배치 = 1B 토큰 |
| 1B 최종 모델 | 25,000 스텝 × 1M 배치 = 25B 토큰 |
| 데이터셋 | The Pile (저작권 미문제 17개 서브셋) |
| 회귀: Ridge λ | 5-fold CV, {1e-3, 1e-2, 1e-1, 1, 10, 100, 1000} |
| 회귀: LightGBM | 1000 반복, 학습률 1e-2, 나머지는 기본값 |
| 코드 | github.com/sail-sg/regmix |
부록 추가 Appendix E (구현 세부사항): 모델 아키텍처는 TinyLlama(Zhang et al., 2024a) 기반이며, GPTNeoX 토크나이저(어휘 크기 50,432)를 사용한다. 선형 회귀에 5-fold 교차 검증을 적용해 L2 정규화 가중치를 {1e-3, 1e-2, ..., 1e3} 중에서 선택한다. LightGBM은 1000 반복, 학습률 1e-2, 나머지 하이퍼파라미터는 기본값.
부록 추가 Appendix F (안정성 분석): DoReMi는 프록시 모델 크기가 달라지면 결과가 불안정하다 — 280M 모델 사용 시 Pile-CC 가중치 0.67, 1B 모델 사용 시 0.20 미만으로 급변한다. RegMix는 1M과 60M 프록시 모델에서 거의 동일한 분포를 도출해 높은 안정성을 보였다 (Figure 14). 이는 여러 모델의 집합적 통계를 사용하기 때문이다.
평가 논문은 FP16/BF16 혼합 정밀도 사용 여부, GPU 수, Flash Attention 적용 여부를 명시하지 않는다. TinyLlama 아키텍처를 기반으로 한다는 점에서 표준 transformer 훈련 설정을 따를 것으로 추정된다. 파라미터 수는 비임베딩 파라미터만 카운트한다 (소형 모델에서 임베딩이 차지하는 비율이 과도하게 크기 때문).
실험에 사용된 The Pile 데이터셋의 17개 이용 가능 도메인 (저작권 문제가 있는 Books3, BookCorpus2 등은 제외):
| 도메인 | 크기 (GiB) | 도메인 | 크기 (GiB) |
|---|---|---|---|
| Pile-CC (CommonCrawl) | 227.12 | OpenSubtitles | 19.47 |
| PubMed Central | 180.55 | Wikipedia (en) | 19.13 |
| OpenWebText2 | 125.54 | DM Mathematics | 15.49 |
| ArXiv | 112.42 | Ubuntu IRC | 11.03 |
| Github | 95.16 | EuroParl | 9.17 |
| FreeLaw | 76.73 | HackerNews | 7.80 |
| Stack Exchange | 64.39 | YoutubeSubtitles | 7.47 |
| USPTO Backgrounds | 45.81 | PhilPapers | 4.76 |
| PubMed Abstracts | 38.53 | NIH ExPorter | 3.79 |
회귀 모델이 얼마나 정확하게 성능 순위를 예측하는지 검증했다. 512개 1M 모델로 회귀 모델을 피팅하고, 별도의 보이지 않은(unseen) 혼합들에 적용했다:
| 테스트 대상 | 선형 회귀 | LightGBM | ||
|---|---|---|---|---|
| ρ (↑) | MSE (↓) | ρ (↑) | MSE (↓) | |
| 1M 모델 (1B 토큰) | 90.08 | 0.13 | 98.45 | 0.04 |
| 60M 모델 (1B 토큰) | 89.26 | — | 98.64 | — |
| 1B 모델 (25B 토큰) ★ | 88.01 | — | 97.12 | — |
★ 가장 중요한 결과: 1M 모델로 훈련한 회귀 모델이 1000× 더 큰 모델에서도 97.12%의 순위 상관관계를 보인다. 이것이 순위 불변성 가설의 직접 검증이다.
부록 추가 Appendix C.1 (회귀 예측 시각화): 1M 모델에서 Linear 모델은 산점도에서 상관계수 0.90, LightGBM은 거의 완벽한 직선(0.99)을 보인다. LightGBM의 우수성이 단순히 Spearman 수치가 아닌 실제 손실 예측 정확도에서도 뚜렷하다.
부록 추가 Appendix C.2 (OOD 설정): Pile-CC를 학습 코퍼스에서 완전히 제외하고 Pile-CC 손실을 타깃으로 삼는 OOD 실험에서도 LightGBM이 ρ = 95.47%를 달성했다. 즉, RegMix는 타깃 도메인이 훈련 데이터에 없어도 효과적이다.
64개 1B 모델의 성능 편차 (최악 vs 최선):
| 벤치마크 | 최악 모델 | 최선 모델 | 차이 (Δ) |
|---|---|---|---|
| Lambada | 18.9 | 33.5 | 14.6 |
| QQP | 48.0 | 59.7 | 11.7 |
| HellaSwag | 33.0 | 43.4 | 10.4 |
| COPA | 61.5 | 70.5 | 9.0 |
| PiQA | 60.2 | 69.0 | 8.8 |
| MultiRC | 47.6 | 55.7 | 8.1 |
| ARC Easy | 44.9 | 52.2 | 7.3 |
| SciQ | 76.7 | 82.9 | 6.2 |
| OpenBookQA | 25.8 | 31.2 | 5.4 |
| RACE | 27.9 | 32.5 | 4.6 |
| LogiQA | 23.2 | 27.7 | 4.5 |
| WinoGrande | 50.3 | 53.2 | 2.9 |
| Social IQA | 32.4 | 33.9 | 1.5 |
| 평균 | 43.7 | 47.9 | 4.2 |
| 벤치마크 | Baseline Human | DoReMi | PPL | ODM | Pile-CC Only | Ours RegMix |
|---|---|---|---|---|---|---|
| Social IQA | 33.6 | 33.4 | 33.3 | 33.7 | 33.2 | 33.8 |
| HellaSwag | 37.4 | 43.4 | 43.1 | 37.2 | 44.1 | 44.2 |
| PiQA | 65.0 | 68.3 | 68.5 | 64.4 | 69.2 | 69.3 |
| OpenBookQA | 28.2 | 30.3 | 30.3 | 30.0 | 31.1 | 30.3 |
| Lambada | 29.8 | 32.1 | 35.4 | 29.6 | 33.2 | 34.2 |
| SciQ | 80.1 | 81.6 | 78.6 | 79.8 | 81.8 | 82.8 |
| ARC Easy | 49.4 | 50.6 | 50.5 | 47.9 | 51.8 | 51.7 |
| COPA | 66.7 | 68.5 | 69.2 | 68.2 | 65.8 | 70.2 |
| RACE | 29.0 | 31.3 | 31.5 | 29.7 | 31.8 | 31.3 |
| QQP | 52.4 | 56.6 | 50.0 | 53.1 | 57.0 | 58.3 |
| WinoGrande | 53.1 | 52.2 | 52.8 | 51.8 | 52.1 | 53.1 |
| 평균 성능 | 45.1 | 46.8 | 46.2 | 45.0 | 46.8 | 47.3 |
| 14개 중 최고 달성 | 2/14 | 0/14 | 1/14 | 0/14 | 5/14 | 7/14 |
| 예상 FLOPs | 0 | 3.7e19 | 1.8e19 | 0 | 0 | 3.5e18 |
"Surprisingly, the validation loss on the Pile-CC dataset shows the strongest correlation with most downstream tasks... The correlation coefficient between the HellaSwag task and the Pile-CC validation loss is remarkably close to 1.0."놀랍게도 Pile-CC(CommonCrawl) 검증 손실이 대부분의 다운스트림 태스크와 가장 강한 상관관계를 보인다. HellaSwag와의 상관계수는 거의 1.0에 가깝다.
직관에 반하는 발견이다. 많은 연구자들이 Wikipedia를 '고품질'로 여기고 업샘플링했지만, 실제 데이터를 보면 CommonCrawl(웹 페이지)이 다운스트림 성능과 가장 강하게 상관된다. RegMix가 도출한 최적 혼합도 이를 반영한다: Pile-CC 가중치 0.87 (인간 선택은 0.142).
보충 이 결과는 Gadre et al. (2024)과 Huang et al. (2024)의 독립적인 발견과도 일치한다. 웹 코퍼스가 가장 광범위한 주제 다양성을 갖기 때문에 모든 종류의 다운스트림 태스크와 일관성 있게 상관된다는 해석이 가능하다. C4100Domain 실험에서도 85% 이상의 URL 도메인들이 Pile-CC와 유사한 상관 패턴을 보인다.
선형 회귀 모델의 계수(ω) 시각화에서 놀라운 사실이 드러났다:
RegMix가 17개 도메인뿐만 아니라 100개 세밀한 도메인(FineWeb URL 기반)에서도 작동하는지 검증했다 (1,000개 소형 모델 사용):
| 도메인 수 | 테스트 대상 | 선형 ρ (↑) | LightGBM ρ (↑) |
|---|---|---|---|
| 17개 | 1M | 90.08 | 98.45 |
| 1B | 88.01 | 97.12 | |
| 100개 | 1M | 90.33 | 99.53 |
| 60M | 88.64 | 98.80 |
100개 도메인에서도 LightGBM이 99.53%를 달성하며 확장성을 입증했다.
FineWeb(Penedo et al., 2024b)의 평가 방식을 따라 LightEval을 사용한 5회 반복 실험 결과 (평균 제로샷 성능, 표준편차 포함):
| 벤치마크 | Human | DoReMi | Pile-CC Only | Ours RegMix |
|---|---|---|---|---|
| ARC Easy | 45.3 ± 0.4 | 46.6 ± 0.7 | 47.1 ± 0.6 | 47.2 ± 0.9 |
| HellaSwag | 36.5 ± 0.2 | 41.5 ± 0.3 | 39.7 ± 0.5 | 42.1 ± 0.3 |
| CommonsenseQA | 31.8 ± 1.2 | 34.1 ± 0.7 | 34.9 ± 0.3 | 35.0 ± 0.5 |
| OpenBookQA | 29.8 ± 0.6 | 31.0 ± 0.8 | 31.5 ± 0.4 | 31.8 ± 0.8 |
| PiQA | 65.4 ± 0.6 | 68.7 ± 0.3 | 69.0 ± 0.5 | 69.4 ± 0.5 |
| 평균 | 39.5 ± 0.3 | 41.1 ± 0.3 | 41.2 ± 0.3 | 41.5 ± 0.2 |
| Human 대비 유의미한 우위 | — | 5/9 | 6/9 | 6/9 |
| 예상 FLOPs | 0 | 3.7e19 | 0 | 3.5e18 |
Cohen's d 유의성 기준으로 볼 때, RegMix는 9개 태스크 중 6개에서 인간 선택 대비 유의미한 우위를 보이며 DoReMi와 동등 이상의 성능을 달성했다. 특히 낮은 표준편차(±0.2)는 재현성이 높음을 시사한다.
RegMix는 다음과 같은 실용적 가치를 제공한다:
저자들이 제안한 후속 연구 방향:
논문이 직접 이 질문을 다룬다. 1M 모델 훈련 로그를 분석했을 때, 모든 도메인의 손실을 동시에 최소화하려는 시도는 "significant practical challenges"를 유발했다고 밝힌다. 이는 도메인 간 상충 관계(trade-off) 때문이다 — 한 도메인을 잘하려면 다른 도메인을 희생해야 하는 경우가 많다.
대신 Pile-CC를 선택한 근거는 §5.2의 실험에서 나왔다: Pile-CC 검증 손실이 거의 모든 다운스트림 태스크와 가장 강한 상관관계를 보인다. 즉, "Pile-CC를 잘하는 모델 = 전반적으로 좋은 모델"이라는 경험적 지표다.
"Instead of pursuing a broad optimization strategy, we strategically focus on minimizing validation loss on Pile-CC, which allows for meaningful progress."
평가 논문은 명시하지 않지만, 이 전략은 암묵적으로 Pile-CC가 훈련 코퍼스에 포함되어 있는 경우를 전제한다. §5.3의 "out-of-distribution" 실험에서 Pile-CC를 완전히 제외하고도 효과가 있음을 보여주지만, 타깃 도메인 선택이 성능에 영향을 미칠 수 있다.
회귀 모델은 완전 탐색이 아닌 일반화를 학습한다. 512개 샘플이 17차원 입력 공간의 패턴을 충분히 포착할 수 있는 이유는 두 가지다:
(1) LightGBM은 비선형 상호작용을 학습할 수 있으면서도 과적합에 강하다. (2) Dirichlet 샘플링이 공간의 극단값까지 커버해 다양한 혼합 패턴을 포함한다.
Figure 4에서 512개 이상으로 늘려도 성능 향상이 포화됨을 보였다. 그러나 도메인 수가 늘어날수록 필요한 프록시 수도 증가할 것이다 — 100개 도메인 실험에서는 1,000개 모델을 사용했다.
어느 정도 이해가 된다. Pile-CC는 웹에서 수집된 방대하고 다양한 텍스트 코퍼스로, 거의 모든 종류의 지식과 언어 패턴을 포함한다. LLM이 다양한 태스크를 잘하려면 이러한 일반 도메인 데이터가 핵심이 되는 것은 직관적으로 납득된다.
흥미롭게도 DoReMi도 Pile-CC에 0.743의 높은 가중치를 부여한다 — 방법은 다르지만 비슷한 결론에 도달한다는 것이다. 그러나 RegMix의 0.87은 더 극단적이며, Ubuntu IRC(0.064)나 PubMed Abstracts(0.024) 같은 소도메인도 여전히 포함한다.
기존 스케일링 법칙 연구(Ye et al., 2024; Ge et al., 2024)들은 분석적 함수를 찾으려 한다 — "도메인 비율 x에서 손실은 ax^b + c 형태를 따른다"는 식. 이 접근은 해석 가능성이 높지만, 실제 데이터를 보면 log-log 선형 관계가 성립하지 않는 도메인이 많다 (Figure 8).
RegMix는 분석적 형태를 가정하지 않고 데이터에서 직접 패턴을 학습하는 비모수적 접근이다. 전체 도메인 벡터를 동시에 입력받아 상호작용을 함께 모델링한다는 점도 차별점이다.
"Different from data scaling works that attempt to find an analytical scaling function, RegMix directly optimizes the target metric using regression models."
논문의 모든 코드, 데이터셋, 훈련된 모델이 공개되어 있다:
§5.3에 나온 1B 모델 실험과는 별개로, RegMix는 7B 모델 실험(최대 100B 토큰)에서도 인간 선택과 비교되었다 (Figure 1). 12개 태스크 중 대부분에서 RegMix가 인간 선택을 꾸준히 상회했으며, 특히 양의 스케일링 특성을 보이는 태스크(학습 데이터가 늘어날수록 성능이 향상되는 태스크)에서 그 우위가 더욱 두드러졌다.
"For tasks exhibiting positive scaling behavior, the performance benefit is preserved with increased training data, suggesting robust scaling properties of RegMix."
논문의 주요 Figure를 원본 그대로 수록합니다. 각 Figure 아래 해설을 참고하세요.