RegMix: 데이터 혼합을 회귀 문제로

문제의 배경 — 기존 연구의 한계

대형 언어 모델(LLM)은 인터넷에서 수집한 방대한 텍스트 데이터를 기반으로 학습된다. 이 데이터는 학술 논문(arXiv), 책(Project Gutenberg), 코드(GitHub), 웹페이지(CommonCrawl) 등 다양한 도메인(domain)으로 구성되어 있다. 그런데 문제가 있다: 각 도메인을 얼마나 섞어서 학습해야 하는가?

GPT-3를 만들 때부터 이 질문은 중요했다. OpenAI 연구자들은 Wikipedia가 '고품질'이라는 직관에 따라 Wikipedia를 업샘플링(upsample)했다. 그러나 이런 방식은 확장성이 없다 — 도메인이 수십, 수백 개가 되면 인간의 직관만으로 최적 비율을 결정하기 어렵고, 직관적으로 '좋아 보이는' 데이터가 반드시 더 나은 모델을 만들지 않는다.

기존 접근법과 그 한계

데이터 선택 방법은 세 가지 수준으로 구분된다:

한계 1 수동 혼합 (Manual mixture) — GPT-3, Gopher, LLaMA 등 초기 LLM들이 사용한 방식. 연구자의 경험적 판단에 의존하며 최적이 아닐 수 있다. 도메인 수가 늘어나면 탐색 공간이 기하급수적으로 커진다.

한계 2 온라인 동적 조정 (Online methods, e.g., DoGE, ODM) — 학습 중에 도메인 가중치를 실시간으로 바꾸는 방식. 유연하지만 단일 모델을 장시간 연속으로 학습시켜야 한다. Llama 3처럼 15T 토큰을 쓰는 모델에는 이 자체가 엄청난 비용이 된다.

한계 3 오프라인 프록시 모델 (Offline proxy, e.g., DoReMi) — 소형 프록시 모델을 훈련해 도메인 가중치를 결정한다. 그러나 DoReMi는 프록시 모델 한 개를 수십만 스텝 동안 순차적으로 학습시켜야 한다. 또한 프록시 모델 크기에 따라 결과가 불안정하게 달라진다 (280M 모델에서 Pile-CC 가중치 0.67, 1B 모델에서 0.20으로 급변).

"Training a proxy model for current models, such as Llama-3, would require using up to 15T tokens, which is likely too expensive and too slow to make it worthwhile."
현재 Llama-3 수준의 모델에 기존 프록시 방식을 적용하려면 최대 15T 토큰이 필요해, 실용적이지 않다.

그렇다면 어떻게 해야 할까? 논문은 이 문제를 완전히 다른 방향에서 접근한다: "많은 소형 모델을 병렬로 훈련해서, 데이터 혼합이 성능에 미치는 영향을 회귀 모델로 예측하자."

이 논문의 선택 — 핵심 아이디어와 트레이드오프

핵심 가설: 데이터 혼합의 순위 불변성 (Rank Invariance)

RegMix의 모든 것은 하나의 대담한 가설 위에 서 있다:

"The relative ranking of data mixtures in terms of their impact on model performance is consistent across different model sizes and numbers of training tokens."
데이터 혼합이 모델 성능에 미치는 영향의 상대적 순위는 모델 크기와 학습 토큰 수가 달라져도 일관되게 유지된다.

이 가설이 맞다면, 극소형 모델(1M 파라미터)로 얻은 순위 정보를 훨씬 큰 모델(1B 파라미터)에도 적용할 수 있다. 즉, 비싼 실험을 줄이면서도 좋은 혼합 비율을 찾을 수 있다.

순위 불변성 가설: 소형 모델에서 혼합 A > B > C > D 였다면, 대형 모델에서도 같은 순위가 유지된다. 검증 결과 LightGBM 모델 기준 97.12% Spearman 상관계수를 달성했다.

RegMix의 선택: 왜 회귀인가?

핵심 통찰 회귀 모델은 특정 데이터 혼합 → 성능 함수를 학습한다. 한 번 학습하면, 수백만 개의 새로운 혼합 조합에 대한 성능을 CPU 10초 내에 예측할 수 있다. 각 조합마다 모델을 훈련할 필요가 없다.

무엇을 포기했는가? — 트레이드오프

트레이드오프 검증 범위의 한계: 이 접근법은 1M~1B 파라미터 범위에서만 검증되었다. 7B, 70B 모델에서 순위 불변성이 유지되는지는 아직 미검증이다. 또한 새로운 도메인이나 완전히 다른 데이터 분포에서는 예측이 빗나갈 수 있다.

트레이드오프 오프라인 설계의 한계: RegMix는 사전에 최적 혼합을 결정하는 오프라인 방식이다. 학습 중 도메인 분포가 변화하는 시나리오(예: 데이터 추가)에는 대응하기 어렵다.

보충 "회귀 = 예측 함수 학습"이라는 프레임은 NLP에서 다소 이례적이다. 일반적으로 딥러닝 연구에서 회귀는 최종 목표가 아닌 보조 도구로 쓰인다. 여기서는 회귀 모델 자체가 핵심 기여다 — 딥러닝 모델이 아닌 LightGBM이 최선의 결과를 낸다는 것도 흥미롭다.

방법론

RegMix는 4단계 파이프라인으로 구성된다:

① 소형 프록시 모델 훈련 — 다양한 혼합 생성

첫 번째 과제는 회귀 모델 학습을 위한 훈련 데이터 생성이다. 단순히 균일하게 혼합을 샘플링하면 특정 극단적 조합을 놓칠 수 있다. RegMix는 Dirichlet 분포를 사용한다:

\[ \mathbf{x}_i \sim \text{Dir}(\boldsymbol{\alpha}), \quad \boldsymbol{\alpha} = \lambda \cdot \mathbf{x}_0, \quad \lambda \in [0.1,\ 5.0] \]

변수	의미	비고
`x_i`	i번째 프록시 모델의 데이터 혼합 비율 벡터	n개 도메인의 가중치, 합이 1
`α`	Dirichlet 분포의 집중도 파라미터	값이 클수록 균일 분포에 가까워짐
`x₀`	도메인별 토큰 수 기반 기본 분포	데이터 가용성 반영
`λ`	분포 희소성 조절 파라미터	0.1이면 희소(극단적), 5.0이면 균일에 가까움

직관적 해설

Dirichlet 분포는 "여러 카테고리에 대한 확률 분포들의 분포"다. λ를 0.1에서 5.0 사이로 변화시키면 "특정 도메인에 거의 100% 집중"에서 "모든 도메인이 고르게 포함"까지 다양한 혼합이 생성된다. x₀를 기반으로 삼는 이유는, 토큰 수가 1% 미만인 소형 도메인이 비현실적으로 높은 가중치를 받는 상황을 방지하기 위해서다.

수학적 유도

Dirichlet(α)에서 샘플링된 벡터는 합이 1인 비음수 벡터다. α의 모든 원소가 크면 샘플이 균일 분포 근방에 집중되고, α가 작으면 극단적인 희소 분포(하나의 원소만 1에 가깝고 나머지는 0)가 나온다. λ × x₀를 α로 쓰면, 기본 분포 x₀의 형태를 유지하면서 희소도만 λ로 조절할 수 있다.

② 회귀 모델 피팅

N개 프록시 모델의 훈련 결과 {(혼합 비율 벡터, 검증 손실)} 쌍을 가지고 회귀 모델을 학습한다.

선형 회귀 (Linear Regression)

\[ y = \omega_0 + \omega_1 x_1 + \omega_2 x_2 + \cdots + \omega_n x_n + \epsilon \]

변수	의미	비고
`y`	예측 타깃값 (예: Pile-CC 검증 손실)	낮을수록 좋음
`x_i`	i번째 도메인의 데이터 혼합 가중치	0 ≤ xᵢ ≤ 1, Σxᵢ = 1
`ω_i`	i번째 도메인의 회귀 계수	양수면 해당 도메인 증가 시 손실 증가
`ω₀`	편향(intercept)
`ε`	오차항

직관적 해설

각 ω_i는 "도메인 i의 가중치가 1 증가할 때 검증 손실이 얼마나 변하는가"를 나타낸다. 음수면 그 도메인을 더 넣을수록 손실이 줄어든다(좋아진다). 이 계수들을 시각화하면 도메인 간 상관관계를 인간이 해석할 수 있다. 실제 구현에서는 L2 정규화(Ridge)를 추가해 과적합을 방지한다.

수학적 유도

Ridge 회귀는 손실함수 L = Σ(yᵢ - ŷᵢ)² + λ||ω||² 를 최소화한다. 5-fold 교차 검증으로 λ를 {1e-3, 1e-2, ..., 1e3} 중에서 선택한다. 일반 OLS(최소제곱법)보다 안정적이며, 도메인 수(n=17)가 적어 선형 가정이 어느 정도 성립한다.

LightGBM 회귀

LightGBM은 결정 트리 앙상블을 그래디언트 부스팅으로 학습한다. 비선형적인 도메인 상호작용까지 포착할 수 있어 선형 회귀보다 훨씬 높은 예측 정확도를 달성한다. 하이퍼파라미터: 1000 반복, 학습률 1e-2.

실험 결과 LightGBM은 1M 모델 기준 Spearman ρ = 98.45%, 1B 모델 기준 97.12%를 달성했다. 선형 회귀는 각각 90.08%, 88.01%에 그쳤다. 도메인 간 비선형 상호작용이 크다는 증거다.

③ 시뮬레이션 & 예측 — 가장 효율적인 단계

회귀 모델이 학습되면, 이를 이용해 방대한 혼합 공간을 탐색한다:

"Running prediction for 1,000,000 data mixtures takes less than 10 CPU seconds."
100만 개 데이터 혼합에 대한 예측이 CPU 10초도 안 걸린다.

그 중 가장 좋은 예측값을 가진 상위 100개 혼합을 평균 내어 최종 혼합 비율을 결정한다. 상위 1개만 쓰지 않고 100개를 평균내는 이유는 예측 불확실성에 대한 앙상블(ensemble) 효과로 더 안정적인 결과를 얻기 위해서다.

RegMix 알고리즘 — 스텝별 추적

스텝 1 / 4

수식 & 알고리즘 요약 (Algorithm 1)

논문 Appendix H에 수록된 의사코드를 풀어서 설명한다:

-- 입력 --
x₀: n개 도메인의 기본 토큰 분포 벡터
N: 프록시 모델 수 (실험에서 N=512)
f: 회귀 모델 (LightGBM)
y: 타깃 메트릭 (Pile-CC 검증 손실)

-- 1단계: 프록시 모델 훈련 --
for i = 1 to N:
  λ ← Uniform([0.1, 5.0])
  xᵢ ← Dirichlet(α = λ · x₀)      // 다양한 혼합 샘플링
  소형 모델을 xᵢ 혼합으로 T 토큰 훈련   // 병렬 가능
  yᵢ ← 검증 손실 측정

-- 2단계: 회귀 모델 피팅 --
f ← Fit({(x₁,y₁), ..., (xₙ,yₙ)})   // LightGBM 학습

-- 3단계: 시뮬레이션 & 예측 --
{x₁,...,x_M} ← 후보 혼합 생성 (M=1,000,000)
x* ← argmin_{xⱼ} f(xⱼ)             // 상위 100개 평균

-- 4단계: 대규모 모델 훈련 --
대규모 모델을 x* 혼합으로 훈련 (1000× 파라미터, 25× 토큰)
return x*

구현 세부사항

모델 아키텍처는 TinyLlama를 기반으로 하며, 레이어 수·헤드 수·임베딩 차원을 조절해 1M, 60M, 1B, 7B 변형을 만든다.

모델	레이어 수	헤드 수	임베딩 차원	FFN 차원	어휘 크기
1M	2	8	256	512	50,432
60M	10	8	768	1,536	50,432
1B	22	16	2,048	5,632	50,432
7B	32	16	4,096	12,288	50,432

공통 훈련 설정:

항목	값
토크나이저	GPTNeoX (어휘 크기 50,432)
배치 크기	1M 토큰
학습률	4e-4
스케줄러	코사인(cosine) 학습률 감소
1M 프록시 모델	1,000 스텝 × 1M 배치 = 1B 토큰
1B 최종 모델	25,000 스텝 × 1M 배치 = 25B 토큰
데이터셋	The Pile (저작권 미문제 17개 서브셋)
회귀: Ridge λ	5-fold CV, {1e-3, 1e-2, 1e-1, 1, 10, 100, 1000}
회귀: LightGBM	1000 반복, 학습률 1e-2, 나머지는 기본값
코드	github.com/sail-sg/regmix

부록 추가 Appendix E (구현 세부사항): 모델 아키텍처는 TinyLlama(Zhang et al., 2024a) 기반이며, GPTNeoX 토크나이저(어휘 크기 50,432)를 사용한다. 선형 회귀에 5-fold 교차 검증을 적용해 L2 정규화 가중치를 {1e-3, 1e-2, ..., 1e3} 중에서 선택한다. LightGBM은 1000 반복, 학습률 1e-2, 나머지 하이퍼파라미터는 기본값.

부록 추가 Appendix F (안정성 분석): DoReMi는 프록시 모델 크기가 달라지면 결과가 불안정하다 — 280M 모델 사용 시 Pile-CC 가중치 0.67, 1B 모델 사용 시 0.20 미만으로 급변한다. RegMix는 1M과 60M 프록시 모델에서 거의 동일한 분포를 도출해 높은 안정성을 보였다 (Figure 14). 이는 여러 모델의 집합적 통계를 사용하기 때문이다.

평가 논문은 FP16/BF16 혼합 정밀도 사용 여부, GPU 수, Flash Attention 적용 여부를 명시하지 않는다. TinyLlama 아키텍처를 기반으로 한다는 점에서 표준 transformer 훈련 설정을 따를 것으로 추정된다. 파라미터 수는 비임베딩 파라미터만 카운트한다 (소형 모델에서 임베딩이 차지하는 비율이 과도하게 크기 때문).

데이터셋: The Pile

실험에 사용된 The Pile 데이터셋의 17개 이용 가능 도메인 (저작권 문제가 있는 Books3, BookCorpus2 등은 제외):

도메인	크기 (GiB)	도메인	크기 (GiB)
Pile-CC (CommonCrawl)	227.12	OpenSubtitles	19.47
PubMed Central	180.55	Wikipedia (en)	19.13
OpenWebText2	125.54	DM Mathematics	15.49
ArXiv	112.42	Ubuntu IRC	11.03
Github	95.16	EuroParl	9.17
FreeLaw	76.73	HackerNews	7.80
Stack Exchange	64.39	YoutubeSubtitles	7.47
USPTO Backgrounds	45.81	PhilPapers	4.76
PubMed Abstracts	38.53	NIH ExPorter	3.79

결과

97.12%

Spearman ρ (1M→1B)

LightGBM 회귀 모델의 1B 대형 모델 순위 예측 정확도

47.3

RegMix 평균 점수

인간 선택 45.1, DoReMi 46.8 대비

10×

계산 비용 절감

DoReMi 3.7e19 FLOPs vs RegMix 3.5e18 FLOPs

14.6%p

최대 성능 차이

Lambada 태스크: 최악 18.9% vs 최선 33.5%

결과 1: 회귀 모델의 예측 정확도

회귀 모델이 얼마나 정확하게 성능 순위를 예측하는지 검증했다. 512개 1M 모델로 회귀 모델을 피팅하고, 별도의 보이지 않은(unseen) 혼합들에 적용했다:

테스트 대상	선형 회귀		LightGBM
	ρ (↑)	MSE (↓)	ρ (↑)	MSE (↓)
1M 모델 (1B 토큰)	90.08	0.13	98.45	0.04
60M 모델 (1B 토큰)	89.26	—	98.64	—
1B 모델 (25B 토큰) ★	88.01	—	97.12	—

★ 가장 중요한 결과: 1M 모델로 훈련한 회귀 모델이 1000× 더 큰 모델에서도 97.12%의 순위 상관관계를 보인다. 이것이 순위 불변성 가설의 직접 검증이다.

부록 추가 Appendix C.1 (회귀 예측 시각화): 1M 모델에서 Linear 모델은 산점도에서 상관계수 0.90, LightGBM은 거의 완벽한 직선(0.99)을 보인다. LightGBM의 우수성이 단순히 Spearman 수치가 아닌 실제 손실 예측 정확도에서도 뚜렷하다.

부록 추가 Appendix C.2 (OOD 설정): Pile-CC를 학습 코퍼스에서 완전히 제외하고 Pile-CC 손실을 타깃으로 삼는 OOD 실험에서도 LightGBM이 ρ = 95.47%를 달성했다. 즉, RegMix는 타깃 도메인이 훈련 데이터에 없어도 효과적이다.

핵심 발견 프록시 모델 수가 학습 토큰 수보다 중요하다. 동일한 FLOPs 예산 내에서 프록시 모델 수를 512개에서 128개로 줄이는 것보다, 훈련 토큰을 0.25B에서 1B로 늘리는 것이 훨씬 효과가 적다. 토큰 수는 약 0.25B에서 포화되지만, 모델 수는 늘릴수록 계속 좋아진다.

결과 2: 다운스트림 태스크에서의 비교

64개 1B 모델의 성능 편차 (최악 vs 최선):

벤치마크	최악 모델	최선 모델	차이 (Δ)
Lambada	18.9	33.5	14.6
QQP	48.0	59.7	11.7
HellaSwag	33.0	43.4	10.4
COPA	61.5	70.5	9.0
PiQA	60.2	69.0	8.8
MultiRC	47.6	55.7	8.1
ARC Easy	44.9	52.2	7.3
SciQ	76.7	82.9	6.2
OpenBookQA	25.8	31.2	5.4
RACE	27.9	32.5	4.6
LogiQA	23.2	27.7	4.5
WinoGrande	50.3	53.2	2.9
Social IQA	32.4	33.9	1.5
평균	43.7	47.9	4.2

결과 3: 방법 간 비교 (1B 모델, 25B 토큰)

벤치마크	Baseline Human	DoReMi	PPL	ODM	Pile-CC Only	Ours RegMix
Social IQA	33.6	33.4	33.3	33.7	33.2	33.8
HellaSwag	37.4	43.4	43.1	37.2	44.1	44.2
PiQA	65.0	68.3	68.5	64.4	69.2	69.3
OpenBookQA	28.2	30.3	30.3	30.0	31.1	30.3
Lambada	29.8	32.1	35.4	29.6	33.2	34.2
SciQ	80.1	81.6	78.6	79.8	81.8	82.8
ARC Easy	49.4	50.6	50.5	47.9	51.8	51.7
COPA	66.7	68.5	69.2	68.2	65.8	70.2
RACE	29.0	31.3	31.5	29.7	31.8	31.3
QQP	52.4	56.6	50.0	53.1	57.0	58.3
WinoGrande	53.1	52.2	52.8	51.8	52.1	53.1
평균 성능	45.1	46.8	46.2	45.0	46.8	47.3
14개 중 최고 달성	2/14	0/14	1/14	0/14	5/14	7/14
예상 FLOPs	0	3.7e19	1.8e19	0	0	3.5e18

결과 4: 예상치 못한 발견 — 웹 코퍼스가 가장 중요하다

"Surprisingly, the validation loss on the Pile-CC dataset shows the strongest correlation with most downstream tasks... The correlation coefficient between the HellaSwag task and the Pile-CC validation loss is remarkably close to 1.0."
놀랍게도 Pile-CC(CommonCrawl) 검증 손실이 대부분의 다운스트림 태스크와 가장 강한 상관관계를 보인다. HellaSwag와의 상관계수는 거의 1.0에 가깝다.

직관에 반하는 발견이다. 많은 연구자들이 Wikipedia를 '고품질'로 여기고 업샘플링했지만, 실제 데이터를 보면 CommonCrawl(웹 페이지)이 다운스트림 성능과 가장 강하게 상관된다. RegMix가 도출한 최적 혼합도 이를 반영한다: Pile-CC 가중치 0.87 (인간 선택은 0.142).

보충 이 결과는 Gadre et al. (2024)과 Huang et al. (2024)의 독립적인 발견과도 일치한다. 웹 코퍼스가 가장 광범위한 주제 다양성을 갖기 때문에 모든 종류의 다운스트림 태스크와 일관성 있게 상관된다는 해석이 가능하다. C4100Domain 실험에서도 85% 이상의 URL 도메인들이 Pile-CC와 유사한 상관 패턴을 보인다.

결과 5: 도메인 상호작용은 직관을 벗어난다

선형 회귀 모델의 계수(ω) 시각화에서 놀라운 사실이 드러났다:

반직관적 발견 PhilPapers(철학 논문)가 모든 도메인에 긍정적 영향을 미친다. 크기가 작고(4.76 GiB), 매우 전문적인 철학 텍스트인 PhilPapers를 늘리면 오히려 ArXiv, FreeLaw, GitHub 등 관계없어 보이는 도메인의 성능도 향상된다. 이처럼 도메인 간 상호작용은 단순 직관으로 예측하기 어렵다.

결과 6: 100개 도메인으로의 확장

RegMix가 17개 도메인뿐만 아니라 100개 세밀한 도메인(FineWeb URL 기반)에서도 작동하는지 검증했다 (1,000개 소형 모델 사용):

도메인 수	테스트 대상	선형 ρ (↑)	LightGBM ρ (↑)
17개	1M	90.08	98.45
17개	1B	88.01	97.12
100개	1M	90.33	99.53
100개	60M	88.64	98.80

100개 도메인에서도 LightGBM이 99.53%를 달성하며 확장성을 입증했다.

[부록 추가] LightEval 기반 추가 검증 (Appendix C.4)

FineWeb(Penedo et al., 2024b)의 평가 방식을 따라 LightEval을 사용한 5회 반복 실험 결과 (평균 제로샷 성능, 표준편차 포함):

벤치마크	Human	DoReMi	Pile-CC Only	Ours RegMix
ARC Easy	45.3 ± 0.4	46.6 ± 0.7	47.1 ± 0.6	47.2 ± 0.9
HellaSwag	36.5 ± 0.2	41.5 ± 0.3	39.7 ± 0.5	42.1 ± 0.3
CommonsenseQA	31.8 ± 1.2	34.1 ± 0.7	34.9 ± 0.3	35.0 ± 0.5
OpenBookQA	29.8 ± 0.6	31.0 ± 0.8	31.5 ± 0.4	31.8 ± 0.8
PiQA	65.4 ± 0.6	68.7 ± 0.3	69.0 ± 0.5	69.4 ± 0.5
평균	39.5 ± 0.3	41.1 ± 0.3	41.2 ± 0.3	41.5 ± 0.2
Human 대비 유의미한 우위	—	5/9	6/9	6/9
예상 FLOPs	0	3.7e19	0	3.5e18

Cohen's d 유의성 기준으로 볼 때, RegMix는 9개 태스크 중 6개에서 인간 선택 대비 유의미한 우위를 보이며 DoReMi와 동등 이상의 성능을 달성했다. 특히 낮은 표준편차(±0.2)는 재현성이 높음을 시사한다.

한계점 & 트레이드오프

한계 1 순위 불변성 가정의 검증 범위 — 현재 1M~1B 파라미터 범위에서만 검증되었다. 3B 모델 검증을 위해서는 64개 모델 × 50B 토큰씩 훈련해야 하는데, 이는 3B 모델 하나를 3.2T 토큰으로 훈련하는 것과 동등한 비용이다. 더 큰 모델(7B, 70B)에서 가설이 여전히 성립하는지는 미검증이다.

scaling laws small-to-large transfer

한계 2 벤치마크 커버리지 — 1B 모델 크기에서 MMLU 성능은 거의 랜덤 수준이고, GSM8K(수학)는 사실상 0에 가깝다. 따라서 이 벤치마크들과 검증 손실의 상관관계를 측정할 수 없었다. RegMix가 이러한 고난이도 태스크에서도 유효한지는 불명확하다.

MMLU benchmark math reasoning LLM

한계 3 무한 데이터 가정 — 기존 데이터 혼합 방법들(RegMix 포함)은 모든 도메인의 데이터가 무한정 있다고 가정한다. 하지만 현실에서는 일부 도메인의 데이터가 부족해 높은 가중치를 줘도 토큰이 반복될 수밖에 없다. 데이터 재사용에 대한 decay 계수를 RegMix와 결합하는 것은 미래 과제다.

data-constrained training data repetition effects

한계 4 도메인 분류 가정 — 각 데이터 예제가 어느 도메인에 속하는지 알고 있다고 가정한다. 그러나 실제로는 도메인 분류 자체가 어려울 수 있고, 경계가 불분명한 경우 방법 적용이 어렵다.

한계 5 토크나이저 가정 — 프록시 모델과 최종 대형 모델이 같은 토크나이저와 어휘 크기를 사용해야 한다. 서로 다른 토크나이저 간에 도메인 가중치를 일반화하는 것은 여전히 어려운 문제다.

tokenizer transfer

트레이드오프 요약 얻은 것: 효율성(DoReMi의 10% 비용), 병렬성, 안정성, 해석 가능성(계수 시각화)
포기한 것: 대규모 모델 검증, 온라인 적응, 데이터 가용성 반영, 범용 토크나이저 지원

영향력 & 후속 연구

RegMix는 다음과 같은 실용적 가치를 제공한다:

민주화 학술 예산으로도 LLM 데이터 혼합 연구 가능. 프록시 모델 훈련 비용이 최종 모델의 ~2%에 불과하므로, 대규모 인프라 없이도 데이터 혼합 최적화를 실험할 수 있다. 모든 데이터셋과 훈련된 모델이 공개되어 있다.

통찰 웹 코퍼스의 중요성 재인식. 직관에 반하는 발견(Pile-CC > Wikipedia)은 기존 LLM 사전학습 데이터 설계 관행을 재고하게 한다. 다양한 URL 도메인이 모두 유사한 상관 패턴을 보인다는 발견은 웹 데이터의 '다양성'이 핵심임을 시사한다.

저자들이 제안한 후속 연구 방향:

더 큰 모델(3B, 7B, 70B)에서 순위 불변성 검증
Muennighoff et al. (2023)의 데이터 재사용 decay 계수와 RegMix 결합
지속적 사전훈련(continued pre-training)에의 적용
도메인 분류 자동화와의 결합
멀티모달 학습에의 확장

Q&A — 연구자의 고민과 독자의 질문

Q1. 왜 타깃을 Pile-CC 검증 손실로 설정했나? 모든 도메인의 평균 손실을 최소화하면 안 되나?

논문이 직접 이 질문을 다룬다. 1M 모델 훈련 로그를 분석했을 때, 모든 도메인의 손실을 동시에 최소화하려는 시도는 "significant practical challenges"를 유발했다고 밝힌다. 이는 도메인 간 상충 관계(trade-off) 때문이다 — 한 도메인을 잘하려면 다른 도메인을 희생해야 하는 경우가 많다.

대신 Pile-CC를 선택한 근거는 §5.2의 실험에서 나왔다: Pile-CC 검증 손실이 거의 모든 다운스트림 태스크와 가장 강한 상관관계를 보인다. 즉, "Pile-CC를 잘하는 모델 = 전반적으로 좋은 모델"이라는 경험적 지표다.

"Instead of pursuing a broad optimization strategy, we strategically focus on minimizing validation loss on Pile-CC, which allows for meaningful progress."

평가 논문은 명시하지 않지만, 이 전략은 암묵적으로 Pile-CC가 훈련 코퍼스에 포함되어 있는 경우를 전제한다. §5.3의 "out-of-distribution" 실험에서 Pile-CC를 완전히 제외하고도 효과가 있음을 보여주지만, 타깃 도메인 선택이 성능에 영향을 미칠 수 있다.

Q2. 512개가 왜 충분한가? 17개 도메인의 조합 공간은 무한한데?

회귀 모델은 완전 탐색이 아닌 일반화를 학습한다. 512개 샘플이 17차원 입력 공간의 패턴을 충분히 포착할 수 있는 이유는 두 가지다:

(1) LightGBM은 비선형 상호작용을 학습할 수 있으면서도 과적합에 강하다. (2) Dirichlet 샘플링이 공간의 극단값까지 커버해 다양한 혼합 패턴을 포함한다.

Figure 4에서 512개 이상으로 늘려도 성능 향상이 포화됨을 보였다. 그러나 도메인 수가 늘어날수록 필요한 프록시 수도 증가할 것이다 — 100개 도메인 실험에서는 1,000개 모델을 사용했다.

Q3. RegMix가 도출한 혼합(Pile-CC 87%)은 직관적으로도 이해가 되는가?

어느 정도 이해가 된다. Pile-CC는 웹에서 수집된 방대하고 다양한 텍스트 코퍼스로, 거의 모든 종류의 지식과 언어 패턴을 포함한다. LLM이 다양한 태스크를 잘하려면 이러한 일반 도메인 데이터가 핵심이 되는 것은 직관적으로 납득된다.

흥미롭게도 DoReMi도 Pile-CC에 0.743의 높은 가중치를 부여한다 — 방법은 다르지만 비슷한 결론에 도달한다는 것이다. 그러나 RegMix의 0.87은 더 극단적이며, Ubuntu IRC(0.064)나 PubMed Abstracts(0.024) 같은 소도메인도 여전히 포함한다.

RegMix 도출 혼합 (상위 5개 도메인) Pile-CC: 87.0% / Ubuntu IRC: 6.4% / PubMed Abstracts: 2.4% / Wikipedia: 1.6% / HackerNews: 1.2%

Q4. RegMix는 왜 기존 스케일링 법칙 접근법과 다른가?

기존 스케일링 법칙 연구(Ye et al., 2024; Ge et al., 2024)들은 분석적 함수를 찾으려 한다 — "도메인 비율 x에서 손실은 ax^b + c 형태를 따른다"는 식. 이 접근은 해석 가능성이 높지만, 실제 데이터를 보면 log-log 선형 관계가 성립하지 않는 도메인이 많다 (Figure 8).

RegMix는 분석적 형태를 가정하지 않고 데이터에서 직접 패턴을 학습하는 비모수적 접근이다. 전체 도메인 벡터를 동시에 입력받아 상호작용을 함께 모델링한다는 점도 차별점이다.

"Different from data scaling works that attempt to find an analytical scaling function, RegMix directly optimizes the target metric using regression models."

Q5. 코드와 모델은 어디서 확인할 수 있나?

논문의 모든 코드, 데이터셋, 훈련된 모델이 공개되어 있다:

GitHub: github.com/sail-sg/regmix
HuggingFace 데이터셋: pile-uncopyrighted
평가 프레임워크: lm-eval-harness

Q6. 7B 모델 실험에서 RegMix는 어떻게 평가되었나?

§5.3에 나온 1B 모델 실험과는 별개로, RegMix는 7B 모델 실험(최대 100B 토큰)에서도 인간 선택과 비교되었다 (Figure 1). 12개 태스크 중 대부분에서 RegMix가 인간 선택을 꾸준히 상회했으며, 특히 양의 스케일링 특성을 보이는 태스크(학습 데이터가 늘어날수록 성능이 향상되는 태스크)에서 그 우위가 더욱 두드러졌다.

"For tasks exhibiting positive scaling behavior, the performance benefit is preserved with increased training data, suggesting robust scaling properties of RegMix."