TiKMiX — Paper2Web

문제의 배경 — 기존 연구의 한계

대규모 언어 모델(LLM)의 사전학습은 방대한 웹 데이터를 활용하며, 이 데이터는 학술 논문·책·뉴스·포럼 등 수십 개의 도메인(domain)으로 구성됩니다. 각 도메인을 어떤 비율로 섞느냐 — 이른바 데이터 혼합(data mixture) — 는 모델의 최종 성능을 결정하는 핵심 변수입니다. GPT-3 저자들이 Wikipedia를 고품질 데이터로 보고 그 비율을 늘린 사례가 대표적입니다.

그러나 현실에서 "최적의 혼합 비율"을 찾는 일은 극도로 어렵습니다. 기존 접근법들은 다음과 같은 한계를 가집니다.

한계 1 정적 혼합(Static Mixing)의 근본 결함: The Pile의 Pile-CC처럼 휴리스틱으로 한 번 정한 비율을 학습 내내 고정하는 방식은, 모델의 학습 선호도가 훈련이 진행됨에 따라 동적으로 변한다는 사실을 무시합니다. 초반에 유익했던 도메인이 나중에는 "이미 충분히 배웠다"며 수확체감에 들어갈 수 있습니다.

한계 2 프록시 모델 방식의 비용 문제 (REGMIX, DoReMi): 소규모 프록시 모델을 학습시켜 최적 혼합 비율을 추정하는 방법들은 100B 토큰 이상의 방대한 실험 비용을 요구합니다. 또한 REGMIX는 "소규모 실험의 결과가 대규모에서도 유지된다"는 가정을 전제하지만, 모델 규모와 학습 단계에 따라 선호도가 달라진다는 현실을 반영하지 못합니다.

한계 3 반복적 동적 방식의 확장성 문제 (ODM, QUAD): 학습 중에 비율을 반복적으로 조정하려는 방법들(ODM 등)은 원리상 옳지만, 매 업데이트마다 모델 상태를 재평가해야 하는 반복적 특성이 초대형 사전학습 규모(수십~수백B 토큰)에서는 현실적으로 비효율적입니다.

"a model's learning preferences for various data domains shift dynamically throughout training. Crucially, observing these evolving preferences in a computationally efficient manner remains a significant challenge."
모델의 각 데이터 도메인에 대한 학습 선호도는 훈련 전반에 걸쳐 동적으로 변화한다. 결정적으로, 이러한 진화하는 선호도를 계산 효율적인 방식으로 관찰하는 것이 중요한 도전 과제로 남아 있다.

결국 이 논문이 해결하려는 문제는 이것입니다: "모델이 현재 무엇을 더 배우고 싶어하는지를, 저렴한 비용으로 측정하고, 이를 즉각 혼합 전략에 반영할 수 있는가?"

이 논문의 선택 — 핵심 아이디어와 트레이드오프

핵심 통찰: 영향 함수를 그룹 단위로 확장하라

TiKMiX의 핵심 아이디어는 영향 함수(Influence Function)를 개별 샘플이 아닌 도메인 전체 그룹에 적용하는 것입니다. 기존 영향 함수는 샘플 단위로 연산하므로 대규모 사전학습에는 비용이 너무 크지만, TiKMiX는 그라디언트 누적(gradient accumulation) 기법을 활용해 도메인 전체의 집합적 영향을 단 한 번의 헤시안-역행렬 곱(Hessian-inverse-vector product)으로 계산합니다.

핵심 아이디어 도메인 전체의 그라디언트를 먼저 누적한 뒤 헤시안 역행렬 곱을 한 번만 수행하면, 그룹 크기(|S|)에 관계없이 계산 비용이 일정합니다. 이를 통해 각 도메인이 모델의 검증 성능에 미치는 실시간 영향을 저렴하게 측정할 수 있습니다.

두 가지 최적화 전략

Group Influence 점수를 구한 뒤, TiKMiX는 이를 최대화하는 혼합 비율 벡터 w를 찾는 최적화 문제를 설정합니다. 이를 푸는 두 가지 방법을 제안합니다.

보충 각 블록을 클릭하면 해당 모듈의 역할과 설계 이유를 확인할 수 있습니다.

무엇을 포기했는가 — 트레이드오프

트레이드오프 TiKMiX-D는 도메인 영향이 선형적으로 더해진다(additivity)고 가정합니다. 실제로 논문의 부록 실험에서 ARC/HellaSwag/TriviaQA 벤치마크에서 피어슨 상관계수 0.845~0.931로 이 가정이 강하게 성립함을 입증했지만, 복잡한 비선형 교차도메인 효과(cross-domain interactions)를 완전히 포착하지는 못합니다. TiKMiX-M이 이를 보완하지만 추가 계산 비용이 발생합니다.

방법론

1. Group Influence — 수학적 유도

먼저 기본 학습 목표를 정의합니다. 모델 파라미터 θ는 데이터셋 D = {z₁, …, zₙ}에서 경험적 손실을 최소화합니다.

\[ \theta^* = \arg\min_{\theta} J(\theta) = \arg\min_{\theta} \frac{1}{N} \sum_{i=1}^{N} L(z_i, \theta) \quad (1) \]

변수	의미	비고
`θ*`	최적 파라미터	d차원 벡터
`J(θ)`	경험적 위험(empirical risk)	전체 데이터셋에 대한 평균 손실
`L(zᵢ, θ)`	i번째 샘플의 손실	크로스엔트로피 등
`N`	전체 훈련 샘플 수	대규모 사전학습에서 수백B 토큰

직관적 해설

이 수식은 표준 ERM(Empirical Risk Minimization)입니다. 모든 훈련 데이터에 동일한 가중치를 두고 평균 손실을 줄이는 파라미터를 찾습니다. 이 "균일한 가중치" 가정이 바로 정적 혼합의 한계 — 특정 도메인의 중요도가 학습 진행에 따라 달라지는 현실을 반영 못 한다 — 를 만들어냅니다.

수학적 배경

이 식이 성립하려면 손실 함수 L이 미분 가능하고 볼록(convex)에 가까워야 합니다. LLM 같은 비볼록 목적함수에서는 근사치만 얻지만, 실용적 영향 함수 계산에서는 이 가정이 충분히 유용합니다.

그룹 S ⊆ D의 영향을 측정하기 위해, S의 모든 원소를 무한소 가중치 ε만큼 상향시킨 섭동 목적 함수를 도입합니다.

\[ \theta_\epsilon^* = \arg\min_{\theta} \left[ \frac{1}{N} \sum_{i=1}^{N} L(z_i, \theta) + \epsilon \sum_{z_j \in S} L(z_j, \theta) \right] \quad (2) \]

변수	의미	비고
`ε`	섭동 강도	무한소 양수. ε=0이면 원래 θ* 복구
`S`	영향을 측정할 데이터 그룹(도메인)	예: "Wikipedia 도메인 전체"
`θ*_ε`	섭동된 목적 함수의 최적 파라미터	S를 더 강조했을 때의 파라미터

직관적 해설

"만약 도메인 S를 조금 더 자주 보여줬다면 파라미터가 어떻게 달라졌을까?"를 묻는 수식입니다. 이 변화량이 바로 S의 영향력입니다. ε → 0 극한을 취해 재훈련 없이 이 변화를 추정하는 것이 영향 함수의 핵심입니다.

수학적 유도

S의 가중치를 (1/N + ε)로 높인 목적 함수입니다. ε=0일 때 원래 J(θ)가 되므로, ε에 대한 미분 dθ*_ε/dε|_{ε=0}이 S가 파라미터에 미치는 한계 영향(marginal influence)을 나타냅니다. 음함수 미분 정리(implicit function theorem)를 이용해 재훈련 없이 이 값을 구합니다.

최적성 1계 조건(∇θ Jε = 0)을 ε로 미분하고 ε=0에서 평가하면, 헤시안과 그룹 그라디언트만으로 파라미터 영향을 표현할 수 있습니다.

\[ I_{\text{param}}(S) \triangleq \left.\frac{d\theta_\epsilon^*}{d\epsilon}\right|_{\epsilon=0} = -H_{\theta^*}^{-1} \sum_{z_j \in S} \nabla_\theta L(z_j, \theta^*) \quad (6) \]

변수	의미	비고
`Iₚₐᵣₐₘ(S)`	S가 모델 파라미터에 미치는 영향	d차원 벡터
`H_{θ*}`	원래 목적 함수의 헤시안(2계 도함수 행렬)	d×d 행렬, 직접 역산은 불가 → EK-FAC 등 근사 필요
`Σ ∇θ L(zⱼ, θ*)`	그룹 S 전체의 누적 그라디언트	그룹 내 샘플 수에 무관하게 gradient accumulation으로 효율 계산

직관적 해설

이 수식의 핵심은 "그룹 S의 그라디언트를 누적한 뒤 헤시안 역행렬을 한 번만 곱하면 된다"는 것입니다. 기존 샘플별 영향 함수와 달리, 그룹 전체에 대해 헤시안 역행렬 곱을 단 1회만 수행하므로 계산 비용이 |S|에 독립적입니다. 이것이 Group Influence의 확장성의 원천입니다.

유도 과정 요약

1계 최적성 조건 ∇θ Jε(θ*_ε, S) = 0을 ε로 전미분(total differentiation) → 연쇄 법칙 → ε=0 대입 → H_{θ*}·(dθ*_ε/dε)|₀ + Σ∇θL(zⱼ,θ*) = 0 → Hθ*가 양정치(positive definite)이면 역행렬 존재 → 식 (6) 도출. 헤시안 역행렬은 Anthropic의 EK-FAC 근사를 사용합니다.

이를 파라미터가 아닌 스칼라 함수 f(θ) (예: 검증 손실)에 대한 영향으로 변환합니다.

\[ I_f(S) = -\nabla_\theta f(\theta^*)^T H_{\theta^*}^{-1} \sum_{z_j \in S} \nabla_\theta L(z_j, \theta^*) \quad (8) \]

변수	의미	비고
`If(S)`	S가 검증 함수 f에 미치는 영향 (스칼라)	양수: 검증 성능 향상, 음수: 저하
`∇θ f(θ*)`	검증 손실의 파라미터 그라디언트	멀티 검증 세트 각각에 대해 계산
`Σ ∇θ L(zⱼ, θ*)`	도메인 S의 누적 그라디언트	gradient accumulation으로 배치 계산

직관적 해설

이것이 Group Influence의 최종 형태입니다. 검증 손실 그라디언트 방향과 도메인 그라디언트의 정렬(alignment)을 헤시안 역행렬로 조정한 내적입니다. 검증 손실과 훈련 도메인이 "같은 방향"으로 개선하려 한다면 If(S) > 0 (유익한 도메인), 반대 방향이면 If(S) < 0 (해로운 도메인)이 됩니다.

계산상의 장점

전체 계산을 두 단계로 분리할 수 있습니다: (1) 도메인별로 Σ∇θL(zⱼ,θ*)를 gradient accumulation으로 계산 — 그룹 크기에 비례하지만 단순 덧셈, (2) H⁻¹·v 연산(헤시안-역행렬 곱)을 한 번만 수행. 이 구조 덕분에 26개 도메인 모두에 대해 매우 효율적으로 영향 점수를 산출할 수 있습니다.

2. TiKMiX-D — 영향 최대화 직접 최적화

n개의 검증 태스크와 m개의 도메인에 대해 영향 행렬 S ∈ ℝⁿˣᵐ를 구성합니다. S의 원소 Sᵢⱼ는 도메인 j가 검증 태스크 i에 미치는 영향입니다. 혼합 벡터 w = [w₁, …, wₘ]ᵀ에 대해 각 태스크의 기대 영향은 P = S·w입니다. 태스크 간 스케일 차이를 제거하기 위해 정규화 영향 P̂ᵢ를 정의합니다.

\[ \hat{P}_i = \frac{P_i}{\max_j S_{ij} + \varepsilon} \quad (9) \]

변수	의미	비고
`P̂ᵢ`	태스크 i의 정규화된 기대 영향	최대 가능 영향 대비 비율
`max_j Sᵢⱼ`	태스크 i에 가장 큰 영향을 주는 도메인의 점수	태스크별 스케일 조정 기준
`ε`	수치 안정성을 위한 소상수	10⁻⁸ (0 나눗셈 방지)

왜 정규화가 필요한가

MMLU와 ARC는 태스크 난이도와 스케일이 다르므로, 원래 영향 점수를 그대로 합산하면 스케일이 큰 태스크가 최적화를 지배합니다. 최대 가능 영향으로 나눔으로써 "각 태스크에서 얼마나 잘 할 수 있는지 대비 현재 얼마나 하는지"의 비율로 만들어 공정한 비교를 가능하게 합니다.

최적화 목적 함수는 세 가지 목표를 균형 있게 통합합니다.

\[ \mathcal{L}(\mathbf{w}) = \alpha \cdot \text{std}(\hat{P}) - \beta \cdot \sum_{i=1}^{n} \hat{P}_i - \gamma \cdot H(\mathbf{w}) \quad (10) \]

항	의미	설계 이유
`α·std(P̂)`	영향 균등성 (표준편차 최소화)	특정 태스크만 치우치게 개선하면 다른 태스크 성능이 희생되므로, 균등 분포 장려
`-β·Σ P̂ᵢ`	총 영향합 최대화	전체적인 성능 개선폭을 크게 하기 위해 총 영향의 음수를 최소화
`-γ·H(w)`	데이터 다양성 (엔트로피 최대화)	혼합이 특정 도메인에 과도하게 쏠리면 일반화 능력 저하 → 엔트로피 음수를 최소화해 균등 분포 장려
`α, β, γ`	세 목표의 가중치	논문 실험에서 모두 1로 설정 (동등 중요도)

직관적 해설

이 목적 함수를 작게 만드는 w를 찾는 것이 TiKMiX-D입니다. "모든 태스크에서 골고루 좋아지되(균등성), 전체적으로 많이 좋아지면서(총 영향합), 데이터 혼합은 너무 치우치지 않아야 한다(다양성)"는 세 요구를 하나의 스칼라로 표현합니다.

왜 이 세 가지 항인가

균등성만 추구하면 모두 0으로 만드는 해가 나올 수 있습니다. 총 영향합만 추구하면 단 하나의 최고 도메인에 몰릴 수 있습니다. 다양성만 추구하면 균등 혼합으로 수렴합니다. 세 목표의 결합이 실용적으로 최선의 혼합을 찾도록 유도합니다.

이 최적화는 다음 제약 조건 하에서 수행됩니다.

\[ \text{minimize } \mathcal{L}(\mathbf{w}) \quad \text{s.t.} \quad \sum_{j=1}^{m} w_j = 1, \quad w_j \geq 0, \quad \mathbf{S} \cdot \mathbf{w} \geq \mathbf{S} \cdot \mathbf{w}_{\text{prior}} \quad (11) \]

제약	의미	이유
`Σwⱼ = 1`	확률 단체(simplex) 제약	혼합 비율이 합이 1인 분포를 이루어야 함
`wⱼ ≥ 0`	비음수 제약	음의 혼합 비율은 물리적으로 불가
`S·w ≥ S·w_prior`	파레토 개선 제약	모든 태스크에서 이전 혼합보다 나빠지면 안 됨 — 새 혼합이 전 스테이지보다 항상 개선됨을 보장

SLSQP 풀이

이 제약 비선형 최적화는 SLSQP(Sequential Least Squares Quadratic Programming)로 풉니다. 균등 분포로 초기화하여 수렴까지 반복합니다. 결과로 얻은 w_best가 다음 스테이지의 데이터 혼합 비율이 됩니다.

인터랙티브: 도메인 비율 변화와 영향합의 관계

보충 아래 슬라이더로 특정 도메인(예: Wikipedia)의 비율을 조정하면, 세 목적 항이 어떻게 변하는지 체험할 수 있습니다. (실제 Group Influence 값이 아닌 개념 데모입니다.)

Wikipedia 비율 0.20

3. TiKMiX-M — 혼합 영향 모델 (Mix Influence Model)

TiKMiX-D는 도메인 영향이 선형 가산적이라 가정하지만, 실제로는 서로 다른 도메인이 결합될 때 비선형 교차 효과가 발생할 수 있습니다. TiKMiX-M은 이를 보완하기 위해 TiKMiX-D의 결과를 출발점으로 삼아 서러게이트 회귀 모델(LightGBM)로 혼합→성능 관계를 학습합니다.

작동 과정: TiKMiX-D의 최적 혼합 w_best-D를 중심으로, 라틴 하이퍼큐브 샘플링(Latin Hypercube Sampling, LHS)으로 N개의 후보 혼합 벡터를 생성합니다. 각 후보에 대해 실제 Group Influence 점수 y를 계산하고, (w, y) 쌍으로 LightGBM을 학습합니다. 이후 Dirichlet 분포 기반 반복 탐색으로 전역 최적을 찾습니다.

스텝 1 / 5

4. 구현 세부사항

항목	설정값	비고
데이터셋	RefinedWeb (26 도메인)	도메인 분류기: DeBERTaV3 기반
모델 크기	1B, 7B 파라미터	두 스케일에서 모두 검증
총 학습 토큰	1T 토큰	2 스테이지 × 500B
혼합 재조정 빈도	200B 토큰마다	1T 학습 중 5회 재조정 기회
LHS 후보 수 (N)	256개	각 후보에 0.1B 토큰 샘플
서러게이트 모델	LightGBM	그라디언트 부스팅 의사결정 트리
SLSQP 초기값	균등 분포	α=β=γ=1
Dirichlet α 범위	α_max → α_min (로그 어닐링)	광역 탐색→국소 수렴
헤시안 역행렬 근사	EK-FAC (Anthropic 2023)	50B+ 파라미터 모델 적용 가능
검증 세트 수	9개 벤치마크	5 in-domain + 4 out-of-domain
TiKMiX-D 비용	REGMIX 대비 약 20%	프록시 모델 학습 불필요

평가 논문은 각 모델 스케일별 정확한 GPU 종류·수량·학습 시간을 명시하지 않습니다. Group Influence 계산에 EK-FAC 근사를 사용하지만 이 근사의 정확도가 최종 성능에 미치는 민감도는 별도 분석하지 않습니다.

결과

+2.0%

TiKMiX-M 성능 향상

최강 베이스라인 REGMIX 대비, 9개 벤치마크 평균

20%

TiKMiX-D 계산 비용

REGMIX 대비. 동등 또는 우수한 성능으로

ρ=0.79

Group Influence 예측력

Group Influence vs 다운스트림 성능 피어슨 상관계수

+4.8%

ARC 최대 성능 향상

ARC Easy/Challenge에서 TiKMiX-M의 최대 이득

Group Influence는 성능을 예측하는가?

TiKMiX의 핵심 가설 — "Group Influence를 최대화하면 다운스트림 성능이 오른다" — 을 검증하기 위해 10가지 서로 다른 혼합 비율로 1B 모델을 500B 토큰에 학습하고, Group Influence와 실제 성능 사이의 관계를 측정했습니다.

"a strong positive correlation (i.e., Pearson correlation coefficient ρ = 0.789) between the total Group Influence and the average downstream scores"
총 Group Influence와 평균 다운스트림 점수 사이에 강한 양의 상관관계(피어슨 상관계수 ρ = 0.789)가 존재한다.

이 결과는 Group Influence가 실제 성능 향상의 유효한 대리 지표(proxy)임을 실증적으로 뒷받침하며, TiKMiX-D와 TiKMiX-M의 이론적 토대를 제공합니다.

주요 성능 비교 (1B 모델, 1T 토큰)

벤치마크별 상세 결과 (Table 1)

벤치마크	Pile-CC	Average	DoReMi	QUAD	REGMIX	Ours TiKMiX-D	Ours TiKMiX-M
In-Domain
MMLU	31.2	30.9	31.2	31.7	31.5	32.2	31.8
HellaSwag	55.6	55.9	55.3	56.5	56.0	57.4	56.6
ARC Easy	63.2	64.1	65.7	62.8	66.2	69.3	70.7
ARC Challenge	32.7	32.1	33.6	33.5	33.2	37.0	38.3
TriviaQA	16.3	17.3	15.5	17.6	15.8	17.7	17.3
Out-of-Domain
PiQA	69.2	71.5	73.1	72.4	73.3	74.1	74.5
OpenBookQA	37.1	34.6	36.5	36.6	37.0	37.4	37.4
BoolQ	58.7	58.3	59.2	60.5	58.9	61.3	62.2
MathQA	22.5	23.7	23.1	23.9	23.3	23.5	24.2
FLOPs	0	0	4.2e19	2.3e18	3.7e18	7.2e17	3.2e18
평균 성능	42.9	43.2	43.7	43.9	43.9	45.5	45.9
최고 달성	0/9	0/9	0/9	0/9	0/9	4/9	6/9

에블레이션: 영향 관찰 데이터 크기 (Table 2)

Group Influence 계산을 위해 얼마나 많은 데이터가 필요한가? 손실(perplexity) 기반 관찰과 TiKMiX의 그룹 영향 관찰을 0.1B~10B 토큰 범위에서 비교했습니다.

핵심 발견 TiKMiX-D는 단 0.1B 토큰으로도 Loss-5B보다 높은 성능(45.5% vs 44.3%)을 달성합니다. 이는 Group Influence가 손실보다 훨씬 더 효율적이고 정보량이 많은 관찰 지표임을 보여줍니다. 게다가 Group Influence는 별도의 모델 학습 없이 그라디언트 계산만으로 얻을 수 있습니다.

스케일 검증: 7B 모델 (Table 3)

부록 추가 1B 모델 외에 7B 모델에서도 TiKMiX-D와 REGMIX를 비교했습니다. 7B 모델은 첫 스테이지 500B, 두 번째 스테이지 200B 토큰으로 학습했습니다.

벤치마크	REGMIX (1B)	TiKMiX-D (1B)	REGMIX (7B)	TiKMiX-D (7B)
MMLU	31.5	32.2	40.7	41.5
HellaSwag	56.0	57.4	76.6	76.4
ARC Easy	66.2	69.3	78.5	78.4
ARC Challenge	32.2	37.0	49.4	50.2
TriviaQA	15.8	17.7	46.4	45.3
PiQA	73.3	74.1	79.1	79.2
OpenBookQA	37.0	37.4	43.2	45.4
MathQA	23.2	23.5	28.8	29.9
평균	43.9	45.5	55.3	56.0

평가 7B 모델에서 HellaSwag와 ARC Easy는 REGMIX와 거의 동등합니다. 이는 7B 모델이 해당 벤치마크에서 이미 포화점에 가까워졌거나, 두 번째 스테이지의 짧은 200B 학습이 충분한 차별화를 만들기에 부족했을 가능성이 있습니다. 논문은 "7B 모델은 학습 내내 성능이 지속적으로 향상되어 더 긴 학습 데이터에서 TiKMiX의 이점이 더 두드러질 것"이라고 해석합니다.

한계점 & 트레이드오프

한계 1 선형 가산성 가정: Group Influence는 각 도메인의 영향이 선형적으로 합산된다고 가정합니다. 부록 실험에서 피어슨 상관계수 0.845~0.931로 이 가정이 강하게 성립하지만, 극단적인 도메인 조합에서는 비선형 교차 효과가 나타날 수 있습니다. TiKMiX-M이 이를 보완하나, 여전히 근사적 해결책입니다.

nonlinear mixture interaction mixture of experts

한계 2 헤시안 역행렬 근사 오차: Group Influence 계산에는 헤시안 역행렬이 필요하며, 실제로는 EK-FAC 같은 근사 방법을 사용합니다. 이 근사의 품질이 영향 점수의 신뢰성을 결정하지만, 논문은 근사 오차가 최종 성능에 미치는 영향을 별도로 분석하지 않습니다.

influence approximation accuracy EK-FAC approximation

한계 3 단일 데이터셋 (RefinedWeb) 한정 검증: 모든 실험이 26개 도메인으로 분류된 RefinedWeb에서만 수행되었습니다. 코드·수학·멀티모달 데이터를 포함한 더 다양한 데이터 소스나 더 큰 스케일(예: 10T 토큰, 70B+ 파라미터)에서의 검증이 부재합니다.

diverse data sources scaling laws data mixture

한계 4 멀티스테이지 파이프라인 엔지니어링 복잡도: TiKMiX는 학습을 여러 스테이지로 분리하고, 각 스테이지 전환 시 Group Influence 계산→최적화→새 혼합 적용의 파이프라인을 구축해야 합니다. 단일 연속 학습 파이프라인 대비 엔지니어링 복잡도가 높습니다.

online data selection

트레이드오프 요약

얻는 것	잃는 것
동적 선호도 반영 → 성능 +2%	학습을 여러 스테이지로 분리해야 함
REGMIX 대비 80% 계산 비용 절감	헤시안 역행렬 근사 오차 내재
프록시 모델 학습 불필요	Group Influence 계산용 검증 세트 필요
1B~7B 스케일 검증 완료	더 큰 스케일(70B+)에서의 검증 미완

영향력 & 후속 연구

이 논문은 세 가지 측면에서 LLM 사전학습 커뮤니티에 기여합니다.

실용적 기여: 기업 수준 LLM 사전학습 파이프라인에서 REGMIX, DoReMi를 대체하거나 보완할 수 있는 효율적인 동적 혼합 전략을 제공합니다. 특히 프록시 모델 학습 비용 없이 80% 계산을 절감하면서도 성능을 높이므로, 실용적 채택 가능성이 높습니다. 멀티스테이지 사전학습을 이미 사용하는 Llama 3, Qwen 같은 대형 모델 학습 파이프라인에 자연스럽게 통합할 수 있습니다.

이론적 기여: 영향 함수를 개별 샘플이 아닌 도메인 그룹 단위로 확장하는 Group Influence 메트릭은 그 자체로 이후 연구들이 활용할 수 있는 도구입니다. 또한 "모델의 데이터 선호도가 스케일과 학습 단계에 따라 변한다"는 현상을 1B/7B 실험으로 체계적으로 입증한 것도 중요한 경험적 기여입니다.

저자가 제안한 후속 과제: 더 큰 스케일 모델(70B+)과 더 다양한 데이터셋(코드·수학·멀티모달 포함)에서 Group Influence와 TiKMiX의 효과를 추가 검증하는 것을 명시적으로 제안합니다.

"We plan to conduct further experiments on larger-scale models and more diverse datasets to further validate the effectiveness of Group Influence and TiKMiX."
더 큰 규모의 모델과 더 다양한 데이터셋에서 Group Influence와 TiKMiX의 효과를 추가 검증하기 위한 실험을 계획하고 있다.

원본 Figure & Table

논문의 핵심 Figure들을 원본 그대로 보존합니다.

Figure 1 (p.1): 1B 파라미터 모델을 1T 토큰에 학습한 TiKMiX와 SOTA 데이터 혼합 전략들의 성능 비교. TiKMiX-M이 전반적으로 최고 성능을 달성하며, TiKMiX-D도 REGMIX를 큰 폭으로 상회합니다.

Figure 2 (p.2): TiKMiX 프레임워크 전체 흐름. Group Influence로 도메인별 기여를 측정하고 TiKMiX-D/M으로 비율을 최적화하여 다음 스테이지에 적용합니다.

Figure 3 (p.3): 학습이 진행됨에 따른 각 사전학습 데이터 도메인의 검증 세트 영향력 변화. 도메인별 선호도가 동적으로 변화함을 보여줍니다.

Figure 4 (p.4): Group Influence와 실제 벤치마크 성능의 상관관계 분석. 피어슨 상관계수 ρ=0.789로 강한 양의 상관관계가 확인됩니다.

Q&A — 연구자의 고민과 독자의 질문

Q. 왜 샘플 단위 영향 함수가 아닌 그룹 단위인가?

샘플 단위 영향 함수는 각 훈련 샘플마다 헤시안 역행렬 곱을 수행해야 합니다. 대규모 LLM 사전학습에서는 수백B 토큰, 즉 수억 개의 샘플에 대해 이를 반복해야 하므로 계산적으로 완전히 불가능합니다. Group Influence는 도메인 전체의 그라디언트를 먼저 누적(gradient accumulation)한 뒤 헤시안 역행렬 곱을 단 한 번만 수행합니다. 이로써 계산 비용이 그룹 크기 |S|에 독립적이 됩니다.

Q. "모델의 데이터 선호도가 변한다"는 것을 어떻게 알 수 있는가?

Figure 3 (논문 부록 Figures 5~11)에서 시각적으로 확인할 수 있습니다. 1B와 7B 모델 모두에서 학습이 진행될수록 각 도메인의 Group Influence 점수가 변화합니다. 예를 들어 초반에 높은 영향력을 보이던 특정 도메인이 학습 후반에는 영향력이 줄어드는 패턴이 관찰됩니다. 또한 1B와 7B 모델은 동일한 데이터를 보더라도 서로 다른 선호도 패턴을 보이는데, 이는 모델 스케일에 따라 최적 혼합이 달라야 함을 의미합니다.

Q. TiKMiX-D와 TiKMiX-M 중 어느 것을 써야 하는가?

계산 자원이 극히 제한적이고 REGMIX 수준의 비용조차 감당하기 어렵다면 TiKMiX-D를 권장합니다 — REGMIX의 20% 비용으로 동등하거나 우수한 성능을 제공합니다. 추가 비용을 감수할 수 있고 ARC처럼 어려운 추론 태스크에서 최대 성능을 원한다면 TiKMiX-M이 낫습니다. TiKMiX-M은 최고 성능(45.9%)과 9개 태스크 중 6개 최고 달성을 보입니다.

실용 가이드 계산 예산이 REGMIX의 ≤20%라면 TiKMiX-D, ≤100%라면 TiKMiX-M을 선택하세요.

Q. 파레토 개선 제약(S·w ≥ S·w_prior)은 왜 필요한가?

이 제약은 "새로운 혼합이 이전 혼합보다 어떤 태스크에서도 나빠지면 안 된다"는 최소 안전 장치입니다. 단순히 총 영향합을 최대화하면 일부 태스크를 희생해 다른 태스크를 크게 향상시키는 극단적 혼합이 최적해로 나올 수 있습니다. 파레토 개선 제약은 모든 태스크에서 단조적 개선(monotonic improvement)을 보장합니다. 이전 혼합 w_prior를 기준으로 제약을 걸기 때문에 이전 스테이지에서 이미 학습된 능력이 퇴행하지 않습니다.

Q. 기존 연구(REGMIX, DoReMi)와의 가장 핵심적인 차이는?

REGMIX는 소규모 실험 결과를 회귀 모델로 외삽하지만, 소규모→대규모 전이를 가정하고 학습 전반에 걸친 선호도 변화를 무시합니다. DoReMi는 프록시 모델을 별도로 학습해야 하는 비용이 크고, 반복적 업데이트가 필요합니다. TiKMiX는 현재 모델 자체에서 그라디언트 정보를 추출하므로 별도 프록시 모델이 불필요하고, 학습 중 어느 시점에서도 즉각 적용 가능하며, 계산 효율이 훨씬 뛰어납니다.

Q. "under-digestion"이란 무엇인가?

보충 논문이 사용하는 "under-digestion"은 데이터 소화 부족을 의미합니다. 고정 혼합 비율에서 특정 도메인의 비율이 해당 시점 모델의 학습 능력 대비 너무 낮으면, 그 도메인에서 충분한 학습이 일어나지 않습니다. 이는 모델이 해당 도메인 데이터를 "먹어도" 제대로 소화(학습)하지 못하는 상태, 즉 under-digestion입니다. 동적 혼합이 이를 방지하는 핵심 이유입니다.

Q. 이 결과가 내 LLM 파인튜닝에도 적용되는가?

평가 논문은 사전학습(pre-training) 전용이지만, Group Influence의 개념은 멀티태스크 파인튜닝(instruction tuning)의 태스크 혼합 최적화에도 유사하게 적용 가능합니다. 단, 파인튜닝에서는 태스크별 데이터 양이 훨씬 작으므로 샘플 단위 영향 함수도 실용적일 수 있어, 그룹 근사의 이점이 줄어들 수 있습니다. 이를 명시적으로 검토하는 것은 흥미로운 후속 연구가 될 것입니다.

TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

문제의 배경 — 기존 연구의 한계

이 논문의 선택 — 핵심 아이디어와 트레이드오프

핵심 통찰: 영향 함수를 그룹 단위로 확장하라

두 가지 최적화 전략

무엇을 포기했는가 — 트레이드오프

방법론

1. Group Influence — 수학적 유도

2. TiKMiX-D — 영향 최대화 직접 최적화

인터랙티브: 도메인 비율 변화와 영향합의 관계

3. TiKMiX-M — 혼합 영향 모델 (Mix Influence Model)

4. 구현 세부사항

결과

Group Influence는 성능을 예측하는가?

주요 성능 비교 (1B 모델, 1T 토큰)

벤치마크별 상세 결과 (Table 1)

에블레이션: 영향 관찰 데이터 크기 (Table 2)

스케일 검증: 7B 모델 (Table 3)

한계점 & 트레이드오프

트레이드오프 요약

영향력 & 후속 연구

관련 분야 더 찾아보기

원본 Figure & Table

Q&A — 연구자의 고민과 독자의 질문