이 논문은 LLM의 에이전틱 사후 훈련(post-training)을 "SFT의 데이터 효율성과 E2E RL의 일반화 능력은 서로 트레이드오프가 아니라, 올바른 방법을 쓰면 동시에 달성할 수 있는 목표다"라는 관점으로 바라본다. 핵심은 SFT 궤적에서 피벗(pivot)—학습 신호가 풍부한 전환점—만 선별하고, 엄격한 문자열 매칭 대신 기능적 등가 보상(functional reward)을 사용하는 것이다.
arXiv →LLM이 도구 호출, 코드 작성, 웹 검색과 같은 장기 에이전틱 태스크(long-horizon agentic tasks)를 수행하려면, 사후 훈련(post-training) 단계에서 모델이 이런 다중 턴 상호작용을 학습해야 한다. 그런데 두 가지 주요 훈련 방식이 각각 치명적인 단점을 갖고 있다:
이 두 방식의 딜레마를 저자들은 다음 질문으로 압축한다:
"Can we combine the data efficiency of SFT with the generalization capabilities of E2E RL, achieving both in-domain accuracy and OOD retention without incurring full-trajectory rollouts?"전체 궤적 롤아웃 없이, SFT의 데이터 효율성과 E2E RL의 일반화 능력을 결합하여 도메인 내 정확도와 OOD 유지를 동시에 달성할 수 있는가?
자연스러운 아이디어는 기존 SFT 궤적을 로컬 RL(local RL)로 전환하는 것이다: SFT 궤적의 중간 상태를 조건으로 온-폴리시 롤아웃을 샘플링하고, 샘플이 시연 데이터와 정확히 일치할 때만 양의 보상을 주는 것이다. 그러나 저자들의 예비 실험에서 이 방식은 τ²-Bench에서 57.34%를 기록해, 같은 데이터로 훈련한 SFT(58.44%)보다 낮은 성능을 보였다.
저자들은 이 실패를 두 가지 병목으로 추적했다:
ls -la와
ls -l -a는 동일한 결과를 낳지만 문자열 매칭은 실패를 판정한다. 이런 "미스율(miss rate)"이 높을수록 의미 있는 그래디언트 업데이트가 차단된다.
이 두 병목이 바로 PivotRL의 두 핵심 메커니즘이 해결하려는 문제다.
PivotRL의 핵심 통찰은 단순하다: "SFT 궤적에 이미 존재하는 모든 어시스턴트 턴이 동등하게 중요한 게 아니다." 일부 턴은 정책이 어떤 행동을 선택하느냐에 따라 결과가 크게 달라지는 전환점(pivot)이고, 나머지는 어떤 행동을 해도 결과가 같은 "쉬운" 또는 "불가능한" 구간이다.
턴 유형을 클릭해서 학습 효과를 확인하세요 ↓
PivotRL은 기존 나이브 로컬 RL을 정확히 두 가지 방식으로 수정한다: (1) 오프라인 피벗 필터링으로 유의미한 턴만 선별하고, (2) 기능적 검증기 보상으로 로컬 크레딧을 정확하게 할당한다.
각 블록을 클릭해서 설명을 확인하세요 ↓
PivotRL의 수식 체계는 세 층으로 구성된다: (1) 기존 SFT/E2E RL의 형식화, (2) 피벗 필터링 기준, (3) PivotRL의 훈련 목적함수. 각 수식이 왜 이 형태를 갖는지 단계적으로 살펴보자.
| 변수 | 의미 | 비고 |
|---|---|---|
θ |
훈련 중인 정책의 파라미터 | |
𝒟_sft |
전문가 궤적 데이터셋 | N개 궤적 |
s_t |
t번째 행동 이전의 전체 대화 이력 (상태) | |
a*_t |
전문가가 시연한 t번째 행동 | 전체 어시스턴트 완성(completion) |
π_θ(a*_t|s_t) |
현재 정책이 전문가 행동에 부여하는 확률 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
G |
각 상태에서 샘플링하는 롤아웃 그룹 크기 | SWE-Bench: 16 |
w_i(θ) |
중요도 샘플링 가중치 = π_θ(aᵢ|s) / π_old(aᵢ|s) | 새 정책과 구 정책의 비율 |
Â_i |
그룹 정규화된 어드밴티지 | Eq. (1) 참조 |
clip(...) |
중요도 비율을 [1-ε, 1+ε] 범위로 클리핑 | PPO-스타일 안정화 |
β |
KL 규제 강도 하이퍼파라미터 | 참조 정책 이탈 방지 |
π₀ |
참조 정책 (PivotRL 초기화 시점 정책) | 동결됨 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
r_i |
i번째 샘플 행동의 보상 | 이진값: 0 또는 1 |
G |
그룹 크기 | |
std({r_j}) |
그룹 보상의 표준편차 | 0이면 분모 → ε_std |
ε_std |
수치 안정성을 위한 작은 상수 | 0 나누기 방지 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
a*(s) |
상태 s에서 전문가가 시연한 단일 행동 | 엄격한 보상의 기준 |
𝓜(s) |
상태 s에서 도메인 검증기가 허용하는 행동 집합 | a*(s) ⊆ 𝓜(s) |
𝟏[·] |
조건이 참이면 1, 거짓이면 0인 지시함수 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
K |
프로파일링용 로컬 롤아웃 수 | 동결된 π₀로 샘플링 |
μ̂(s) |
경험적 성공률 (평균 보상) | 0과 1 사이 |
σ̂²(s) |
경험적 보상 분산 | 혼합 결과 지표 |
λ_diff |
난이도 임계값 (difficulty threshold) | 쉬운 턴 제외용 |
𝒟_adv |
최종 피벗 훈련 집합 | 혼합 결과이면서 여전히 어려운 턴 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
𝒟_pivot |
피벗 훈련 집합 (D_adv) | 오프라인 필터링 결과 |
Â_i |
그룹 정규화 어드밴티지 (Eq. 1, r_func 사용) | 기능적 보상으로 계산 |
π_θ_old |
이번 업데이트 직전 정책 | 중요도 샘플링 기준 |
D_KL |
현재 정책과 참조 정책 π₀ 간의 KL 발산 | OOD 유지에 핵심 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
γ_{s,β} |
population GRPO 스코어 (로컬 학습 신호 크기) | |
∇^nat J_s |
상태별 기대 보상 목적함수의 자연 그래디언트 | Fisher 기하학 하에서 |
‖·‖_{F,π} |
Fisher 내적 공간에서의 놈 | |
π_{s,β} |
KL 경로 상의 최적 정책 (softmax 형태) | |
Var(r(s,a)) |
보상의 분산 | 피벗 선택 기준과 직결 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
π_β* |
기능적 보상 RL의 KL 규제 목적함수의 유일한 최적 정책 | |
𝓜(s) |
허용 행동 집합 | 태스크 관련 행동 |
𝓜(s)ᶜ |
허용 행동의 보집합 | 태스크 무관 행동 |
ρ(s) |
참조 정책이 허용 행동에 부여하는 총 확률 질량 | |
q_β(s) |
최적 정책이 허용 행동에 부여하는 총 확률 질량 | q_β ≥ ρ (상향) |
직관적 해설
수학적 유도
| 항목 | 값 | 비고 |
|---|---|---|
| 기반 모델 | Qwen3-30B-A3B-Thinking-2507 | 모든 실험 동일 |
| 최적화 프레임워크 | Nemo-RL (NVIDIA) | 오픈소스 |
| 환경 롤아웃 | Nemo-Gym (NVIDIA) | 오픈소스 |
| SWE-Bench 평가 | OpenHands harness (mean@3) | |
| SWE-Bench 배치 크기 | 1024 (64 프롬프트 × 16 생성) | E2E RL: 512 (16×32) |
| E2E RL 롤아웃 수 (SWE) | ~542K (12~25 턴/궤적) | PivotRL: ~133K (1턴) |
| τ²-Bench 데이터 크기 | 281,774개 궤적 → 87,718개 피벗 | 838개 도메인 |
| Terminal-Bench 데이터 | ~20,000개 샘플 | 중복 제거 포함 |
| BrowseComp 데이터 | 13,215개 샘플 |
| 도메인 | 액션 정의 | 검증기 방식 |
|---|---|---|
| τ²-Bench (대화형 도구 사용) | 전체 어시스턴트 완성 (NL + 도구 호출 포함) | 정규화 문자열/스키마 체크, 동등성 규칙 |
| Terminal-Bench | 다음 bash 명령 | 출력 스키마 검증 + 정규화 문자열 유사도 + LLM-as-judge |
| SWE-Bench Verified | 다음 도구 호출 (non-error) | 도구 이름만 매칭 (의도적으로 거친 로컬 신호) |
| BrowseComp | 다음 검색/브라우징 단계 | 온라인 검색엔진 + DeepSeek-V3.2 궤적 생성 |
PivotRL은 세 가지 측면에서 검증된다: (1) SFT 대비 도메인 내/OOD 정확도, (2) E2E RL 대비 컴퓨팅 효율성, (3) 각 컴포넌트의 기여도 (에블레이션). 모든 실험은 Qwen3-30B-A3B-Thinking-2507을 기반 모델로 동일한 훈련 데이터를 사용한다.
| 벤치마크 | Base | SFT | PivotRL | Δ vs SFT |
|---|---|---|---|---|
| τ²-Bench (대화형 도구) | 44.35 | 58.44 | 63.81 | +5.37 |
| SWE-Bench Verified (코딩) | 19.07 | 37.40 | 32.67 | -4.73 |
| Terminal-Bench (터미널) | 5.42 | 13.75 | 20.00 | +6.25 |
| BrowseComp (웹 검색) | 2.50 | 1.50 | 11.30 | +9.80 |
| 평균 | +0 (Base) | +9.94 | +14.11 | +4.17 |
SWE-Bench에서 PivotRL이 SFT보다 낮은 것은 E2E RL이 표준 훈련 방식인 이 도메인의 특성 때문이다. 그러나 이어지는 비교에서 PivotRL이 E2E RL과 동등한 정확도를 훨씬 낮은 비용으로 달성함을 보인다.
SFT는 터미널 도메인 훈련 후 AIME25 점수가 86.04 → 21.56 (−64.48점)으로 폭락한 반면, PivotRL은 동일 조건에서 −3.12점에 그쳤다. 이것이 기능적 보상과 KL 규제가 협력하여 달성하는 OOD 보존이다.
| 구성 | τ²-Bench 정확도 | 개선폭 (vs Base) |
|---|---|---|
| Base 모델 (Qwen3-30B) | 44.35 | — |
| Baseline Same-data SFT | 58.44 | +14.09 |
| D_cand + strict reward (나이브 로컬 RL) | 57.34 | +12.99 |
| D_cand + functional reward (피벗 필터링 없음) | 59.68 | +15.33 |
| Ours Full PivotRL (D_adv + functional reward) | 63.81 | +19.46 |
에블레이션이 보여주는 것: 피벗 필터링(D_cand → D_adv)이 +4.13점, 기능적 보상(strict → functional)이 +2.34점을 기여한다. 두 컴포넌트를 모두 제거하면 SFT보다도 낮은 성능이 된다. 두 메커니즘은 함께 작동할 때만 최대 효과를 발휘한다.
PivotRL은 NVIDIA의 Nemotron-3-Super-120B-A12B 프로덕션 훈련에 실제 적용됐다. 에이전틱 환경에는 PivotRL을, 추론/채팅 환경에는 다른 RL을 함께 사용했다:
| 벤치마크 | Nemotron SFT 이후 | PivotRL 스테이지 이후 | 향상 |
|---|---|---|---|
| τ²-Bench | 48.00 | 64.00 | +16.00 |
| SWE-Bench Verified | 12.87 | 61.33 | +48.46 |
| Terminal-Bench 1.1 Core | 23.33 | 34.17 | +10.84 |
| BrowseComp | 13.03 | 25.04 | +12.01 |
SWE-Bench에서 12.87 → 61.33이라는 극적인 향상은 PivotRL이 다른 RL 훈련과 시너지 효과를 낸 결과다. 이는 단일 도메인 실험(19.07 → 32.67)보다 훨씬 큰 개선이다.
논문의 모든 주요 figure와 table을 원본 그대로 보존한다. 독자가 원본 논문의 어느 페이지를 펴야 할지 바로 알 수 있도록 출처를 명시한다.
Figure 1 해설: 두 패널 (a) 누적 롤아웃 턴, (b) 누적 롤아웃 시간에서 PivotRL과 E2E RL의 SWE-Bench 정확도 궤적을 비교한다. PivotRL이 ~133K 턴(~E2E RL의 1/4)에서, 그리고 ~1/5.5 시간에서 동등한 32.67% 정확도에 도달함을 보인다. Table 1은 4개 에이전틱 도메인의 도메인 내 정확도를 보여준다: PivotRL이 3/4 벤치마크에서 SFT를 초과하며 평균 +4.17%p 우위.
Table 2 & 3 해설: 이 논문에서 가장 극적인 결과를 담은 표다. Table 2는 8개 OOD 벤치마크의 평균 변화를 보여준다—SFT는 -9.83, PivotRL은 +0.21. Table 3은 도메인별 전체 OOD 분해를 보여준다. 특히 주목할 것은 Terminal 도메인 훈련 후 SFT의 AIME25 점수 하락: 86.04 → 21.56 (-64.48점). PivotRL 동일 조건: 86.04 → 82.92 (-3.12점). 이 극적인 대비가 기능적 보상과 KL 규제의 OOD 보존 효과를 가장 명확히 보여준다.
Table 4, Figure 2 & 3 해설: 에블레이션과 훈련 동역학을 보여준다. Figure 2에서 D_adv(파란선)가 랜덤 샘플링(주황선)보다 높은 정확도를 달성하며, 둘 다 SFT 베이스라인을 넘어선다. Figure 3에서 D_adv가 훈련 내내 더 높은 보상 표준편차를 유지함을 확인할 수 있다—이것이 Theorem 3.2의 실증적 근거다. 랜덤 샘플링은 훈련 초반에 분산이 빠르게 붕괴하여 학습 신호가 고갈된다.
Table 5 & 6 해설: Table 5는 프로덕션 스케일 적용 결과다—SWE-Bench에서 12.87 → 61.33이라는 극적인 향상은 PivotRL이 다른 RL 환경과 함께 사용될 때의 시너지를 보여준다. Table 6은 피벗 선택 전략의 단조로운 개선을 보여준다: 랜덤(59.68) < low-reward-mean D_adv(63.81), 그리고 두 전략 모두 SFT(58.44)를 능가한다.
| 얻는 것 | 포기하는 것 |
|---|---|
| SFT 컴퓨팅 효율 (추가 환경 데이터 불필요) | 완전한 전체 궤적 최적화 |
| E2E RL 수준의 OOD 보존 (Theorem 3.3) | 일부 도메인(SWE)에서 SFT 대비 성능 |
| 4×~5.5× 컴퓨팅 절감 | 도메인별 검증기 설계 필요 |
| 이론적으로 최적인 학습 신호 (Theorem 3.2) | 정적 피벗 집합 → 훈련 후반 신호 감소 |
PivotRL은 NVIDIA Nemotron-3-Super-120B-A12B의 프로덕션 에이전틱 사후 훈련에 이미 적용됐으며, 관련 코드(Nemo-Gym 환경 + τ²-Bench 데이터 + Nemotron-Post-Training-v3)가 오픈소스로 공개됐다.
LLM 프로덕션 팀: 에이전틱 태스크를 위한 포스트 트레이닝 비용을 E2E RL 대비 4~5.5배 절감할 수 있다. SFT 데이터가 이미 있다면 추가 환경 구축 없이 적용 가능하다.
에이전틱 AI 연구자: 피벗 선택과 기능적 보상이 각각 독립적으로 기여한다는 에블레이션 결과는, 이 두 아이디어가 다른 RL 알고리즘에도 적용 가능한 범용 원리임을 시사한다.
이론 연구자: 보상 분산과 자연 그래디언트 놈의 등치 관계(Theorem 3.2)와 기능적 보상의 KL 투영 해석(Theorem 3.3)은 그룹 정규화 RL의 이론적 이해를 발전시킨다.
논문은 두 가지 확장 방향을 명시한다: (1) 비프로그래매틱 검증기 통합 (LLM-as-judge, PRM), (2) 온라인 보상 프로파일링 / 동적 샘플링 (예: DAPO의 동적 샘플링 방식).
"71% of randomly sampled turns yield a 0 learning signal, meaning they are uniformly solved or uniformly failed and contribute nothing to the gradient."
롤아웃 예산의 71%가 낭비되는 상황에서, 전체를 다시 학습시키는 것은 비효율의 극치다. 피벗 선택은 "어디서 학습할 것인가"라는 질문에 대한 이론적으로 정당화된 답이다. Theorem 3.2가 이를 뒷받침한다: 학습 신호의 크기가 정확히 보상 분산에 비례하므로, 분산이 높은 피벗에 집중하는 것이 최적이다.
핵심은 Theorem 3.3의 식 (14)다: 기능적 보상 RL의 최적 정책 π_β*는 허용 행동 집합 𝓜(s) 내부에서도, 보집합 𝓜(s)ᶜ 내부에서도, 참조 정책 π₀의 상대적 순위를 그대로 유지한다.
LLM의 행동 공간은 지수적으로 크고, 특정 행동(예: 특정 터미널 명령)은 보통 하나의 태스크에만 관련이 있다. 따라서 𝓜(s)ᶜ(태스크 무관 행동들)의 내부 순위가 보존된다는 것은 곧 수학, 코딩, 일반 추론 능력의 상대적 순위가 건드려지지 않는다는 의미다. 이것이 OOD 보존의 이론적 메커니즘이다.
논문은 이것이 의도적인 설계 선택임을 명시한다: "The local verifier matches tool-call names only. This is a deliberately coarse local signal: it checks whether the model selected the correct next kind of operation at the pivot... without attempting to score tool arguments or patch quality at every turn."
로컬 신호(이 피벗에서 올바른 종류의 조작)와 전역 성공(전체 SWE-Bench 평가)을 분리하는 전략이다. 로컬 신호가 너무 정교하면 로컬 최적에 과적합할 위험이 있다. 실제 태스크 성공은 전체 평가 하네스에 위임된다.
필요한 것: (1) 전문가 SFT 궤적 데이터셋, (2) 도메인별 검증기 (기능적 동등성 판단), (3) 참조 정책 π₀ (보통 SFT 초기 모델), (4) Nemo-RL + Nemo-Gym (공개됨).
가장 어려운 부분은 검증기 설계다. 정형화된 도구 호출이나 코드 실행처럼 자동 검증이 가능한 도메인에서는 쉽지만, 자유 형식 생성 태스크에서는 아직 LLM-as-judge 통합이 개발 중이다.
RLVR는 검증 가능한 보상(수학 정답 여부 등)으로 처음부터 E2E RL을 적용한다. PivotRL은 기존 SFT 궤적을 재활용하여 전체 궤적 대신 피벗 턴에서만 단일 턴 롤아웃을 실행한다는 점이 다르다. RLVR는 추론 태스크에 강하지만 에이전틱 다중 턴 태스크에서는 전체 궤적 E2E RL이 필요해 비용이 크다. PivotRL은 이 비용 문제를 해결하는 데 특화됐다.
논문에 명시된 공개 자원:
논문에서 λ_diff의 구체적인 값은 명시되지 않는다. 일반적으로 μ̂(s) < λ_diff는 "여전히 대부분 실패하는 어려운 턴" 을 선택하는 기준이다. λ_diff=0.5로 설정하면 성공률이 50% 미만인 턴만 선택하는 것과 같다.