논문 제목 — Paper2Web

문제의 배경 — 기존 연구의 한계

LLM이 도구 호출, 코드 작성, 웹 검색과 같은 장기 에이전틱 태스크(long-horizon agentic tasks)를 수행하려면, 사후 훈련(post-training) 단계에서 모델이 이런 다중 턴 상호작용을 학습해야 한다. 그런데 두 가지 주요 훈련 방식이 각각 치명적인 단점을 갖고 있다:

한계 1 SFT (Supervised Fine-Tuning): 망각의 저주
SFT는 전문가 궤적(expert trajectory)을 모방하는 방식으로, 컴퓨팅 비용이 낮고 구현이 단순하다. 그러나 훈련 데이터 분포를 벗어난 태스크에서 카타스트로픽 포게팅(catastrophic forgetting)이 발생한다. 논문의 실험에서 터미널 제어 도메인 SFT 후 AIME25 수학 점수가 86.04에서 21.56으로 64.48점이나 폭락했다.

한계 2 E2E RL (End-to-End Reinforcement Learning): 컴퓨팅 폭탄
E2E RL은 온-폴리시(on-policy) 전체 궤적 롤아웃을 반복하므로 OOD 능력을 유지하면서 도메인 내 정확도도 높일 수 있다. 그러나 각 파라미터 업데이트마다 수십~수백 턴의 환경 상호작용이 필요해 컴퓨팅 비용이 엄청나다. SWE-Bench에서 E2E RL은 같은 정확도에 도달하는 데 PivotRL보다 4배 많은 롤아웃 턴, 5.5배 많은 벽시계 시간(wall-clock time)이 필요했다.

이 두 방식의 딜레마를 저자들은 다음 질문으로 압축한다:

"Can we combine the data efficiency of SFT with the generalization capabilities of E2E RL, achieving both in-domain accuracy and OOD retention without incurring full-trajectory rollouts?"
전체 궤적 롤아웃 없이, SFT의 데이터 효율성과 E2E RL의 일반화 능력을 결합하여 도메인 내 정확도와 OOD 유지를 동시에 달성할 수 있는가?

가장 단순한 시도가 왜 실패했는가?

자연스러운 아이디어는 기존 SFT 궤적을 로컬 RL(local RL)로 전환하는 것이다: SFT 궤적의 중간 상태를 조건으로 온-폴리시 롤아웃을 샘플링하고, 샘플이 시연 데이터와 정확히 일치할 때만 양의 보상을 주는 것이다. 그러나 저자들의 예비 실험에서 이 방식은 τ²-Bench에서 57.34%를 기록해, 같은 데이터로 훈련한 SFT(58.44%)보다 낮은 성능을 보였다.

저자들은 이 실패를 두 가지 병목으로 추적했다:

병목 1: 무의미한 학습 신호 무작위로 선택된 중간 턴들은 대부분 "모두 성공"하거나 "모두 실패"한다. GRPO에서 그룹 정규화 어드밴티지(group-normalized advantage)는 이 경우 0이 되어, 파라미터 업데이트가 전혀 없다. 실험에서 무작위 샘플링 턴의 71%가 학습 신호 0을 생성했다.

병목 2: 지나치게 엄격한 보상 생성형 액션 공간에서는 수많은 도구 호출, 쉘 명령, 검색 쿼리가 시연 문자열과 다르더라도 기능적으로 올바를 수 있다. 예를 들어 ls -la와 ls -l -a는 동일한 결과를 낳지만 문자열 매칭은 실패를 판정한다. 이런 "미스율(miss rate)"이 높을수록 의미 있는 그래디언트 업데이트가 차단된다.

이 두 병목이 바로 PivotRL의 두 핵심 메커니즘이 해결하려는 문제다.

이 논문의 선택 — 핵심 아이디어와 트레이드오프

PivotRL의 핵심 통찰은 단순하다: "SFT 궤적에 이미 존재하는 모든 어시스턴트 턴이 동등하게 중요한 게 아니다." 일부 턴은 정책이 어떤 행동을 선택하느냐에 따라 결과가 크게 달라지는 전환점(pivot)이고, 나머지는 어떤 행동을 해도 결과가 같은 "쉬운" 또는 "불가능한" 구간이다.

핵심 아이디어 1: 피벗 필터링 SFT 궤적에서 결과 분산(outcome variance)이 높은 턴—즉 샘플에 따라 성공도 하고 실패도 하는 "혼합 결과(mixed outcome)" 턴—만 선별해서 RL 롤아웃 예산을 집중한다. 이를 피벗(pivot)이라 부른다.

핵심 아이디어 2: 기능적 보상 단일 시연 문자열과의 완전 일치 대신, 기능적으로 올바른 모든 행동에 보상을 준다. 도메인별 검증기(verifier)가 "이 명령이 이 맥락에서 올바른 종류의 행동인가?"를 판단한다.

왜 이 두 가지가 함께 필요한가?

턴 유형을 클릭해서 학습 효과를 확인하세요 ↓

이 선택의 트레이드오프

얻는 것

SFT 데이터를 재활용 → 추가 환경 데이터 수집 불필요
전체 궤적 롤아웃 불필요 → 컴퓨팅 비용 4~5.5배 절감
기능적 보상 → OOD 태스크와 무관한 행동 분포를 건드리지 않음 (OOD 유지)
혼합 결과 턴만 사용 → 그래디언트 신호 밀도 극대화

포기하는 것

E2E RL처럼 궤적 전체를 최적화할 수 없음 → 일부 태스크(SWE-Bench)에서 E2E RL 대비 약간 낮거나 동등한 성능
도메인별 검증기 설계 필요 → 자동화 불완전한 도메인에는 적용이 어려울 수 있음
비프로그래매틱 검증기(LLM-as-judge)는 아직 미지원 (후속 과제)

방법론

4a. 전체 파이프라인 — 아키텍처 & 데이터 플로우

PivotRL은 기존 나이브 로컬 RL을 정확히 두 가지 방식으로 수정한다: (1) 오프라인 피벗 필터링으로 유의미한 턴만 선별하고, (2) 기능적 검증기 보상으로 로컬 크레딧을 정확하게 할당한다.

각 블록을 클릭해서 설명을 확인하세요 ↓

4b. 핵심 수식 전체

PivotRL의 수식 체계는 세 층으로 구성된다: (1) 기존 SFT/E2E RL의 형식화, (2) 피벗 필터링 기준, (3) PivotRL의 훈련 목적함수. 각 수식이 왜 이 형태를 갖는지 단계적으로 살펴보자.

① SFT 음의 로그 우도 손실

\[ \mathcal{L}_{\text{sft}}(\theta) = -\mathbb{E}_{\tau \sim \mathcal{D}_{\text{sft}}, (s_t, a^*_t) \sim \tau} \left[ \log \pi_\theta(a^*_t \mid s_t) \right] \]

변수	의미	비고
`θ`	훈련 중인 정책의 파라미터
`𝒟_sft`	전문가 궤적 데이터셋	N개 궤적
`s_t`	t번째 행동 이전의 전체 대화 이력 (상태)
`a*_t`	전문가가 시연한 t번째 행동	전체 어시스턴트 완성(completion)
`π_θ(a*_t\|s_t)`	현재 정책이 전문가 행동에 부여하는 확률

직관적 해설

전문가가 선택한 행동 a*_t의 로그 확률을 최대화한다. 즉, "전문가처럼 행동할 확률을 높여라"는 단순한 모방 학습이다. 각 상태-행동 쌍에 대해 독립적으로 계산되므로, 전체 궤적의 문맥 의존성을 포착하지 못한다.

수학적 유도

최대 우도 추정(MLE)에서 출발한다. 데이터 D가 정책 π_θ에서 생성되었다고 가정하면, log P(D|θ) = Σ log π_θ(a*_t|s_t)를 최대화하는 것과 동치다. 음수를 붙여 최소화 문제로 전환한 것이 L_sft이다. [보충] SFT의 OOD 취약성은 이 목적함수가 훈련 분포 D_sft 바깥의 상태에서 정책이 어떻게 행동해야 하는지 전혀 신호를 주지 않기 때문이다. 훈련 시 한 번도 본 적 없는 상태에서 정책은 "아무 행동이나" 할 수 있다.

② GRPO (Group Relative Policy Optimization) 목적함수

\[ \mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{\substack{s \sim \mathcal{D}_{\pi_{\text{old}}} \\ a_i \sim \pi_{\text{old}}(\cdot|s)}} \left[ \frac{1}{G} \sum_{i=1}^{G} \min\!\left( w_i(\theta)\hat{A}_i,\ \text{clip}(w_i(\theta), 1{-}\epsilon, 1{+}\epsilon)\hat{A}_i \right) - \beta \,\text{KL}(\pi_\theta(\cdot|s) \| \pi_0(\cdot|s)) \right] \]

변수	의미	비고
`G`	각 상태에서 샘플링하는 롤아웃 그룹 크기	SWE-Bench: 16
`w_i(θ)`	중요도 샘플링 가중치 = π_θ(aᵢ\|s) / π_old(aᵢ\|s)	새 정책과 구 정책의 비율
`Â_i`	그룹 정규화된 어드밴티지	Eq. (1) 참조
`clip(...)`	중요도 비율을 [1-ε, 1+ε] 범위로 클리핑	PPO-스타일 안정화
`β`	KL 규제 강도 하이퍼파라미터	참조 정책 이탈 방지
`π₀`	참조 정책 (PivotRL 초기화 시점 정책)	동결됨

직관적 해설

GRPO는 DeepSeek-Math에서 도입한 방식으로, 같은 상태에서 G개의 행동을 샘플링하고 그 중 어떤 행동이 다른 행동보다 더 좋은지를 "그룹 내 상대적 비교"로 학습한다. 별도의 가치 함수(critic) 없이도 어드밴티지를 추정할 수 있다는 장점이 있다. KL 페널티는 훈련 중 참조 정책에서 너무 멀어지지 않도록 제어한다—이것이 OOD 능력 보존에 핵심적이다.

수학적 유도

PPO(Proximal Policy Optimization)에서 파생된 CLIP 목적함수에 KL 정규화를 추가한 형태다. PPO는 중요도 샘플링 비율 w_i(θ)가 너무 크게 변하면 정책 업데이트가 불안정해진다는 문제를 clip()으로 해결한다. GRPO는 여기에 그룹 정규화 어드밴티지를 결합해 별도 value network 없이 사용 가능하게 했다. [보충] PivotRL이 GRPO를 선택한 이유: (1) 그룹 정규화가 피벗 필터링의 이론적 기반과 직접 연결되고, (2) 가치 함수 없이 단일 턴 롤아웃에서 효율적으로 작동하기 때문이다.

③ 그룹 정규화 어드밴티지 (Eq. 1)

\[ \hat{A}_i = \frac{r_i - \frac{1}{G}\sum_{j=1}^{G} r_j}{\text{std}(\{r_j\}_{j=1}^{G}) + \epsilon_{\text{std}}} \]

변수	의미	비고
`r_i`	i번째 샘플 행동의 보상	이진값: 0 또는 1
`G`	그룹 크기
`std({r_j})`	그룹 보상의 표준편차	0이면 분모 → ε_std
`ε_std`	수치 안정성을 위한 작은 상수	0 나누기 방지

직관적 해설

이 수식이 PivotRL의 피벗 필터링을 정당화하는 핵심이다. 만약 G개의 샘플 보상이 모두 1이거나 모두 0이면 std({r_j}) = 0이 되어 Â_i = 0이 된다. 즉, 그래디언트 업데이트가 없다. 반대로 일부는 1, 일부는 0인 "혼합 결과" 그룹에서만 std > 0이 되어 의미 있는 업데이트가 발생한다. Proposition 3.1이 바로 이것을 공식화한 것이다.

수학적 유도

이는 표준화(z-score normalization)와 동일한 형태다. 각 행동의 보상에서 그룹 평균을 빼고 표준편차로 나눈다. 이 정규화를 통해 절대적 보상 크기가 아닌 그룹 내 상대적 순위로 업데이트 방향을 결정한다. 이진 보상(0/1)의 경우: 그룹에서 k개가 성공하면 평균 = k/G, 성공한 행동의 Â = (1 - k/G)/std, 실패한 행동의 Â = (0 - k/G)/std이다.

④ 엄격한 로컬 보상 vs. 기능적 보상 (Eq. 2 & 6)

\[ r_{\text{strict}}(s, a) = \mathbf{1}[a = a^*(s)] \quad \text{vs.} \quad r_{\text{func}}(s, a) = \mathbf{1}[a \in \mathcal{M}(s)] \]

변수	의미	비고
`a*(s)`	상태 s에서 전문가가 시연한 단일 행동	엄격한 보상의 기준
`𝓜(s)`	상태 s에서 도메인 검증기가 허용하는 행동 집합	a*(s) ⊆ 𝓜(s)
`𝟏[·]`	조건이 참이면 1, 거짓이면 0인 지시함수

직관적 해설

r_strict는 전문가가 선택한 바로 그 행동만 보상한다. 이는 SFT를 RL로 직역한 것과 같다. r_func는 기능적으로 동등한 모든 행동을 보상한다. 예를 들어 터미널 도메인에서 다음 명령이 ls인 전문가 행동과, ls -a 또는 ls --all은 기능적으로 동등하다. 검증기는 "올바른 종류의 조작인가?"를 판단하지 구체적인 문자열을 비교하지 않는다.

수학적 유도

미스율(miss rate) = Pr[r_strict(s,a)=0 | r_func(s,a)=1]은 기능적으로 올바르지만 엄격한 보상에서 실패로 처리되는 행동의 비율이다. 이 미스율이 높을수록 r_strict는 의미 있는 긍정 신호를 차단한다. Theorem 3.3은 r_func를 사용할 때 KL 최적화의 결과가 정확히 어떤 형태를 갖는지—참조 정책의 상대적 순위를 𝓜(s) 내부와 외부 각각에서 보존한다—를 보인다. 이것이 OOD 유지의 이론적 근거다.

⑤ 오프라인 프로파일링 & 피벗 선택 (Eq. 4, 5)

\[ \hat{\mu}(s) = \frac{1}{K}\sum_{k=1}^{K} r_{\text{func}}(s, a^{(k)}), \quad \hat{\sigma}^2(s) = \frac{1}{K}\sum_{k=1}^{K}\!\left(r_{\text{func}}(s, a^{(k)}) - \hat{\mu}(s)\right)^2 \] \[ \mathcal{D}_{\text{adv}} = \left\{(s, a^*) \in \mathcal{D}_{\text{cand}} : \hat{\sigma}^2(s) > 0,\; \hat{\mu}(s) < \lambda_{\text{diff}} \right\} \]

변수	의미	비고
`K`	프로파일링용 로컬 롤아웃 수	동결된 π₀로 샘플링
`μ̂(s)`	경험적 성공률 (평균 보상)	0과 1 사이
`σ̂²(s)`	경험적 보상 분산	혼합 결과 지표
`λ_diff`	난이도 임계값 (difficulty threshold)	쉬운 턴 제외용
`𝒟_adv`	최종 피벗 훈련 집합	혼합 결과이면서 여전히 어려운 턴

직관적 해설

D_adv는 두 조건의 교집합이다. σ̂²(s) > 0은 "이 턴에서는 어떤 행동을 하느냐가 결과를 바꾼다"는 의미다 (혼합 결과 조건). μ̂(s) < λ_diff는 "이 턴은 아직 쉽게 성공하지 못한다" 는 의미다 (난이도 조건). τ²-Bench에서 전체 후보 281,774개 중 87,718개(약 31%)가 D_adv에 포함됐다.

수학적 유도

이진 보상(0/1)에서 σ̂²(s) = μ̂(s)(1 - μ̂(s))이다. σ̂²(s) = 0이 되는 경우는 μ̂(s) = 0 (모두 실패) 또는 μ̂(s) = 1 (모두 성공)뿐이다. 따라서 σ̂²(s) > 0 조건은 0 < μ̂(s) < 1, 즉 "혼합 결과" 조건과 동치다. λ_diff는 μ̂(s) < λ_diff로 추가 필터를 제공하여, 이미 거의 항상 성공하는 쉬운 피벗(μ̂ 높은 값)을 제외한다. [평가] 이 프로파일링은 훈련 전 한 번만 수행되므로, 훈련이 진행되면서 D_pivot이 점점 쉬워지는 문제가 있다. 논문도 이를 인식하여 동적 샘플링을 후속 과제로 언급한다.

⑥ PivotRL 훈련 목적함수 (Eq. 7)

\[ \mathcal{J}_{\text{PivotRL}}(\theta) = \mathbb{E}_{\substack{s \sim \mathcal{D}_{\text{pivot}} \\ \{a_i\}_{i=1}^{G} \sim \pi_{\theta_{\text{old}}}(\cdot|s)}} \!\left[ \frac{1}{G}\sum_{i=1}^{G} \min\!\left(w_i(\theta)\hat{A}_i,\ \text{clip}(w_i(\theta), 1{-}\epsilon, 1{+}\epsilon)\hat{A}_i\right) - D_{\text{KL}} \right] \] \[ \text{where}\quad w_i(\theta) = \frac{\pi_\theta(a_i|s)}{\pi_{\theta_{\text{old}}}(a_i|s)},\quad D_{\text{KL}} = \beta\,\text{KL}(\pi_\theta(\cdot|s)\|\pi_0(\cdot|s)) \]

변수	의미	비고
`𝒟_pivot`	피벗 훈련 집합 (D_adv)	오프라인 필터링 결과
`Â_i`	그룹 정규화 어드밴티지 (Eq. 1, r_func 사용)	기능적 보상으로 계산
`π_θ_old`	이번 업데이트 직전 정책	중요도 샘플링 기준
`D_KL`	현재 정책과 참조 정책 π₀ 간의 KL 발산	OOD 유지에 핵심

직관적 해설

J_GRPO와 J_PivotRL의 차이는 딱 두 가지다: (1) 상태 분포가 D_π_old (E2E RL의 온-폴리시 전체 궤적)에서 D_pivot (오프라인 필터링된 SFT 턴)으로 바뀌었고, (2) 보상이 r_strict에서 r_func로 바뀌었다. 이 두 가지 변경이 SFT의 컴퓨팅 효율과 E2E RL의 일반화 능력을 동시에 달성하는 핵심이다.

수학적 유도

KL 페널티 β·KL(π_θ‖π₀)가 중요하다. β가 크면 π_θ가 π₀에 가깝게 유지되어 OOD 능력 보존이 강화되지만 학습이 느려진다. β가 작으면 빠른 학습이 가능하지만 OOD 성능 저하 위험이 있다. Theorem 3.3이 이 KL 최적화의 정확한 형태를 분석하여, 기능적 보상 하에서 π_β*가 𝓜(s) 내외부 각각에서 π₀의 상대적 순위를 보존함을 증명한다.

⑦ 이론 분석: 보상 분산이 학습 신호를 결정한다 (Theorem 3.2, Eq. 9-10)

\[ \gamma_{s,\beta} = \frac{1}{\beta^2}\left\|\nabla^{\text{nat}} J_s(\pi_{s,\beta})\right\|_{F,\pi_{s,\beta}} = \frac{\sqrt{\text{Var}_{a\sim\pi_{s,\beta}}(r(s,a))}}{\beta^2} \] \[ \text{where}\quad \pi_{s,\beta}(a) = \frac{\pi_0(a|s)\,e^{r(s,a)/\beta}}{\sum_{b}\pi_0(b|s)\,e^{r(s,b)/\beta}} \]

변수	의미	비고
`γ_{s,β}`	population GRPO 스코어 (로컬 학습 신호 크기)
`∇^nat J_s`	상태별 기대 보상 목적함수의 자연 그래디언트	Fisher 기하학 하에서
`‖·‖_{F,π}`	Fisher 내적 공간에서의 놈
`π_{s,β}`	KL 경로 상의 최적 정책 (softmax 형태)
`Var(r(s,a))`	보상의 분산	피벗 선택 기준과 직결

직관적 해설

이 정리의 핵심 메시지: 자연 그래디언트 놈이 보상 표준편차에 비례한다. 즉, 보상 분산이 클수록 그 턴에서의 학습 신호가 강하다. 이것은 피벗 필터링 전략—분산이 높은 혼합 결과 턴에 집중—을 "단순한 직관"이 아닌 이론적으로 최적인 선택으로 정당화한다. 보상 분산은 단순한 진단 지표가 아니라 정확히 KL 경로에서의 로컬 자연 그래디언트 신호의 크기다.

수학적 유도

증명 아이디어: π_{s,β}의 score function ∂_β log π_{s,β}(a)를 계산하면 (r(s,a) - E[r]) / β가 됨을 보일 수 있다. 자연 그래디언트 ∇^nat J_s는 Fisher 내적 공간에서 ⟨∇J_s, v⟩_F / ‖v‖_F²로 정의된다. 이를 계산하면 r(s,a) - E[r]의 형태가 되고, 그 Fisher 놈의 제곱이 Var(r)에 비례함을 보일 수 있다. 전체 증명은 Appendix B에 있다.

⑧ 이론 분석: 기능적 보상의 OOD 보존 메커니즘 (Theorem 3.3, Eq. 11-14)

\[ \pi_\beta^*(\mathcal{M}(s)|s) = q_\beta(s) \geq \rho(s) \] \[ \frac{\pi_\beta^*(a|s)}{\pi_\beta^*(b|s)} = \frac{\pi_0(a|s)}{\pi_0(b|s)} \quad \text{for } a,b \in \mathcal{M}(s) \text{ and } a,b \in \mathcal{M}(s)^c \] \[ \text{where}\quad \rho(s) = \pi_0(\mathcal{M}(s)|s),\quad q_\beta(s) = \frac{\rho(s)e^{1/\beta}}{(1-\rho(s)) + \rho(s)e^{1/\beta}} \]

변수	의미	비고
`π_β*`	기능적 보상 RL의 KL 규제 목적함수의 유일한 최적 정책
`𝓜(s)`	허용 행동 집합	태스크 관련 행동
`𝓜(s)ᶜ`	허용 행동의 보집합	태스크 무관 행동
`ρ(s)`	참조 정책이 허용 행동에 부여하는 총 확률 질량
`q_β(s)`	최적 정책이 허용 행동에 부여하는 총 확률 질량	q_β ≥ ρ (상향)

직관적 해설

이 정리는 기능적 보상 RL이 OOD 성능을 보존하는 이유를 설명한다. 최적 정책 π_β*는 (1) 허용 행동 𝓜(s)의 총 확률을 높이고 (q_β ≥ ρ), (2) 허용 행동들 사이의 상대적 순위를 π₀와 동일하게 유지하며, (3) 허용 행동의 보집합—태스크와 무관한 행동들—사이의 상대적 순위도 π₀와 동일하게 유지한다. 조건 (3)이 OOD 보존의 핵심이다: 태스크 관련 행동에만 확률 질량이 재분배되고, 태스크 무관 행동(수학 풀기, 코드 디버깅 등)의 내부 순위는 변하지 않는다.

수학적 유도

KL 최소화는 각 상태에서 두 그룹—𝓜(s)와 𝓜(s)ᶜ—내부에서는 π₀의 형태를 그대로 유지하는 정책을 선택한다. 각 그룹 내부에서 π₀의 비율을 유지하면서 두 그룹 간 총 질량만 조정하는 것이 KL 발산을 최소화하는 방법이기 때문이다. 에이전틱 어시스턴트 턴의 행동 공간은 지수적으로 크고, 특정 행동은 보통 단일 태스크에만 관련이 있다. 따라서 𝓜(s)ᶜ는 태스크 무관 행동에 해당하며, 이 행동들의 상대적 순위 보존이 OOD 능력 유지를 보장한다.

4c. 핵심 알고리즘 — Algorithm 1 단계별 실행

스텝 1 / 5

4d. 구현 세부사항

하이퍼파라미터 & 학습 환경

항목	값	비고
기반 모델	Qwen3-30B-A3B-Thinking-2507	모든 실험 동일
최적화 프레임워크	Nemo-RL (NVIDIA)	오픈소스
환경 롤아웃	Nemo-Gym (NVIDIA)	오픈소스
SWE-Bench 평가	OpenHands harness (mean@3)
SWE-Bench 배치 크기	1024 (64 프롬프트 × 16 생성)	E2E RL: 512 (16×32)
E2E RL 롤아웃 수 (SWE)	~542K (12~25 턴/궤적)	PivotRL: ~133K (1턴)
τ²-Bench 데이터 크기	281,774개 궤적 → 87,718개 피벗	838개 도메인
Terminal-Bench 데이터	~20,000개 샘플	중복 제거 포함
BrowseComp 데이터	13,215개 샘플

도메인별 검증기 설계

도메인	액션 정의	검증기 방식
τ²-Bench (대화형 도구 사용)	전체 어시스턴트 완성 (NL + 도구 호출 포함)	정규화 문자열/스키마 체크, 동등성 규칙
Terminal-Bench	다음 bash 명령	출력 스키마 검증 + 정규화 문자열 유사도 + LLM-as-judge
SWE-Bench Verified	다음 도구 호출 (non-error)	도구 이름만 매칭 (의도적으로 거친 로컬 신호)
BrowseComp	다음 검색/브라우징 단계	온라인 검색엔진 + DeepSeek-V3.2 궤적 생성

[평가] SWE-Bench에서 "도구 이름만 매칭"하는 의도적으로 거친 검증기를 선택한 것은 흥미롭다. 이는 로컬 신호(어떤 종류의 도구 호출이 올바른가)와 전체 태스크 성공(SWE-Bench 평가 하네스)을 분리한다. 저자들은 이것이 충분한 학습 신호를 제공하면서도 과적합을 방지한다고 추론했을 것이다. 더 정교한 로컬 검증기가 추가 이득을 줄 수 있는지는 열린 질문이다.

결과

PivotRL은 세 가지 측면에서 검증된다: (1) SFT 대비 도메인 내/OOD 정확도, (2) E2E RL 대비 컴퓨팅 효율성, (3) 각 컴포넌트의 기여도 (에블레이션). 모든 실험은 Qwen3-30B-A3B-Thinking-2507을 기반 모델로 동일한 훈련 데이터를 사용한다.

+4.17%p

도메인 내 정확도 향상

vs. SFT (4개 도메인 평균)

+10.04%p

OOD 정확도 우위

SFT는 OOD -9.83

4×

롤아웃 턴 절감

vs. E2E RL (SWE-Bench)

5.5×

벽시계 시간 절감

vs. E2E RL, 동일 노드

5.1 도메인 내 정확도 (Table 1)

벤치마크	Base	SFT	PivotRL	Δ vs SFT
τ²-Bench (대화형 도구)	44.35	58.44	63.81	+5.37
SWE-Bench Verified (코딩)	19.07	37.40	32.67	-4.73
Terminal-Bench (터미널)	5.42	13.75	20.00	+6.25
BrowseComp (웹 검색)	2.50	1.50	11.30	+9.80
평균	+0 (Base)	+9.94	+14.11	+4.17

SWE-Bench에서 PivotRL이 SFT보다 낮은 것은 E2E RL이 표준 훈련 방식인 이 도메인의 특성 때문이다. 그러나 이어지는 비교에서 PivotRL이 E2E RL과 동등한 정확도를 훨씬 낮은 비용으로 달성함을 보인다.

5.2 OOD 성능 보존 (Table 2) — PivotRL의 가장 중요한 결과

SFT는 터미널 도메인 훈련 후 AIME25 점수가 86.04 → 21.56 (−64.48점)으로 폭락한 반면, PivotRL은 동일 조건에서 −3.12점에 그쳤다. 이것이 기능적 보상과 KL 규제가 협력하여 달성하는 OOD 보존이다.

5.3 E2E RL 대비 효율성 (SWE-Bench)

[보충] 위 차트는 논문 Figure 1의 개념적 재현이다 (원본 Figure는 섹션 6 참조). PivotRL은 ~133K 롤아웃 턴에서 32.67%에 도달하지만, E2E RL은 같은 정확도에 ~542K 턴이 필요하다. 시간 기준으로는 5.5배 차이가 난다.

5.4 에블레이션 — 각 컴포넌트의 기여 (Table 4)

구성	τ²-Bench 정확도	개선폭 (vs Base)
Base 모델 (Qwen3-30B)	44.35	—
Baseline Same-data SFT	58.44	+14.09
D_cand + strict reward (나이브 로컬 RL)	57.34	+12.99
D_cand + functional reward (피벗 필터링 없음)	59.68	+15.33
Ours Full PivotRL (D_adv + functional reward)	63.81	+19.46

에블레이션이 보여주는 것: 피벗 필터링(D_cand → D_adv)이 +4.13점, 기능적 보상(strict → functional)이 +2.34점을 기여한다. 두 컴포넌트를 모두 제거하면 SFT보다도 낮은 성능이 된다. 두 메커니즘은 함께 작동할 때만 최대 효과를 발휘한다.

5.5 대규모 사후 훈련: Nemotron-3-Super (Table 5)

PivotRL은 NVIDIA의 Nemotron-3-Super-120B-A12B 프로덕션 훈련에 실제 적용됐다. 에이전틱 환경에는 PivotRL을, 추론/채팅 환경에는 다른 RL을 함께 사용했다:

벤치마크	Nemotron SFT 이후	PivotRL 스테이지 이후	향상
τ²-Bench	48.00	64.00	+16.00
SWE-Bench Verified	12.87	61.33	+48.46
Terminal-Bench 1.1 Core	23.33	34.17	+10.84
BrowseComp	13.03	25.04	+12.01

SWE-Bench에서 12.87 → 61.33이라는 극적인 향상은 PivotRL이 다른 RL 훈련과 시너지 효과를 낸 결과다. 이는 단일 도메인 실험(19.07 → 32.67)보다 훨씬 큰 개선이다.

논문 원본 Figure & Table 보존

논문의 모든 주요 figure와 table을 원본 그대로 보존한다. 독자가 원본 논문의 어느 페이지를 펴야 할지 바로 알 수 있도록 출처를 명시한다.

Figure 1 & Table 1 — Page 8 (논문 §4.2, §4.1): Figure 1 (SWE-Bench 정확도 vs 롤아웃 턴/시간) + Table 1 (도메인 내 정확도)

Figure 1 해설: 두 패널 (a) 누적 롤아웃 턴, (b) 누적 롤아웃 시간에서 PivotRL과 E2E RL의 SWE-Bench 정확도 궤적을 비교한다. PivotRL이 ~133K 턴(~E2E RL의 1/4)에서, 그리고 ~1/5.5 시간에서 동등한 32.67% 정확도에 도달함을 보인다. Table 1은 4개 에이전틱 도메인의 도메인 내 정확도를 보여준다: PivotRL이 3/4 벤치마크에서 SFT를 초과하며 평균 +4.17%p 우위.

Table 2 & Table 3 — Page 9 (논문 §4.1): Table 2 (OOD 성능 변화 요약) + Table 3 (도메인별 OOD 전체 분해)

Table 2 & 3 해설: 이 논문에서 가장 극적인 결과를 담은 표다. Table 2는 8개 OOD 벤치마크의 평균 변화를 보여준다—SFT는 -9.83, PivotRL은 +0.21. Table 3은 도메인별 전체 OOD 분해를 보여준다. 특히 주목할 것은 Terminal 도메인 훈련 후 SFT의 AIME25 점수 하락: 86.04 → 21.56 (-64.48점). PivotRL 동일 조건: 86.04 → 82.92 (-3.12점). 이 극적인 대비가 기능적 보상과 KL 규제의 OOD 보존 효과를 가장 명확히 보여준다.

Table 4, Figure 2 & 3 해설: 에블레이션과 훈련 동역학을 보여준다. Figure 2에서 D_adv(파란선)가 랜덤 샘플링(주황선)보다 높은 정확도를 달성하며, 둘 다 SFT 베이스라인을 넘어선다. Figure 3에서 D_adv가 훈련 내내 더 높은 보상 표준편차를 유지함을 확인할 수 있다—이것이 Theorem 3.2의 실증적 근거다. 랜덤 샘플링은 훈련 초반에 분산이 빠르게 붕괴하여 학습 신호가 고갈된다.

Table 5 & Table 6 — Page 11 (논문 §4.4, Appendix A): Table 5 (Nemotron-3-Super 결과) + Table 6 (τ²-Bench 피벗 선택 전략 비교)

Table 5 & 6 해설: Table 5는 프로덕션 스케일 적용 결과다—SWE-Bench에서 12.87 → 61.33이라는 극적인 향상은 PivotRL이 다른 RL 환경과 함께 사용될 때의 시너지를 보여준다. Table 6은 피벗 선택 전략의 단조로운 개선을 보여준다: 랜덤(59.68) < low-reward-mean D_adv(63.81), 그리고 두 전략 모두 SFT(58.44)를 능가한다.

한계점 & 트레이드오프

한계 1: 정적 피벗 집합 오프라인 프로파일링은 훈련 시작 전 한 번만 수행된다. 훈련이 진행될수록 D_pivot의 피벗들이 점점 쉬워지며, 논문 Figure 3에서도 확인되듯 랜덤 샘플링의 보상 분산이 훈련 중반 이후 급격히 감소한다. D_adv가 더 오래 높은 분산을 유지하지만, 이것도 결국 포화된다.

dynamic curriculum learning online data selection RL

한계 2: 프로그래매틱 검증기 의존성 현재 PivotRL은 도구 이름 매칭, 출력 스키마 검증, 정규화 유사도 등 프로그래매틱 검증기에 의존한다. 자유 형식 생성이나 주관적 판단이 필요한 태스크에서는 적용이 어렵다. 저자들은 LLM-as-judge와 프로세스 보상 모델(PRM)로 확장을 후속 과제로 언급한다.

LLM-as-judge process reward model

한계 3: 단일 턴 로컬 RL의 구조적 한계 PivotRL은 각 피벗에서 단일 턴 롤아웃만 실행한다. 이는 "이 하나의 행동이 올바른가?"를 학습하지만, 여러 턴에 걸친 전략적 계획이나 멀리 떨어진 보상 신호를 학습하기 어렵다. SWE-Bench에서 E2E RL과 동등한 성능을 보이지만, 더 복잡한 장기 추론이 필요한 태스크에서는 E2E RL이 유리할 수 있다.

multi-step credit assignment hierarchical RL LLM

한계 4: SWE-Bench에서 SFT 대비 낮은 성능 단일 도메인 실험에서 PivotRL(32.67)이 SFT(37.40)보다 낮다. 이는 SWE-Bench 태스크가 E2E RL이 표준인 도메인으로, 단일 턴 피벗 최적화로는 다중 턴 탐색이 필요한 소프트웨어 엔지니어링의 전체 복잡성을 다루기에 충분하지 않을 수 있음을 시사한다. 대규모 훈련(Nemotron)에서는 다른 RL과 함께 사용해서 극적인 향상을 얻었다.

SWE-Bench training software engineering agent RL

트레이드오프 요약

얻는 것	포기하는 것
SFT 컴퓨팅 효율 (추가 환경 데이터 불필요)	완전한 전체 궤적 최적화
E2E RL 수준의 OOD 보존 (Theorem 3.3)	일부 도메인(SWE)에서 SFT 대비 성능
4×~5.5× 컴퓨팅 절감	도메인별 검증기 설계 필요
이론적으로 최적인 학습 신호 (Theorem 3.2)	정적 피벗 집합 → 훈련 후반 신호 감소

영향력 & 후속 연구

PivotRL은 NVIDIA Nemotron-3-Super-120B-A12B의 프로덕션 에이전틱 사후 훈련에 이미 적용됐으며, 관련 코드(Nemo-Gym 환경 + τ²-Bench 데이터 + Nemotron-Post-Training-v3)가 오픈소스로 공개됐다.

누구에게 도움이 되는가?

LLM 프로덕션 팀: 에이전틱 태스크를 위한 포스트 트레이닝 비용을 E2E RL 대비 4~5.5배 절감할 수 있다. SFT 데이터가 이미 있다면 추가 환경 구축 없이 적용 가능하다.

에이전틱 AI 연구자: 피벗 선택과 기능적 보상이 각각 독립적으로 기여한다는 에블레이션 결과는, 이 두 아이디어가 다른 RL 알고리즘에도 적용 가능한 범용 원리임을 시사한다.

이론 연구자: 보상 분산과 자연 그래디언트 놈의 등치 관계(Theorem 3.2)와 기능적 보상의 KL 투영 해석(Theorem 3.3)은 그룹 정규화 RL의 이론적 이해를 발전시킨다.

저자가 제안한 후속 과제

논문은 두 가지 확장 방향을 명시한다: (1) 비프로그래매틱 검증기 통합 (LLM-as-judge, PRM), (2) 온라인 보상 프로파일링 / 동적 샘플링 (예: DAPO의 동적 샘플링 방식).

Q&A — 연구자의 고민과 독자의 질문

연구자가 던졌을 질문

왜 전체 궤적을 다시 학습시키지 않고 "피벗"만 선택했는가?

"71% of randomly sampled turns yield a 0 learning signal, meaning they are uniformly solved or uniformly failed and contribute nothing to the gradient."

롤아웃 예산의 71%가 낭비되는 상황에서, 전체를 다시 학습시키는 것은 비효율의 극치다. 피벗 선택은 "어디서 학습할 것인가"라는 질문에 대한 이론적으로 정당화된 답이다. Theorem 3.2가 이를 뒷받침한다: 학습 신호의 크기가 정확히 보상 분산에 비례하므로, 분산이 높은 피벗에 집중하는 것이 최적이다.

왜 기능적 보상이 OOD를 보존하는가? 직관적으로 이해가 안 된다.

핵심은 Theorem 3.3의 식 (14)다: 기능적 보상 RL의 최적 정책 π_β*는 허용 행동 집합 𝓜(s) 내부에서도, 보집합 𝓜(s)ᶜ 내부에서도, 참조 정책 π₀의 상대적 순위를 그대로 유지한다.

LLM의 행동 공간은 지수적으로 크고, 특정 행동(예: 특정 터미널 명령)은 보통 하나의 태스크에만 관련이 있다. 따라서 𝓜(s)ᶜ(태스크 무관 행동들)의 내부 순위가 보존된다는 것은 곧 수학, 코딩, 일반 추론 능력의 상대적 순위가 건드려지지 않는다는 의미다. 이것이 OOD 보존의 이론적 메커니즘이다.

[평가] 이 이론은 "에이전틱 행동과 일반 능력이 행동 공간에서 분리되어 있다"는 가정에 의존한다. 현실에서 이 경계가 얼마나 명확한지, 그리고 이 가정이 위반될 때 어떤 일이 발생하는지는 열린 질문이다.

SWE-Bench에서 왜 검증기를 "도구 이름만 매칭"처럼 의도적으로 거칠게 설계했는가?

논문은 이것이 의도적인 설계 선택임을 명시한다: "The local verifier matches tool-call names only. This is a deliberately coarse local signal: it checks whether the model selected the correct next kind of operation at the pivot... without attempting to score tool arguments or patch quality at every turn."

로컬 신호(이 피벗에서 올바른 종류의 조작)와 전역 성공(전체 SWE-Bench 평가)을 분리하는 전략이다. 로컬 신호가 너무 정교하면 로컬 최적에 과적합할 위험이 있다. 실제 태스크 성공은 전체 평가 하네스에 위임된다.

독자가 던질 질문

PivotRL을 내 태스크에 적용하려면 무엇이 필요한가?

필요한 것: (1) 전문가 SFT 궤적 데이터셋, (2) 도메인별 검증기 (기능적 동등성 판단), (3) 참조 정책 π₀ (보통 SFT 초기 모델), (4) Nemo-RL + Nemo-Gym (공개됨).

가장 어려운 부분은 검증기 설계다. 정형화된 도구 호출이나 코드 실행처럼 자동 검증이 가능한 도메인에서는 쉽지만, 자유 형식 생성 태스크에서는 아직 LLM-as-judge 통합이 개발 중이다.

RLVR (DeepSeek-R1 방식) 과 어떻게 다른가?

RLVR는 검증 가능한 보상(수학 정답 여부 등)으로 처음부터 E2E RL을 적용한다. PivotRL은 기존 SFT 궤적을 재활용하여 전체 궤적 대신 피벗 턴에서만 단일 턴 롤아웃을 실행한다는 점이 다르다. RLVR는 추론 태스크에 강하지만 에이전틱 다중 턴 태스크에서는 전체 궤적 E2E RL이 필요해 비용이 크다. PivotRL은 이 비용 문제를 해결하는 데 특화됐다.

[평가] 실제로 Nemotron-3-Super 훈련에서 PivotRL(에이전틱)과 다른 RL(추론/채팅)이 함께 사용됐다. 이 두 방식은 경쟁이 아니라 상호 보완적이다.

코드와 데이터는 어디서 볼 수 있는가?

논문에 명시된 공개 자원:

Nemo-RL: github.com/NVIDIA-NeMo/RL — 확장 가능한 사후 훈련 라이브러리
Nemo-Gym: github.com/NVIDIA-NeMo/Gym — RL 환경 롤아웃 라이브러리 (τ²-Bench 환경 포함)
τ²-Bench 데이터: Nemotron-Post-Training-v3로 공개
논문: arxiv.org/abs/2603.21383

λ_diff (난이도 임계값)는 어떻게 선택하는가?

논문에서 λ_diff의 구체적인 값은 명시되지 않는다. 일반적으로 μ̂(s) < λ_diff는 "여전히 대부분 실패하는 어려운 턴" 을 선택하는 기준이다. λ_diff=0.5로 설정하면 성공률이 50% 미만인 턴만 선택하는 것과 같다.

[평가] λ_diff가 너무 낮으면 피벗이 너무 적어 훈련 데이터 부족이 발생할 수 있다. 너무 높으면 거의 성공하는 쉬운 피벗도 포함되어 학습 효율이 떨어진다. 도메인별 최적값을 찾는 것이 실용적 과제다.

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

문제의 배경 — 기존 연구의 한계

가장 단순한 시도가 왜 실패했는가?

이 논문의 선택 — 핵심 아이디어와 트레이드오프

왜 이 두 가지가 함께 필요한가?

이 선택의 트레이드오프

방법론

4a. 전체 파이프라인 — 아키텍처 & 데이터 플로우

4b. 핵심 수식 전체

① SFT 음의 로그 우도 손실

② GRPO (Group Relative Policy Optimization) 목적함수

③ 그룹 정규화 어드밴티지 (Eq. 1)

④ 엄격한 로컬 보상 vs. 기능적 보상 (Eq. 2 & 6)

⑤ 오프라인 프로파일링 & 피벗 선택 (Eq. 4, 5)

⑥ PivotRL 훈련 목적함수 (Eq. 7)

⑦ 이론 분석: 보상 분산이 학습 신호를 결정한다 (Theorem 3.2, Eq. 9-10)

⑧ 이론 분석: 기능적 보상의 OOD 보존 메커니즘 (Theorem 3.3, Eq. 11-14)

4c. 핵심 알고리즘 — Algorithm 1 단계별 실행

4d. 구현 세부사항

하이퍼파라미터 & 학습 환경

도메인별 검증기 설계

결과

5.1 도메인 내 정확도 (Table 1)

5.2 OOD 성능 보존 (Table 2) — PivotRL의 가장 중요한 결과

5.3 E2E RL 대비 효율성 (SWE-Bench)

5.4 에블레이션 — 각 컴포넌트의 기여 (Table 4)

5.5 대규모 사후 훈련: Nemotron-3-Super (Table 5)

논문 원본 Figure & Table 보존

한계점 & 트레이드오프

트레이드오프 요약

영향력 & 후속 연구

누구에게 도움이 되는가?

저자가 제안한 후속 과제

관련 분야 더 탐색하기

Q&A — 연구자의 고민과 독자의 질문

연구자가 던졌을 질문

독자가 던질 질문