이 논문은 "에이전트에게 무엇을 언제 가르칠 것인가"라는 질문을 자동화된 교육 과정 설계의 관점에서 바라본다 — 인간 아이처럼, 에이전트의 현재 능력에 맞게 학습 상황을 자동으로 선택하면 어떤 일이 벌어지는가.
arXiv →호메로스는 일리아드를 쓰기 전에 먼저 단어를 배웠다. 너무나 당연한 이야기지만, 이것이 머신러닝 알고리즘에는 오랫동안 적용되지 않았다. 전통적인 Deep Reinforcement Learning(DRL)은 에이전트에게 처음부터 목표 태스크를 주고 시행착오를 반복하게 한다 — 마치 갓 태어난 아이에게 미적분학 교과서를 던져주는 것처럼.
"Human learning is organized into a curriculum of interdependent learning situations of various complexities."인간의 학습은 다양한 복잡도를 가진 상호 의존적 학습 상황들로 구성된 교육과정으로 조직된다.
이 직관은 1985년 Selfridge et al.이 처음 머신러닝에 적용했다. 막대 균형 제어기를 훈련할 때 처음엔 길고 가벼운 막대부터 시작해 점점 짧고 무거운 막대로 이행했다. 1991년 Schmidhuber는 인공 호기심을 통한 탐색 조직화를 제안했고, 이후 감독 학습 환경에서도 쉬운 예제→어려운 예제 순서로 훈련하는 것이 효과적임이 밝혀졌다.
보충 기존 DRL 알고리즘들(DQN, PPO, SAC 등)은 이러한 문제를 보상 함수 설계, 탐색 전략, 신경망 구조 등으로 부분적으로 해결하려 했다. 하지만 이들은 무엇을 학습할지가 아닌 어떻게 학습할지에 집중한다. ACL은 "학습 상황의 분포 자체를 최적화"한다는 근본적으로 다른 접근법이다.
그래서 이 논문은: "에이전트 능력에 맞게 학습 상황 분포를 자동으로 조정하는 메커니즘이 필요하다"는 한계를 해결하려 한다. 이것이 ACL이다.
이 논문은 새로운 알고리즘을 제안하는 것이 아니라, 기존 ACL 연구들을 처음으로 통합적인 프레임워크로 분류한 서베이다. 핵심 통찰은 이것이다: 겉보기에 서로 다른 수십 개의 DRL 기법들(HER, Self-Play, ICM, GoalGAN, PER...)이 사실 모두 같은 질문에 답하고 있다.
모든 ACL 메커니즘은 결국 다음 목적함수의 특수한 경우다:
| 변수 | 의미 | 비고 |
|---|---|---|
D |
태스크 선택 함수 (curriculum) | 학습하는 대상; \(D: \mathcal{H} \to \mathcal{T}\) |
T |
개별 태스크 (task) | MDP \(\langle S, A, P, R, \rho_0 \rangle\) |
T_target |
목표 태스크 분포 | 최종적으로 잘 수행하길 원하는 태스크들 |
P_T^N |
N 학습 스텝 후 태스크 T에서의 성능 | 누적 보상, 탐색 점수 등 |
N |
총 학습 스텝 수 | 고정 예산 |
H |
과거 상호작용 정보 | 에이전트 능력 추정에 사용 |
직관적 해설
수학적 유도
대안적 접근법 — 보상 함수 재설계, 더 나은 탐색 알고리즘, 더 큰 네트워크 — 은 모두 특정 도메인에 묶여 있거나 수동 개입이 필요하다. ACL 프레임워크는 에이전트와 환경에 불가지론적(agnostic)이다. 태스크를 선택하는 메타 수준의 학습이므로, 원칙적으로 어떤 DRL 알고리즘과도 결합 가능하다.
아래 다이어그램에서 각 차원을 클릭하면 세부 내용을 볼 수 있습니다.
ACL은 표준 DRL 학습 루프 위에 메타 레벨 제어 루프를 얹는다. 에이전트가 태스크를 풀고, ACL 메커니즘이 그 과정을 관찰해 다음 태스크를 선택한다. 아래 다이어그램에서 각 컴포넌트를 클릭하면 설명을 볼 수 있다.
ACL은 MDP의 어떤 요소라도 제어할 수 있다. 논문은 이를 데이터 수집(data collection)과 데이터 활용(data exploitation) 두 단계로 나눈다.
On-policy와 off-policy 알고리즘 모두 데이터 수집 단계에서 ACL을 적용할 수 있다. ACL은 태스크 MDP의 요소들을 조작해 에이전트 능력에 맞는 태스크를 생성한다.
Off-policy 알고리즘은 이전에 수집된 경험을 재사용할 수 있다. ACL은 어떤 경험을 정책 업데이트에 사용할지 선택하거나 수정한다.
트랜지션 선택 (S × A): PER (Prioritized Experience Replay)는 TD-error가 큰 트랜지션을 우선적으로 학습에 사용한다 — "더 놀라운(surprising)" 경험이 더 유익하다는 직관이다. SAUNA는 V-error를 기준으로 한다.
트랜지션 수정 (G): HER (Hindsight Experience Replay)는 실패한 에피소드의 목표를 실제 도달한 상태로 사후에 교체한다. "목표를 달성하지 못했지만, 다른 목표에 대한 성공 경험으로 재해석하면 유익하다."
"HER proposes to reinterpret trajectories collected with a given target goal with respect to a different goal — by substituting target goals g with one of the outcomes g′ achieved later in the trajectory."HER은 주어진 목표 g로 수집된 경험을 다른 목표로 재해석한다 — 목표 g를 나중에 실제로 달성된 결과 g′로 대체함으로써.
목표 태스크 성능 \(\int P_T^N dT\)를 직접 최적화하기 어렵기 때문에, ACL은 다양한 대리 목적함수(surrogate objective)를 사용한다.
| 변수 | 의미 | 비고 |
|---|---|---|
LP(T, t) |
시점 t에서 태스크 T의 학습 진행률 | 절대값으로 감소도 진행으로 처리 가능 |
P_T(t) |
시점 t에서 태스크 T의 성능 | 누적 보상 등 |
d/dt |
시간에 대한 미분 (성능 변화율) | 실제로는 추정값 사용 |
직관적 해설
수학적 유도
다음 표는 논문에서 정의한 7가지 대리 목적함수를 정리한 것이다:
| 대리 목적함수 | 핵심 아이디어 | 주요 알고리즘 | 단계 |
|---|---|---|---|
| Reward | 보상이 많은 트랜지션이 더 유익함 | HER, LE2 | 데이터 활용 |
| Intermediate Difficulty | 너무 쉽지도 어렵지도 않은 태스크 선택 | GoalGAN, ADR, RC, BaRC | 데이터 수집 |
| Learning Progress (LP) | 성능 향상 속도가 가장 빠른 태스크 | TSCL, CURIOUS, ALP-GMM | 데이터 수집/활용 |
| Diversity | 방문한 적 없는 다양한 상태/목표 선호 | Count-based, Skew-Fit, DIAYN | 데이터 수집/활용 |
| Surprise | 모델 예측 오차(또는 불일치)가 큰 상태 | ICM, RND, Disagreement, PER | 데이터 수집/활용 |
| Energy | 물리적 에너지가 높은 트랜지션 선호 | En. Based ER, CURIOUS | 데이터 활용 |
| ARM (Adversarial Reward Maximization) | 상대방을 이기는 것이 목표 | AlphaGo Zero, AlphaStar, Hide&Seek | 데이터 수집 |
보충 LP와 Intermediate Difficulty는 직관적으로 유사하지만 중요한 차이가 있다. Intermediate Difficulty는 현재 성능이 50%쯤 되는 태스크를 찾으므로 임계값을 설정해야 한다. LP는 성능 변화율을 보므로 임계값 불필요하고, "지금 배우고 있는 중간"인 태스크뿐 아니라 "갑자기 나빠지는(catastrophic forgetting)" 태스크도 감지할 수 있다.
이 서베이의 핵심 기여는 수십 개의 ACL 알고리즘을 세 차원으로 분류한 Table 1이다. 이를 통해 어떤 조합이 아직 시도되지 않았는지 — 새로운 연구 기회 — 를 명확히 볼 수 있다.
아래 버튼으로 카테고리를 필터링하거나 전체를 볼 수 있습니다.
| 알고리즘 | Why ACL? | 제어 대상 | 최적화 목표 |
|---|---|---|---|
| §4.1 데이터 수집 (ACL for Data Collection) | |||
| ADR (OpenAI) | 일반화 | 환경 (S, P) — PCG | Intermediate Difficulty |
| ADR (Mila) | 일반화 | 환경 (P) — PCG | Intermediate Diff. & Diversity |
| ALP-GMM | 일반화 | 환경 (S) — PCG | LP |
| RARL | 일반화 | 상대방 (P) | ARM |
| AlphaGo Zero | 일반화 | 상대방 (P) | ARM |
| Hide & Seek | 일반화 | 상대방 (P) | ARM |
| AlphaStar | 일반화 | 상대방 (P) | ARM & Diversity |
| Competitive SP | 일반화 | 상대방 (P) | ARM & Diversity |
| RgC | 일반화 | 환경 (S) — DS | LP |
| RC (Florensa) | 어려운 태스크 | 초기 상태 (ρ₀) | Intermediate Difficulty |
| 1-demo RC | 어려운 태스크 | 초기 상태 (ρ₀) | Intermediate Difficulty |
| Count-based | 어려운 태스크 | 보상 함수 (R) | Diversity |
| RND | 어려운 태스크 | 보상 함수 (R) | Surprise (모델 오차) |
| ICM | 어려운 태스크 | 보상 함수 (R) | Surprise (모델 오차) |
| Disagreement | 어려운 태스크 | 보상 함수 (R) | Surprise (모델 불일치) |
| MAX | 어려운 태스크 | 보상 함수 (R) | Surprise (모델 불일치) |
| BaRC | 어려운 태스크 | 초기 상태 (ρ₀) | Intermediate Difficulty |
| TSCL | 어려운 태스크 | 환경 (S) — DS | LP |
| Acc-based CL | 멀티 목표 | 보상 함수 (R) | LP |
| Asym. SP | 멀티 목표 | 목표 (G), 초기 상태 (ρ₀) | Intermediate Difficulty |
| GoalGAN | 멀티 목표 | 목표 (G) | Intermediate Difficulty |
| Setter-Solver | 멀티 목표 | 목표 (G) | Intermediate Difficulty |
| CGM | 멀티 목표 | 목표 (G) | Intermediate Difficulty |
| CURIOUS | 멀티 목표 | 목표 (G) | LP |
| Skew-Fit | 오픈-엔드 탐색 | 목표 (G) — 픽셀 | Diversity |
| DIAYN | 오픈-엔드 탐색 | 보상 함수 (R) | Diversity |
| CARML | 오픈-엔드 탐색 | 보상 함수 (R) | Diversity |
| LE2 | 오픈-엔드 탐색 | 목표 (G) | Reward & Diversity |
| §4.2 데이터 활용 (ACL for Data Exploitation) | |||
| Prioritized ER | 성능 향상 | 트랜지션 선택 (S×A) | Surprise (TD-error) |
| SAUNA | 성능 향상 | 트랜지션 선택 (S×A) | Surprise (V-error) |
| CURIOUS | 멀티 목표 | 트랜지션 선택+수정 (S×A, G) | LP & Energy |
| HER | 멀티 목표 | 트랜지션 수정 (G) | Reward |
| HER-curriculum | 멀티 목표 | 트랜지션 수정 (G) | Diversity |
| Language HER | 멀티 목표 | 트랜지션 수정 (G) | Reward |
| Curiosity Prio. | 멀티 목표 | 트랜지션 선택 (S×A) | Diversity |
| En. Based ER | 멀티 목표 | 트랜지션 선택 (S×A) | Energy |
| LE2 | 오픈-엔드 탐색 | 트랜지션 선택+수정 (S×A, G) | Reward |
| IMAGINE | 오픈-엔드 탐색 | 트랜지션 선택+수정 (S×A, G) | Reward |
논문의 모든 그림과 표를 원본 그대로 보존합니다. 각 항목 아래에 위치, 목적, 주목 포인트, 논문 주장과의 연결을 설명합니다.
무엇을 보여주는가: 에이전트(중앙)를 둘러싼 4가지 ACL 제어 지점 — Goal Generator(G), Reward Shaping(R), Env Generator(S,P), Initial State Gen.(ρ₀), Opponent Gen.(S,P) — 을 보여준다. 에이전트는 태스크에서 성능(r)과 상태(s)를 돌려보내고, ACL은 이를 바탕으로 새 태스크를 생성한다.
주목할 포인트: 하나의 에이전트 주변에 MDP의 모든 요소가 제어 가능하다는 것이 핵심 메시지다. 실제로 이 화살표들 중 어느 것에 집중하느냐에 따라 전혀 다른 ACL 알고리즘 계열이 만들어진다.
논문 주장과의 연결: §4.1에서 "ACL generates tasks by acting on elements of task MDPs"라는 주장을 시각화한 것이다. 이 그림은 분류 체계 차원 2 ("What does ACL control?")의 직관적 표현이다.
아래는 논문 전체 8페이지의 이미지입니다. 좌측 열이 Table 1(분류 표)을 포함합니다.
저자들은 §6 Discussion에서 ACL 문헌 전반의 구조적 한계를 명시적으로 지적한다.
| 얻는 것 | 잃는 것 / 주의사항 |
|---|---|
| 에이전트 능력에 맞는 동적 커리큘럼 | ACL 메커니즘 자체의 추가 하이퍼파라미터 |
| 희소 보상 환경에서도 학습 가능 | 확률적 환경에서 Surprise 기반 방법 오작동 가능 |
| Sim2Real 전이 성능 향상 | 이론적 수렴 보장 없음 |
| 멀티 목표 설정에서 샘플 효율 향상 | 에이전트 능력 추정의 불안정성 |
| 알고리즘·도메인 불가지론적 설계 | 비교 벤치마크 부재로 방법 선택 어려움 |
이 논문은 ACL 분야에 통일된 언어와 분류 체계를 제공함으로써, 서로 다른 커뮤니티에서 독립적으로 개발되던 아이디어들이 하나의 프레임워크 안에서 교차 수정(cross-breeding)되는 것을 가능하게 했다.
DRL 실무자: 희소 보상, Sim2Real 전이, 멀티 목표 설정 등 구체적인 문제에 어떤 ACL 방법을 쓸지 Table 1을 통해 빠르게 선택할 수 있다.
DRL 연구자: 세 차원에서 아직 탐색되지 않은 조합을 파악해 새로운 연구 방향을 찾을 수 있다.
AI 안전·정렬 연구자: 에이전트의 학습 과정을 외부에서 제어하고 모니터링하는 메커니즘으로서 ACL의 역할에 주목할 수 있다.
"ACL mechanisms could prove extremely useful in this quest [open-ended learning] — guiding agents from their simple original state towards fully capable agents able to reach a multiplicity of goals."ACL 메커니즘은 에이전트를 단순한 초기 상태에서 다양한 목표를 달성할 수 있는 완전한 능력의 에이전트로 이끄는 이 탐색에서 극히 유용할 것이다.
저자들이 제안한 세 가지 후속 방향: