Rémy Portelas, Cédric Colas, Lilian Weng, Katja Hofmann, Pierre-Yves Oudeyer · IJCAI 2020 Workshop · 2020

Automatic Curriculum Learning
For Deep RL: A Short Survey

이 논문은 "에이전트에게 무엇을 언제 가르칠 것인가"라는 질문을 자동화된 교육 과정 설계의 관점에서 바라본다 — 인간 아이처럼, 에이전트의 현재 능력에 맞게 학습 상황을 자동으로 선택하면 어떤 일이 벌어지는가.

arXiv →
Automatic Curriculum Learning Deep Reinforcement Learning Learning Progress Self-Play Hindsight Experience Replay Intrinsic Motivation Sim2Real Transfer

문제의 배경 — 기존 연구의 한계

호메로스는 일리아드를 쓰기 전에 먼저 단어를 배웠다. 너무나 당연한 이야기지만, 이것이 머신러닝 알고리즘에는 오랫동안 적용되지 않았다. 전통적인 Deep Reinforcement Learning(DRL)은 에이전트에게 처음부터 목표 태스크를 주고 시행착오를 반복하게 한다 — 마치 갓 태어난 아이에게 미적분학 교과서를 던져주는 것처럼.

"Human learning is organized into a curriculum of interdependent learning situations of various complexities."

인간의 학습은 다양한 복잡도를 가진 상호 의존적 학습 상황들로 구성된 교육과정으로 조직된다.

이 직관은 1985년 Selfridge et al.이 처음 머신러닝에 적용했다. 막대 균형 제어기를 훈련할 때 처음엔 길고 가벼운 막대부터 시작해 점점 짧고 무거운 막대로 이행했다. 1991년 Schmidhuber는 인공 호기심을 통한 탐색 조직화를 제안했고, 이후 감독 학습 환경에서도 쉬운 예제→어려운 예제 순서로 훈련하는 것이 효과적임이 밝혀졌다.

DRL이 직면한 구체적 어려움

한계 희소 보상 문제 (Sparse Reward Problem): 복잡한 환경에서 에이전트는 우연히라도 보상을 받아야 학습할 수 있다. 목표가 너무 멀리 있으면 무작위 행동으로는 한 번도 보상을 받지 못해 학습 자체가 불가능하다.
한계 샘플 비효율 (Sample Inefficiency): 표준 DRL은 목표 태스크 분포에서만 훈련하므로, 에이전트가 현재 수준에서 학습 가능한 태스크와 그렇지 못한 태스크를 가리지 않는다. 이미 완벽히 해결한 태스크나 아직 불가능한 태스크에서 낭비되는 샘플이 많다.
한계 일반화 실패 (Generalization Failure): 고정된 분포의 태스크만 보면 에이전트는 그 분포에 과적합한다. 실제 환경(Real World)은 훈련 환경과 다르고, 특히 Sim2Real 전이에서 이 간극이 크다.
한계 수동 교육과정 설계의 비실용성: 사람이 수동으로 "단계 1 → 단계 2 → 단계 3"을 설계할 수 있지만, 이는 각 도메인마다 전문 지식이 필요하고, 에이전트의 실제 학습 속도에 맞게 동적으로 조정되지 않는다.

보충 기존 DRL 알고리즘들(DQN, PPO, SAC 등)은 이러한 문제를 보상 함수 설계, 탐색 전략, 신경망 구조 등으로 부분적으로 해결하려 했다. 하지만 이들은 무엇을 학습할지가 아닌 어떻게 학습할지에 집중한다. ACL은 "학습 상황의 분포 자체를 최적화"한다는 근본적으로 다른 접근법이다.

그래서 이 논문은: "에이전트 능력에 맞게 학습 상황 분포를 자동으로 조정하는 메커니즘이 필요하다"는 한계를 해결하려 한다. 이것이 ACL이다.

이 논문의 선택 — 핵심 아이디어와 트레이드오프

이 논문은 새로운 알고리즘을 제안하는 것이 아니라, 기존 ACL 연구들을 처음으로 통합적인 프레임워크로 분류한 서베이다. 핵심 통찰은 이것이다: 겉보기에 서로 다른 수십 개의 DRL 기법들(HER, Self-Play, ICM, GoalGAN, PER...)이 사실 모두 같은 질문에 답하고 있다.

핵심 아이디어 ACL을 세 가지 직교적 차원으로 분해하면 이 방대한 문헌을 일관되게 이해할 수 있다: (1) 왜 ACL을 쓰는가? (목적) / (2) ACL이 무엇을 제어하는가? (제어 대상) / (3) ACL이 무엇을 최적화하는가? (대리 목적함수)

공통 수학적 토대: 하나의 목적함수

모든 ACL 메커니즘은 결국 다음 목적함수의 특수한 경우다:

\[ \text{Obj} : \max_{D} \int_{T \sim \mathcal{T}_{\text{target}}} P_T^N \, dT \quad \cdots (1) \]
변수 의미 비고
D 태스크 선택 함수 (curriculum) 학습하는 대상; \(D: \mathcal{H} \to \mathcal{T}\)
T 개별 태스크 (task) MDP \(\langle S, A, P, R, \rho_0 \rangle\)
T_target 목표 태스크 분포 최종적으로 잘 수행하길 원하는 태스크들
P_T^N N 학습 스텝 후 태스크 T에서의 성능 누적 보상, 탐색 점수 등
N 총 학습 스텝 수 고정 예산
H 과거 상호작용 정보 에이전트 능력 추정에 사용

직관적 해설

"주어진 학습 예산(N 스텝) 안에서, 목표 태스크들에서의 최종 성능을 최대화하는 태스크 선택 전략 D를 학습하라." D는 에이전트의 현재 능력(H에 인코딩)을 보고 다음에 어떤 태스크를 줄지 결정한다. 이것은 일종의 메타러닝이다 — D는 더 나은 학습을 위해 학습 중에 함께 학습된다.

수학적 유도

DRL은 단일 태스크 T에서 \(\max_\pi \mathbb{E}[R]\)를 푼다. 멀티태스크 DRL은 \(T \sim \mathcal{T}\)에서 에이전트를 훈련시키는데, 이때 모든 태스크를 동등하게 샘플링하는 것이 비효율적이다. ACL은 이 태스크 샘플링 분포 자체를 D로 파라미터화하고, N 스텝 후 목표 태스크 성능을 적분(기대값)한 값을 최대화하도록 D를 최적화한다. 이를 메타러닝 관점에서 보면, D는 outer loop에서 학습되고 에이전트 정책 \(\pi\)는 inner loop에서 학습된다.

ACL이 선택한 이유: 왜 이 프레임워크인가?

대안적 접근법 — 보상 함수 재설계, 더 나은 탐색 알고리즘, 더 큰 네트워크 — 은 모두 특정 도메인에 묶여 있거나 수동 개입이 필요하다. ACL 프레임워크는 에이전트와 환경에 불가지론적(agnostic)이다. 태스크를 선택하는 메타 수준의 학습이므로, 원칙적으로 어떤 DRL 알고리즘과도 결합 가능하다.

트레이드오프: 얻는 것 에이전트 능력에 적응하는 동적 커리큘럼 → 샘플 효율성 향상, 희소 보상 문제 해결, 일반화 향상, 멀티 에이전트/오픈-엔드 설정까지 확장 가능
트레이드오프: 잃는 것 추가적인 계산 오버헤드 (메타 레벨 D 학습), 이론적 수렴 보장 부재, ACL 메커니즘 자체의 하이퍼파라미터 도입, 에이전트 능력 추정의 어려움 (잘못된 추정 → 잘못된 커리큘럼)

ACL 분류 체계: 인터랙티브 탐색

아래 다이어그램에서 각 차원을 클릭하면 세부 내용을 볼 수 있습니다.

ACL 목적함수 max D ∫ P_T^N dT ① Why? 목적 / 사용 이유 (클릭하여 확인) ② What controls? 제어 대상 (클릭하여 확인) ③ What optimizes? 대리 목적함수 (클릭하여 확인) ACL ≈ 메타러닝: D(H→T)를 훈련 중에 학습 DRL 에이전트 정책 π는 D가 선택한 태스크에서 학습

방법론 — ACL의 세 가지 분류 차원

4a. ACL 작동 구조: 메타러닝 루프

ACL은 표준 DRL 학습 루프 위에 메타 레벨 제어 루프를 얹는다. 에이전트가 태스크를 풀고, ACL 메커니즘이 그 과정을 관찰해 다음 태스크를 선택한다. 아래 다이어그램에서 각 컴포넌트를 클릭하면 설명을 볼 수 있다.

DRL 에이전트 (π) 정책 학습 ACL 메커니즘 (D) 커리큘럼 생성기 태스크 공간 T {T₁, T₂, ... Tₙ} or PCG 경험 버퍼 (H) (s, a, r, s') 트랜지션 에이전트 능력 추정 목표 태스크 분포 T_target (평가용) 선택된 태스크 T 경험 저장 능력 추정 (H) 태스크 제공 태스크 선택 신호 성능 측정

4b. 차원 2: ACL이 무엇을 제어하는가?

ACL은 MDP의 어떤 요소라도 제어할 수 있다. 논문은 이를 데이터 수집(data collection)데이터 활용(data exploitation) 두 단계로 나눈다.

§4.1 데이터 수집 단계의 ACL

On-policy와 off-policy 알고리즘 모두 데이터 수집 단계에서 ACL을 적용할 수 있다. ACL은 태스크 MDP의 요소들을 조작해 에이전트 능력에 맞는 태스크를 생성한다.

제어 대상 1 / 5

§4.2 데이터 활용 단계의 ACL

Off-policy 알고리즘은 이전에 수집된 경험을 재사용할 수 있다. ACL은 어떤 경험을 정책 업데이트에 사용할지 선택하거나 수정한다.

트랜지션 선택 (S × A): PER (Prioritized Experience Replay)는 TD-error가 큰 트랜지션을 우선적으로 학습에 사용한다 — "더 놀라운(surprising)" 경험이 더 유익하다는 직관이다. SAUNA는 V-error를 기준으로 한다.

트랜지션 수정 (G): HER (Hindsight Experience Replay)는 실패한 에피소드의 목표를 실제 도달한 상태로 사후에 교체한다. "목표를 달성하지 못했지만, 다른 목표에 대한 성공 경험으로 재해석하면 유익하다."

"HER proposes to reinterpret trajectories collected with a given target goal with respect to a different goal — by substituting target goals g with one of the outcomes g′ achieved later in the trajectory."

HER은 주어진 목표 g로 수집된 경험을 다른 목표로 재해석한다 — 목표 g를 나중에 실제로 달성된 결과 g′로 대체함으로써.

4c. 차원 3: ACL이 무엇을 최적화하는가? — 대리 목적함수

목표 태스크 성능 \(\int P_T^N dT\)를 직접 최적화하기 어렵기 때문에, ACL은 다양한 대리 목적함수(surrogate objective)를 사용한다.

\[ \text{LP}(T, t) = \left| \frac{d P_T(t)}{dt} \right| \]
변수 의미 비고
LP(T, t) 시점 t에서 태스크 T의 학습 진행률 절대값으로 감소도 진행으로 처리 가능
P_T(t) 시점 t에서 태스크 T의 성능 누적 보상 등
d/dt 시간에 대한 미분 (성능 변화율) 실제로는 추정값 사용

직관적 해설

"지금 가장 빨리 배우고 있는 태스크에 집중하라." 이미 쉽게 해결하는 태스크는 LP=0 (더 이상 배울 것 없음), 아직 전혀 못 하는 태스크도 LP≈0 (실패가 반복되어 성능 변화 없음). LP가 높은 태스크 = 지금 딱 맞는 도전 수준. 이를 멀티암드 밴딧(MAB) 문제로 프레임화하면, 태스크가 "팔"이고 LP가 "보상"이 된다.

수학적 유도

ACL의 전체 목적함수 Obj는 \(\int P_T^N dT - \int P_T^0 dT\), 즉 전체 학습 진행을 최대화하는 것으로 볼 수 있다. 이를 태스크별 국소 LP의 합으로 근사하면: \(\sum_T \int_0^N LP(T,t) dt\). 따라서 LP를 최대화하는 태스크를 선택하는 것이 전체 목적함수의 근사적 최적화가 된다 (concave 학습 곡선 가정 하에 최적임이 증명됨, Lopes and Oudeyer, 2012).

다음 표는 논문에서 정의한 7가지 대리 목적함수를 정리한 것이다:

대리 목적함수 핵심 아이디어 주요 알고리즘 단계
Reward 보상이 많은 트랜지션이 더 유익함 HER, LE2 데이터 활용
Intermediate Difficulty 너무 쉽지도 어렵지도 않은 태스크 선택 GoalGAN, ADR, RC, BaRC 데이터 수집
Learning Progress (LP) 성능 향상 속도가 가장 빠른 태스크 TSCL, CURIOUS, ALP-GMM 데이터 수집/활용
Diversity 방문한 적 없는 다양한 상태/목표 선호 Count-based, Skew-Fit, DIAYN 데이터 수집/활용
Surprise 모델 예측 오차(또는 불일치)가 큰 상태 ICM, RND, Disagreement, PER 데이터 수집/활용
Energy 물리적 에너지가 높은 트랜지션 선호 En. Based ER, CURIOUS 데이터 활용
ARM (Adversarial Reward Maximization) 상대방을 이기는 것이 목표 AlphaGo Zero, AlphaStar, Hide&Seek 데이터 수집

보충 LP와 Intermediate Difficulty는 직관적으로 유사하지만 중요한 차이가 있다. Intermediate Difficulty는 현재 성능이 50%쯤 되는 태스크를 찾으므로 임계값을 설정해야 한다. LP는 성능 변화율을 보므로 임계값 불필요하고, "지금 배우고 있는 중간"인 태스크뿐 아니라 "갑자기 나빠지는(catastrophic forgetting)" 태스크도 감지할 수 있다.

결과 — ACL 알고리즘 분류 체계 (Table 1)

이 서베이의 핵심 기여는 수십 개의 ACL 알고리즘을 세 차원으로 분류한 Table 1이다. 이를 통해 어떤 조합이 아직 시도되지 않았는지 — 새로운 연구 기회 — 를 명확히 볼 수 있다.

30+
분류된 알고리즘
3
분류 차원
5
사용 목적 유형
7
대리 목적함수 유형

아래 버튼으로 카테고리를 필터링하거나 전체를 볼 수 있습니다.

알고리즘 Why ACL? 제어 대상 최적화 목표
§4.1 데이터 수집 (ACL for Data Collection)
ADR (OpenAI) 일반화 환경 (S, P) — PCG Intermediate Difficulty
ADR (Mila) 일반화 환경 (P) — PCG Intermediate Diff. & Diversity
ALP-GMM 일반화 환경 (S) — PCG LP
RARL 일반화 상대방 (P) ARM
AlphaGo Zero 일반화 상대방 (P) ARM
Hide & Seek 일반화 상대방 (P) ARM
AlphaStar 일반화 상대방 (P) ARM & Diversity
Competitive SP 일반화 상대방 (P) ARM & Diversity
RgC 일반화 환경 (S) — DS LP
RC (Florensa) 어려운 태스크 초기 상태 (ρ₀) Intermediate Difficulty
1-demo RC 어려운 태스크 초기 상태 (ρ₀) Intermediate Difficulty
Count-based 어려운 태스크 보상 함수 (R) Diversity
RND 어려운 태스크 보상 함수 (R) Surprise (모델 오차)
ICM 어려운 태스크 보상 함수 (R) Surprise (모델 오차)
Disagreement 어려운 태스크 보상 함수 (R) Surprise (모델 불일치)
MAX 어려운 태스크 보상 함수 (R) Surprise (모델 불일치)
BaRC 어려운 태스크 초기 상태 (ρ₀) Intermediate Difficulty
TSCL 어려운 태스크 환경 (S) — DS LP
Acc-based CL 멀티 목표 보상 함수 (R) LP
Asym. SP 멀티 목표 목표 (G), 초기 상태 (ρ₀) Intermediate Difficulty
GoalGAN 멀티 목표 목표 (G) Intermediate Difficulty
Setter-Solver 멀티 목표 목표 (G) Intermediate Difficulty
CGM 멀티 목표 목표 (G) Intermediate Difficulty
CURIOUS 멀티 목표 목표 (G) LP
Skew-Fit 오픈-엔드 탐색 목표 (G) — 픽셀 Diversity
DIAYN 오픈-엔드 탐색 보상 함수 (R) Diversity
CARML 오픈-엔드 탐색 보상 함수 (R) Diversity
LE2 오픈-엔드 탐색 목표 (G) Reward & Diversity
§4.2 데이터 활용 (ACL for Data Exploitation)
Prioritized ER 성능 향상 트랜지션 선택 (S×A) Surprise (TD-error)
SAUNA 성능 향상 트랜지션 선택 (S×A) Surprise (V-error)
CURIOUS 멀티 목표 트랜지션 선택+수정 (S×A, G) LP & Energy
HER 멀티 목표 트랜지션 수정 (G) Reward
HER-curriculum 멀티 목표 트랜지션 수정 (G) Diversity
Language HER 멀티 목표 트랜지션 수정 (G) Reward
Curiosity Prio. 멀티 목표 트랜지션 선택 (S×A) Diversity
En. Based ER 멀티 목표 트랜지션 선택 (S×A) Energy
LE2 오픈-엔드 탐색 트랜지션 선택+수정 (S×A, G) Reward
IMAGINE 오픈-엔드 탐색 트랜지션 선택+수정 (S×A, G) Reward

ACL 목적별 연구 분포

논문 원본 Figure & Table

논문의 모든 그림과 표를 원본 그대로 보존합니다. 각 항목 아래에 위치, 목적, 주목 포인트, 논문 주장과의 연결을 설명합니다.

Figure 1 (논문 p.2)
Figure 1 (논문 §4.1, p.2): ACL for Data Collection — 에이전트의 학습 궤적을 형성하기 위해 ACL이 제어할 수 있는 태스크 MDP 요소들을 보여준다.

무엇을 보여주는가: 에이전트(중앙)를 둘러싼 4가지 ACL 제어 지점 — Goal Generator(G), Reward Shaping(R), Env Generator(S,P), Initial State Gen.(ρ₀), Opponent Gen.(S,P) — 을 보여준다. 에이전트는 태스크에서 성능(r)과 상태(s)를 돌려보내고, ACL은 이를 바탕으로 새 태스크를 생성한다.

주목할 포인트: 하나의 에이전트 주변에 MDP의 모든 요소가 제어 가능하다는 것이 핵심 메시지다. 실제로 이 화살표들 중 어느 것에 집중하느냐에 따라 전혀 다른 ACL 알고리즘 계열이 만들어진다.

논문 주장과의 연결: §4.1에서 "ACL generates tasks by acting on elements of task MDPs"라는 주장을 시각화한 것이다. 이 그림은 분류 체계 차원 2 ("What does ACL control?")의 직관적 표현이다.


논문 전체 페이지 (원본 이미지)

아래는 논문 전체 8페이지의 이미지입니다. 좌측 열이 Table 1(분류 표)을 포함합니다.

논문 p.3
p.3 — §4.1 계속 + Table 1 상단
논문 p.4
p.4 — Table 1 하단 + §5 시작
논문 p.5
p.5 — §5 대리 목적함수 상세
논문 p.6
p.6 — §5 계속 + §6 Discussion

한계점 & 트레이드오프

저자들은 §6 Discussion에서 ACL 문헌 전반의 구조적 한계를 명시적으로 지적한다.

한계 이론적 토대 부재: "the current ACL literature lacks theoretical foundations to ground proposed approaches in a formal framework." 감독 학습의 커리큘럼 학습 이론이 DRL에도 성립하는지 알 수 없다.
한계 비교 연구 및 벤치마크 부재: "one can only deplore the lack of comparative studies and standard benchmark environments." 각 논문이 서로 다른 환경과 기준으로 평가해 방법 간 직접 비교가 불가능하다.
한계 에이전트 능력 추정의 불안정성: Surprise 기반 방법은 확률적 환경("TV Problem")에서 오작동한다 — 예측 불가능한 노이즈에 영원히 끌려다니며 정작 유익한 탐색을 못 한다.
한계 ACL 제어 대상의 제한: 에이전트 자체의 구조(기억 용량, 행동 공간, 관측 공간, 할인 계수)를 제어하는 연구는 거의 없다. 인간 유아의 성숙적 제약에 해당하는 접근이 부재하다.
한계 ACL 조합의 미탐색 공간: "Many combinations of previously defined ACL mechanisms remain to be investigated." LP를 이용한 Self-Play 상대 선택, Sim2Real을 위한 적대적 도메인 생성기 등 많은 조합이 미탐색 상태이다.

트레이드오프 요약

얻는 것 잃는 것 / 주의사항
에이전트 능력에 맞는 동적 커리큘럼 ACL 메커니즘 자체의 추가 하이퍼파라미터
희소 보상 환경에서도 학습 가능 확률적 환경에서 Surprise 기반 방법 오작동 가능
Sim2Real 전이 성능 향상 이론적 수렴 보장 없음
멀티 목표 설정에서 샘플 효율 향상 에이전트 능력 추정의 불안정성
알고리즘·도메인 불가지론적 설계 비교 벤치마크 부재로 방법 선택 어려움

영향력 & 후속 연구

이 논문은 ACL 분야에 통일된 언어와 분류 체계를 제공함으로써, 서로 다른 커뮤니티에서 독립적으로 개발되던 아이디어들이 하나의 프레임워크 안에서 교차 수정(cross-breeding)되는 것을 가능하게 했다.

누구에게 도움이 되는가?

DRL 실무자: 희소 보상, Sim2Real 전이, 멀티 목표 설정 등 구체적인 문제에 어떤 ACL 방법을 쓸지 Table 1을 통해 빠르게 선택할 수 있다.

DRL 연구자: 세 차원에서 아직 탐색되지 않은 조합을 파악해 새로운 연구 방향을 찾을 수 있다.

AI 안전·정렬 연구자: 에이전트의 학습 과정을 외부에서 제어하고 모니터링하는 메커니즘으로서 ACL의 역할에 주목할 수 있다.

저자가 제안한 후속 과제

"ACL mechanisms could prove extremely useful in this quest [open-ended learning] — guiding agents from their simple original state towards fully capable agents able to reach a multiplicity of goals."

ACL 메커니즘은 에이전트를 단순한 초기 상태에서 다양한 목표를 달성할 수 있는 완전한 능력의 에이전트로 이끄는 이 탐색에서 극히 유용할 것이다.

저자들이 제안한 세 가지 후속 방향:

후속 과제 1 ACL 제어 대상 확장: 에이전트의 몸(신체), 행동 공간, 관측 공간, 할인 계수까지 ACL로 제어하는 연구
후속 과제 2 ACL 조합 탐색: LP + Self-Play, LP + 학습된 목표 공간, 적대적 도메인 랜덤화 등 미탐색 조합 연구
후속 과제 3 체계적 비교 연구: 표준 벤치마크 환경에서 ACL 방법들을 비교하는 연구 및 이론적 이해 수립

Q&A — 연구자의 고민과 독자의 질문

연구자가 던졌을 질문

Q. 왜 서베이 논문인가? 새 알고리즘을 제안하는 편이 낫지 않은가?

저자들이 직접 밝히듯, ACL 문헌은 2020년 당시 급속히 성장하면서도 통일된 언어가 없었다. PER과 HER, ICM, GoalGAN은 서로 다른 커뮤니티에서 개발됐으며 공통 프레임워크로 비교된 적이 없었다. 분류 체계 자체가 "어떤 조합이 없는가"를 드러냄으로써 새로운 알고리즘 아이디어를 생성하는 역할을 한다. 논문은 "Table 1 organizes the main works surveyed here... and, by contrast, highlight potential new avenues for ACL"이라고 명시한다.

Q. LP(Learning Progress)와 Intermediate Difficulty — 실제로 어떻게 다른가?

두 방법 모두 직관적으로 "지금 배울 수 있는 태스크"를 찾는다. 차이는 측정 방식이다:

Intermediate Difficulty: 현재 에이전트의 성능이 약 50%인 태스크를 찾는다. 임계값 필요(GoalGAN의 경우 [0.2, 0.8]), 이미 잘 하거나 전혀 못 하는 태스크 모두 배제된다.

LP: 성능의 변화율 |dP/dt|을 측정한다. 임계값 불필요, "갑자기 나빠지는(catastrophic forgetting)" 태스크도 높은 LP를 가져 재주의를 끈다 (CURIOUS의 절대값 LP). Lopes & Oudeyer(2012)는 concave 학습 곡선 하에서 LP 최대화가 전체 학습 진행을 최대화하는 것과 동치임을 보였다.

결론 LP가 더 원칙적(principled)이지만 추정이 노이즈하다. Intermediate Difficulty는 직관적이지만 임계값 설정이 필요하다.
Q. ACL이 없는 표준 DRL(예: PPO, SAC)과 비교했을 때 실제로 얼마나 나은가?

논문이 서베이이므로 직접적인 비교 실험을 제시하지 않는다. 하지만 인용된 개별 논문들은 각자의 도메인에서 큰 개선을 보고한다:

- HER(Andrychowicz et al., 2017): 로봇팔 다중 목표 조작에서 ACL 없이는 학습이 거의 불가능했던 태스크를 해결
- ADR(OpenAI, 2019): Rubik's Cube 로봇 손 제어에서 ACL 없이는 Sim2Real 전이 실패
- ALP-GMM(Portelas et al., 2019): 연속 파라미터 환경에서 랜덤 커리큘럼 대비 유의미한 성능 향상

평가 논문은 명시하지 않지만, ACL의 이점은 환경이 복잡할수록(희소 보상, 넓은 태스크 공간) 두드러지고, 단순한 태스크에서는 오히려 오버헤드가 될 수 있다.

Q. 이 분류 체계로 볼 때, 2020년 이후 가장 활발히 탐색된 "빈 공간"은 어디인가?

평가 논문은 명시하지 않지만, 2020년 이후 연구 동향을 고려하면:

탐색된 공간: 오픈-엔드 탐색 + LP (IMAGINE, LEXA 등), Language-conditioned ACL (CLIP 임베딩 목표 공간) 등이 활발해졌다.

여전히 빈 공간: 에이전트 몸 제어 ACL, LP + Self-Play의 체계적 결합, ACL의 이론적 보장 — 이는 저자들이 명시적으로 지적한 미탐색 방향이다.

Q. 코드나 구현은 어디서 볼 수 있는가?

이 서베이 자체는 코드를 포함하지 않는다. 하지만 소개된 주요 알고리즘들의 공개 구현:

- HER: OpenAI Baselines, Stable-Baselines3
- GoalGAN: florensacc/rllab-curriculum
- ALP-GMM: flowersteam/teachDeepRL
- CURIOUS: flowersteam/curious
- RND: OpenAI 공개 코드 (TensorFlow)