역전파(backpropagation)가 정말 필요한가? — 이 논문은 "뒤로 가지 않고 앞으로만 두 번 가면 학습이 가능하다"는 발상으로, 신경과학적 타당성과 저전력 하드웨어라는 두 마리 토끼를 잡으려 한다.
arXiv →지난 10년간 딥러닝의 놀라운 성공은 역전파(backpropagation)라는 알고리즘 위에서 이루어졌다. 하지만 힌튼은 이 논문에서 "역전파가 작동한다는 사실"과 "역전파가 유일한 방법이어야 한다는 믿음"을 분리한다. 역전파에는 세 가지 근본적 한계가 있다.
"As a model of how cortex learns, backpropagation remains implausible despite considerable effort to invent ways in which it could be implemented by real neurons."피질이 학습하는 방식의 모델로서, 역전파는 실제 뉴런이 이를 구현할 수 있는 방법을 발명하려는 상당한 노력에도 불구하고 여전히 비타당하다.
생물학적으로 타당한 역전파 대안을 찾으려는 시도들이 있었다:
그래서 이 논문은 다음 질문에 답하려 한다: "전방향 패스만 두 번 반복하는 것으로 역전파를 완전히 대체할 수 있는가?"
"The idea is to replace the forward and backward passes of backpropagation by two forward passes that operate in exactly the same way as each other, but on different data and with opposite objectives."아이디어는 역전파의 전방향·역방향 패스를 정확히 같은 방식으로 동작하지만 서로 다른 데이터와 반대 목표를 가진 두 번의 전방향 패스로 대체하는 것이다.
FF의 핵심 개념인 goodness는 레이어의 ReLU 뉴런 활성값의 제곱합이다:
| 변수 | 의미 | 비고 |
|---|---|---|
y_j | j번째 숨겨진 유닛의 활성값 (레이어 정규화 이전) | ReLU 출력 |
Σy²_j | goodness — 레이어 활성값의 제곱합 | 높을수록 "더 좋음" |
θ | 임계값 (threshold) | 양성/음성 경계 |
σ | 로지스틱 함수 | 확률로 변환 |
직관적 해설
수학적 유도
FF는 다층 신경망의 각 레이어가 독립적으로 학습하는 탐욕적 다층 학습 절차(greedy multi-layer learning)다. 레이어 간 정보 전달을 위해 핵심적인 레이어 정규화(layer normalization)가 사용된다.
FF에서 레이어 정규화는 선택이 아니라 필수적 설계 요소다. 이유를 이해하면 FF의 전체 구조가 명확해진다:
첫 번째 레이어가 goodness(활성값 제곱합)를 높이도록 학습되면, 두 번째 레이어는 첫 번째 레이어의 벡터 길이만 보고도 양성/음성을 구분할 수 있다. 새로운 특징을 전혀 학습할 필요가 없는 것이다. 레이어 정규화는 벡터를 길이로 나눔으로써 길이 정보(goodness)를 제거하고, 방향 정보(상대적 활성 패턴)만 다음 레이어로 전달한다.
"FF normalizes the length of the hidden vector before using it as input to the next layer... This removes all of the information that was used to determine the goodness in the first hidden layer and forces the next hidden layer to use information in the relative activities of the neurons."FF는 다음 레이어의 입력으로 사용하기 전에 숨겨진 벡터의 길이를 정규화한다... 이는 첫 번째 레이어에서 goodness를 결정하는 데 사용된 모든 정보를 제거하고, 다음 레이어가 뉴런들의 상대적 활성값 정보를 사용하도록 강제한다.
| 변수 | 의미 | 비고 |
|---|---|---|
Δw_j | 뉴런 j의 입력 가중치 벡터 변화량 | 벡터 |
y_j | 레이어 정규화 이전 뉴런 j의 ReLU 활성값 | 스칼라 |
x | 레이어 입력 벡터 | 벡터 |
ε | 학습률 | 하이퍼파라미터 |
∂log(p)/∂Σy² | log-확률의 goodness에 대한 도함수 | 스칼라 |
직관적 해설
수학적 유도
| 변수 | 의미 | 비고 |
|---|---|---|
S* | 목표 goodness 값 | 원하는 활성값 수준 |
S_L | 레이어 L의 현재 goodness | 레이어 정규화 이전 제곱합 |
ε | 이 케이스를 완벽히 처리하는 학습률 | 단일 스텝 해 |
직관적 해설
수학적 유도
FF는 무엇을 음성 데이터로 쓰느냐에 따라 무엇을 학습하는지가 달라진다. 논문은 두 가지 전략을 제시한다:
| 항목 | MNIST (지도) | MNIST (비지도) | CIFAR-10 |
|---|---|---|---|
| 레이어 수 | 4 | 4 | 2–3 |
| 각 레이어 뉴런 수 | 2000 ReLU | 2000 ReLU | 3072 ReLU |
| 학습 에폭 | 60–500 | 100 | - |
| 정규화 | 레이어 정규화 | 레이어 정규화 + peer norm | 레이어 정규화 + weight decay |
| 연결성 | 완전 연결 | 로컬 수용 필드 (선택) | 11×11 로컬 수용 필드 |
| 리커런트 사용 여부 | 아니오 | 아니오 | 아니오 |
평가 논문은 명시하지 않지만, 학습 최적화기(optimizer) 종류와 학습률 스케줄에 대한 세부사항이 부족하다. 재현성을 위해서는 추가 정보가 필요하다.
| 방법 | 학습 방식 | 테스트 오류율 | 에폭 | 비고 |
|---|---|---|---|---|
| Baseline Backpropagation | 지도 학습 | ~1.4% | 20 | Permutation-invariant 기준 |
| Baseline BP + Regularizers | 지도 학습 | ~1.1% | - | Dropout, label smoothing 사용 |
| Ours FF 지도 학습 | 양성/음성 레이블 | 1.36% | 60 | 하드 네거티브 레이블 선택 |
| FF 비지도 (완전 연결) | 하이브리드 이미지 | 1.37% | 100 | 선형 분류기 추가 |
| Ours FF 비지도 (로컬 RF) | 하이브리드 이미지 | 1.16% | 60 | Peer normalization 포함 |
| Ours FF + 데이터 증강 | 지도 + 지터링 | 0.64% | 500 | ±2픽셀 jittering, CNN 수준 |
| FF 리커런트 (MNIST) | 지도 학습, 8 timesteps | 1.31% | 60 | 톱다운 연결 포함 |
CIFAR-10은 복잡한 배경을 가진 32×32 컬러 이미지 분류 태스크다. 완전 연결 네트워크로는 심각한 과적합이 발생하므로, 논문은 11×11 로컬 수용 필드를 가진 비가중치-공유 로컬 연결 구조를 사용했다.
주목할 점: FF의 테스트 오류율은 BP보다 약간 높지만, 레이어가 늘어나도 격차가 커지지 않는다. 훈련 오류율에서는 FF가 BP보다 훨씬 높은데, 이는 FF가 역전파만큼 빠르게 훈련 데이터를 피팅하지 못한다는 것을 보여준다.
| 학습 절차 | 테스트 절차 | 숨겨진 레이어 수 | 훈련 오류율 | 테스트 오류율 |
|---|---|---|---|---|
| Baseline BP | 표준 | 2 | 0% | 37% |
| Ours FF (min ssq) | 레이블별 goodness | 2 | 20% | 41% |
| FF (min ssq) | 원패스 softmax | 2 | 31% | 45% |
| FF (max ssq) | 레이블별 goodness | 2 | 25% | 44% |
| Baseline BP | 표준 | 3 | 2% | 39% |
| Ours FF (min ssq) | 레이블별 goodness | 3 | 24% | 41% |
아래는 논문에 등장하는 모든 Figure와 Table의 원본 이미지다. 각 Figure 아래에 논문 내 위치, 목적, 주목할 포인트를 해설했다.
논문 내 위치: 섹션 3.2 "FF의 간단한 비지도 예시", 4페이지. 무엇을 보여주는가: 두 자릿수 이미지를 랜덤 블러 마스크로 합성한 하이브리드 이미지다. 단거리 픽셀 통계는 실제 이미지와 유사하지만, 형태(장거리 상관관계)는 말이 안 된다. 주목할 포인트: 음성 데이터를 어떻게 만드느냐가 FF가 무엇을 학습할지를 결정한다. 이 설계는 네트워크가 형태 관련 특징을 학습하도록 유도한다. 논문 주장과의 연결: FF는 고품질 음성 데이터 없이도 표현 학습이 가능하며, 이 실험이 그 첫 번째 증거다.
논문 내 위치: 섹션 3.3, 6페이지. 무엇을 보여주는가: FF로 훈련된 첫 번째 레이어 뉴런들이 엣지, 방향성 필터와 유사한 수용 필드를 학습했음을 보여준다. 레이블 정보가 첫 10픽셀에 인코딩되어 있다. 주목할 포인트: 역전파 없이도 의미 있는 특징 표현을 학습할 수 있음을 시각적으로 보여준다. Gabor 필터와 유사한 패턴이 보인다. 논문 주장과의 연결: 0.64% 테스트 오류율(CNN 수준)을 달성한 네트워크의 내부 표현 품질을 증명한다.
논문 내 위치: 섹션 3.4 "FF를 이용한 지각의 탑다운 효과 모델링", 6페이지. 무엇을 보여주는가: 정적 이미지를 지루한 비디오로 처리하는 리커런트 구조. 각 레이어의 활성 벡터가 이전 타임스텝의 위아래 레이어로부터 결정된다. 주목할 포인트: FF의 가장 큰 약점인 "레이어 간 피드백 학습 불가"를 리커런트 처리로 우회하려는 시도다. 논문 주장과의 연결: 역전파 없이도 탑다운 연결을 통한 컨텍스트 통합이 가능함을 보여주며, 1.31% MNIST 테스트 오류율을 달성했다.
논문 내 위치: 섹션 4 "CIFAR-10 실험", 8페이지. 무엇을 보여주는가: 다양한 FF 변형(min/max ssq goodness, 레이블별 goodness vs 원패스 softmax)을 BP와 비교한 테이블. 주목할 포인트: FF의 테스트 오류율은 BP보다 높지만 격차가 크지 않다. "레이블별 goodness 계산"이 "원패스 softmax"보다 3~5%p 더 정확하다. 논문 주장과의 연결: FF가 복잡한 배경을 가진 이미지에서도 BP와 경쟁적인 성능을 낼 수 있음을 보여준다.
| FF가 얻은 것 | FF가 잃은 것 |
|---|---|
| ✓ 역방향 패스 불필요 → 블랙박스 모듈 허용 | ✗ 역전파보다 약간 낮은 성능 |
| ✓ 활성값 저장 불필요 → 파이프라이닝 가능 | ✗ 고품질 음성 데이터 필요 |
| ✓ 각 레이어 독립 학습 → 병렬화 용이 | ✗ 레이어 간 피드백 학습 어려움 |
| ✓ 아날로그 하드웨어 친화적 | ✗ 대규모 확장성 미검증 |
| ✓ 뇌 모델로서 더 타당 | ✗ 수면-각성 분리 미해결 |
힌튼은 두 분야를 명시적으로 지목한다:
힌튼의 대답은 두 가지 측면이다. 첫째, 생물학적 타당성: 뇌가 역전파를 사용하지 않는다면, 뇌의 학습을 이해하려면 역전파 없이도 작동하는 알고리즘이 필요하다. FF는 뇌에서 구현할 수 있는 로컬 학습 규칙만을 사용한다.
"The two areas in which the forward-forward algorithm may be superior to backpropagation are as a model of learning in cortex and as a way of making use of very low-power analog hardware."FF가 역전파보다 우수할 수 있는 두 분야는 피질 학습 모델로서와 저전력 아날로그 하드웨어 활용 방식으로서다.
둘째, 하드웨어 효율성: 아날로그 하드웨어에서 역전파는 A-D 변환기가 필요해 비효율적이다. FF는 두 번의 전방향 패스만으로 학습이 가능하다.
FF의 학습 목표는 네트워크가 양성과 음성 데이터를 구분하는 것이다. 따라서 음성 데이터가 어떤 점에서 양성 데이터와 다른지가 네트워크가 배우는 특징을 결정한다.
만약 단순히 랜덤 노이즈를 음성 데이터로 사용한다면, 네트워크는 "노이즈 대 의미 있는 신호"만 구분하는 낮은 수준의 특징을 배운다. 하이브리드 이미지처럼 단거리 통계는 유사하지만 장거리 구조가 다른 음성 데이터를 사용하면, 네트워크는 더 고수준의 형태 관련 특징을 학습하도록 강제된다.
평가 이 점은 FF의 가장 큰 설계 도전이기도 하다. 도메인마다 좋은 음성 데이터를 만드는 방법이 달라지므로, FF를 새로운 도메인에 적용하려면 도메인 지식이 필요하다.
레이어 정규화 없이는 두 번째 레이어가 첫 번째 레이어의 활성 벡터 길이(= goodness)만 보고 양성/음성을 완벽히 구분할 수 있다. 첫 레이어가 goodness를 높이도록 학습됐으므로, 두 번째 레이어는 길이만 체크하면 되고 새로운 특징을 전혀 학습할 필요가 없다.
"The length is used to define the goodness for that layer and only the orientation is passed to the next layer."벡터 길이는 해당 레이어의 goodness를 정의하는 데 사용되고, 방향만이 다음 레이어로 전달된다.
레이어 정규화는 길이를 제거함으로써 각 레이어가 상대적 활성 패턴(방향)에서 새로운 정보를 추출하도록 강제한다.
논문은 이 질문을 미래 연구로 남긴다. FF는 각 레이어가 판별 모델(discriminative model)의 역할을 하므로, 동일한 숨겨진 표현을 공유하는 생성 모델을 학습시킬 가능성이 있다. 숨겨진 표현을 실제 데이터로 변환하는 부분은 역전파 없이 선형 변환(softmax로의 로짓 계산)으로도 가능하다.
평가 GAN과의 관계(§6.2)에서 힌튼은 FF를 GAN의 특수한 경우로 볼 수 있다고 논의한다. GAN의 판별 모델과 생성 모델이 동일한 숨겨진 표현을 공유하면 모드 붕괴(mode collapse)가 제거될 수 있다는 통찰은 흥미롭지만, 실제 구현은 아직 시연되지 않았다.
수면(sleep) 섹션(§5)에서 힌튼은 초기 논문 초안에서 양성/음성 단계를 시간적으로 분리할 수 있다고 보고했다고 말한다. 예를 들어 양성 업데이트를 여러 번 한 다음 음성 업데이트를 여러 번 하는 방식이 잘 작동한다고 했다. 하지만 이후 이 결과를 재현할 수 없었고, 버그 때문이었을 것으로 의심한다.
이것은 이 논문이 완성된 연구가 아니라 예비 조사임을 보여주는 중요한 사례다. 힌튼은 자신의 실패를 솔직하게 공개한다.
"I have been unable to replicate this result and I now suspect it was due to a bug."나는 이 결과를 재현할 수 없었으며, 이제 그것이 버그 때문이었을 것으로 의심한다.
논문 자체에는 공식 코드 링크가 제공되지 않는다. 그러나 이 논문은 큰 반향을 일으켜 커뮤니티에서 여러 구현이 나왔다:
보충 힌튼은 2022년 NeurIPS에서 이 알고리즘을 발표했으며, 강연 영상에서 추가 직관을 얻을 수 있다.