Gradient Surgery for Multi-Task Learning

#multi-task-learning #gradient-manipulation #gradient-conflict #gradient-surgery #pcgrad

Link

http://arxiv.org/abs/2001.06782

Abstract

While deep learning and deep reinforcement learning (RL) systems have demonstrated impressive results in domains such as image classification, game playing, and robotic control, data efficiency remains a major challenge. Multi-task learning has emerged as a promising approach for sharing structure across multiple tasks to enable more efficient learning. However, the multi-task setting presents a number of optimization challenges, making it difficult to realize large efficiency gains compared to learning tasks independently. The reasons why multi-task learning is so challenging compared to single-task learning are not fully understood. In this work, we identify a set of three conditions of the multi-task optimization landscape that cause detrimental gradient interference, and develop a simple yet general approach for avoiding such interference between task gradients. We propose a form of gradient surgery that projects a task's gradient onto the normal plane of the gradient of any other task that has a conflicting gradient. On a series of challenging multi-task supervised and multi-task RL problems, this approach leads to substantial gains in efficiency and performance. Further, it is model-agnostic and can be combined with previously-proposed multi-task architectures for enhanced performance.

Synth

Problem:: Multi-Task Learning에서 발생하는 그래디언트 간 충돌(Gradient Interference) 문제로 인해 효율성과 성능 저하 발생

Solution:: 그래디언트 투영 기법(PCGrad)을 사용하여 충돌하는 그래디언트를 다른 작업 그래디언트의 법선 평면에 투영함으로써 간섭 최소화

Novelty:: Multi-Task Learning에서 최적화 어려움의 원인을 정의/PCGrad가 해당 원인들을 해소할 수 있음을 수학적으로 보임/Gradient의 방향과 크기 모두를 최초로 고려함 (개별적으로 고려한 연구는 존재했음)

Note:: 직접적으로 학습에 따른 Gradient Conflict를 보이기 보다 Positive Cos의 비율을 보임. PCGrad를 적용해도 0.5 정도에서 진동했음

Summary

Multi-Task Learning에서 발생하는 Gradient Interference 문제를 해결하기 위한 Gradient Surgery 방법 제안
"비극적 트리오(Tragic Triad)"로 정의된 세 가지 조건(Conflicting Gradients, Dominating Gradients, High Curvature)이 Multi-Task 최적화를 어렵게 함
PCGrad(Projecting Conflicting Gradients) 알고리즘 제안: 충돌하는 그래디언트를 다른 작업 그래디언트의 법선 평면에 투영하는 방식으로 간섭 최소화
다양한 Supervised Learning과 Reinforcement Learning 실험에서 PCGrad가 효율성과 성능을 크게 향상시킴
Model-Agnostic 특성으로 다양한 모델 아키텍처와 쉽게 결합 가능

Motivation

Deep Learning과 Deep Reinforcement Learning은 단일 작업에서 인상적인 성능을 보이지만 데이터 효율성이 주요 과제로 남아있음
- Multi-Task Learning은 여러 작업 간 구조 공유를 통해 효율적인 학습이 가능하다는 이점 제공
- 그러나 실제로는 Multi-Task Learning이 단일 작업 학습보다 최적화하기 어려워 효율성 이점 실현이 어려움
이러한 최적화 어려움의 원인은 완전히 이해되지 않았으며, 기존 연구는 다른 작업의 학습 속도 차이나 최적화 경로의 평탄 지역 등을 원인으로 지목
본 연구는 Multi-Task Learning의 주요 최적화 문제가 서로 다른 작업의 그래디언트 간 충돌에서 발생한다는 가설 제시

Multi-Task Learning의 비극적 트리오

Conflicting Gradients: 서로 다른 작업의 그래디언트가 부정적인 코사인 유사도를 가짐 (서로 반대 방향)
Dominating Gradients: 그래디언트 크기의 큰 차이로 인해 일부 작업이 다른 작업을 지배
High Curvature: 최적화 경로에 높은 양의 곡률이 존재 (같은 크기의 파라미터 변화에 대해 손실함수 변화가 큼)
이 세 조건이 동시에 발생할 경우:
- 지배적인 작업의 그래디언트가 평균 그래디언트를 지배하여 다른 작업의 성능 저하 초래
- 높은 곡률로 인해 지배적인 작업의 성능 향상은 과대평가되고 다른 작업의 성능 저하는 과소평가됨
- 결과적으로 최적화 진행이 어려워짐

(a)처럼 Loss-Landscape가 나오도록 설계한 2차원 최적화 문제 Adam과 제안 방식비교

2D 예시를 통해 보여줄 때, 표준 최적화 알고리즘(Adam)은 비극적 트리오가 발생하는 지점에서 진행이 멈추는 현상 관찰

Method

PCGrad(Projecting Conflicting Gradients)

(a) 갈등이 발생하는 경우, (b), (c) 처럼 서로의 법선 평면에 투영하도록 조작. (d) 처럼 갈등이 없는 경우는 그대로 사용

핵심 아이디어: 충돌하는 그래디언트를 수정하여 간섭 최소화
알고리즘 단계:
1. 모든 작업 쌍에 대해 그래디언트 간 코사인 유사도 계산
2. 유사도가 음수(충돌)일 경우, 한 작업의 그래디언트를 다른 작업의 그래디언트의 법선 평면으로 투영:
  - $g_{i}^{P C} = g_{i} - \frac{g_{i} \cdot g_{j}}{| | g_{j} | |^{2}} g_{j}$
3. 유사도가 양수일 경우, 그래디언트 그대로 유지
4. 수정된 그래디언트를 사용하여 파라미터 업데이트
구현이 간단하며 모든 그래디언트 기반 옵티마이저와 쉽게 결합 가능

이론적 증명

Theorem 1. 볼록 함수에서 PCGrad는 (1) 그래디언트 간 코사인 유사도가 정확히 -1인 지점이나 (2) 최적값으로 수렴
- 실제 SGD에서는 미니배치의 노이즈로 인해 코사인 유사도가 정확히 -1이 될 가능성이 낮아 최적값으로 수렴하는 경향
Theorem 2. PCGrad가 표준 다중 작업 경사 하강법보다 더 나은 성능을 보이는 조건:
- $\cos ϕ_{12} \leq - Φ (g_{1}, g_{2})$ (충분한 그래디언트 충돌)
- $ℓ \geq ξ (g_{1}, g_{2}) L$ (충분한 곡률)
- $t \geq \frac{2}{ℓ - ξ (g_{1}, g_{2}) L}$ (적절한 학습률)
- 여기서 $Φ (g_{1}, g_{2})$ 는 그래디언트 크기 유사도, $ξ (g_{1}, g_{2})$ 는 다중 작업 곡률 바운딩 측정치
두 이론이 모두 Appendix에 증명되어 있음

Method 검증

다중 작업 지도 학습 실험

MultiMNIST 데이터셋: PCGrad가 왼쪽 및 오른쪽 숫자 분류 정확도 각각 0.13%, 0.55% 향상 → 기존 방법보다 더 나은 특징 공유 효과
CIFAR-100 다중 작업: PCGrad 단독으로 71% 정확도 달성(기존 방법들보다 우수), Routing Network와 결합 시 77.5% 달성(2.8%p 향상) → 다양한 아키텍처와 결합 가능성 입증
CelebA 데이터셋(40개 속성 분류): 평균 분류 오류율 8.69% 달성(이전 방법 8.95%) → 많은 수의 작업에서도 효과적임 입증
NYUv2 데이터셋(의미적 분할, 깊이 추정, 표면 법선 예측): MTAN과 결합 시 9개 중 8개 카테고리에서 최고 성능 달성 → 복잡한 다중 작업 문제에서도 효과적

다중 작업 강화 학습 실험

Meta-World MT10 및 MT50 벤치마크:
- PCGrad+SAC는 MT10에서 모든 작업 성공적으로 학습, MT50에서 약 70% 작업 성공
- 단일 SAC 및 Multi-head SAC는 두 벤치마크 모두에서 절반 이하의 작업만 학습
- 독립적 SAC 에이전트와 비교해 MT10에서 2백만, MT50에서 15백만 샘플 절약 → 공유 구조를 통한 데이터 효율성 크게 향상
그래디언트 방향 vs 크기 분석: 그래디언트 방향만 수정하거나 크기만 수정하는 변형은 모두 원래 PCGrad보다 성능 하락 → 방향과 크기 모두 중요함 입증
CosReg와의 비교: PCGrad가 크게 우수한 성능 보임 → 작업 간 긍정적 상호작용 유지의 중요성 입증

비극적 트리오 실증 분석

두 강화 학습 작업(reach와 press button top)에서 비극적 트리오 분석:
- 다중 작업 곡률이 학습 과정에서 지속적으로 증가하며 양수 유지 (좌측)
- Task 2를 해결하기 전까지 두 작업 그래디언트 간 충돌이 빈번하게 발생 (가운데 및 우측)
  - 우측의 SAC+PCGrad Task2의 성능이 Task1과 비슷해지는 시점부터 가운데 SAC+PCGrad Condition이 감소하기 시작
- PCGrad는 이러한 조건에서 Adam보다 두 작업 모두에서 더 나은 성능 달성 → 비극적 트리오 조건이 실제로 다중 작업 학습을 어렵게 만들고, PCGrad가 이를 효과적으로 해결함을 입증