Direct Preference Optimization

Apr 15, 2025 09:48 AM

Apr 30, 2025 08:42 AM

Direct Preference Optimization(DPO)은 강화학습(RL)과 선호도 학습(preference learning)의 효율적인 대안으로 개발된 방법

Link

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

핵심 개념

기존 선호도 기반 학습은 크게 두 단계로 이루어짐:
1. 선호도 데이터로부터 보상 모델(reward model) 학습
2. 학습된 보상 모델을 사용해 RL로 정책(policy) 최적화
DPO는 이 두 단계를 결합하여 직접 정책을 최적화:
- 보상 모델을 명시적으로 학습하지 않음
- 선호도 데이터에서 직접 정책 파라미터 업데이트
- KL 제약 보상 최적화 문제의 닫힌 형태 해(closed-form solution)를 활용

장점

명시적인 보상 모델 학습 필요 없음
계산 효율성 향상 (단일 단계 학습)
RL 알고리즘의 복잡성과 불안정성 회피
원래 모델의 능력을 보존하면서 선호도 반영 가능
모델 배포 과정 간소화 (별도의 보상 모델 없음)

수학적 공식화

선호도 데이터 $(x, y_{w}, y_{l})$ 가 있을 때 ( $x$ 는 입력, $y_{w}$ 는 선호되는 출력, $y_{l}$ 은 선호되지 않는 출력):

Bradley-Terry 모델로 선호도 확률 모델링: $p (y_{w} ≻ y_{l} | x) = σ (r (x, y_{w}) - r (x, y_{l}))$
- 이 수식의 목적: 선호되는 출력과 선호되지 않는 출력 간의 보상 차이를 시그모이드 함수를 통해 선호도 확률로 변환
- $σ$ 는 시그모이드 함수로, 두 출력 간의 보상 차이를 0과 1 사이의 확률값으로 매핑
- $r (x, y)$ 는 입력 $x$ 에 대한 출력 $y$ 의 보상값(선호도)
KL 제약 보상 최적화 문제: $max_{π_{θ}} E_{x \sim D, y \sim π_{θ} (y | x)} [r (x, y)] - β KL [π_{θ} (y | x) | | π_{ref} (y | x)]$
- 이 수식의 목적: 모델이 높은 보상을 받는 출력을 생성하도록 하면서, 동시에 참조 모델과 너무 멀어지지 않도록 제약 설정
- 첫 번째 항은 정책 $π_{θ}$ 가 생성하는 출력의 기대 보상을 최대화
- 두 번째 항은 새 정책 $π_{θ}$ 가 참조 정책 $π_{ref}$ 로부터 너무 멀어지지 않도록 KL 발산으로 제약
- $β$ 는 이 두 목표 간의 균형을 조절하는 하이퍼파라미터
DPO 손실 함수: $L_{DPO} (π_{θ}; π_{ref}) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (β \log \frac{π_{θ} (y_{w} | x)}{π_{ref} (y_{w} | x)} - β \log \frac{π_{θ} (y_{l} | x)}{π_{ref} (y_{l} | x)})]$
- 이 수식의 목적: KL 제약 보상 최적화 문제를 직접 풀 수 있는 형태의 손실 함수로 변환
- 보상 모델 $r$ 을 직접 학습하지 않고, 정책 $π_{θ}$ 와 참조 정책 $π_{ref}$ 간의 로그 확률 비율로 암묵적으로 표현
- $\frac{π_{θ} (y | x)}{π_{ref} (y | x)}$ 는 새 정책과 참조 정책 간의 출력 확률 비율, 이 값이 높을수록 새 정책이 해당 출력을 더 선호함을 의미
- 선호되는 출력 $y_{w}$ 에 대해서는 이 비율이 높아지고, 선호되지 않는 출력 $y_{l}$ 에 대해서는 낮아지도록 학습

여기서:

$σ$ 는 시그모이드 함수
$π_{θ}$ 는 최적화하려는 정책
$π_{ref}$ 는 참조 정책(보통 초기 사전학습 모델)
$β$ 는 참조 정책으로부터의 이탈 정도를 조절하는 하이퍼파라미터