[태그:] CAA

*** Steering Llama 2 via Contrastive Activation Addition (ACL 2024)

개요 (Abstract & Motivation) 예시: 아첨(sycophancy) vector를 추가하면 모델이 사용자에게 무조건 동조하는 답변을 하게 되고, 빼면 더 사실 중심의 대답을 하게 됩니다. 방법론: Contrastive Activation Addition (CAA) 1. Steering Vector 생성 데이터 구성: (같은 질문 + 서로 다른 A/B 정답)을 가지는 multiple-choice 쌍 사용 수식 (Mean Difference vector): aL(p,c)a_L(p, c): 레이어 LL에서의 Residual Stream Activation 다양한…

1월 14, 2026

*** Steering Llama 2 via Contrastive Activation Addition (ACL 2024)