[태그:] FGAA
-

Interpretable Steering of Large Language Models with Feature Guided Activation Additions (FGAA) (ICLR 2025 Building Trust Workshop)
아래는 ICLR 2025 Building Trust Workshop에 게재된“Interpretable Steering of Large Language Models with Feature Guided Activation Additions (FGAA)” 논문의 전체 구조와 핵심 내용을 체계적으로 정리한 설명입니다. 1. 논문의 핵심 문제의식 LLM의 행동을 원하는 방향으로 제어하는 것은 매우 중요한 난제이다.기존 접근 방식은 크게 다음 두 가지 문제가 있었다: (1) Fine-tuning (2) Prompt 기반 제어 (3) Activation Steering(활성화 조작) Transformer…