[태그:] SADI

  • *** Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors (SADI) (ICLR 2025)

    *** Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors (SADI) (ICLR 2025)

    아래는 ICLR 2025 논문 “Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors (SADI)” 의 전체 구조와 핵심 기여를 종합적으로 정리한 설명입니다. 📌 1. 논문의 문제의식 — “고정된 Steering Vector의 한계” Activation Engineering(activation steering)은 최근 LLM 행동을 제어하기 위한 중요한 기법입니다.하지만 기존 방법들은 다음과 같은 한계를 가짐: ① 고정된 steering vector 사용 ② 입력 의미와 steering 방향 불일치 →…