[태그:] IDS

  • *** In-Distribution Steering: Balancing Control and Coherence in Language Model Generation (arxiv 2025)

    *** In-Distribution Steering: Balancing Control and Coherence in Language Model Generation (arxiv 2025)

    아래는 논문 **“In-Distribution Steering: Balancing Control and Coherence in Language Model Generation (2025)”**에 대한 설명입니다. 📌 논문 핵심 요약 **IDS(In-Distribution Steering)**는 기존 Activation Steering 기법(CAA, MERA)의 가장 큰 한계를 해결하는 방법입니다: “스티어링 강도 α를 고정하지 말고, 입력이 target-behavior distribution 안에 머물 수 있을 만큼만 동적으로 조절하자.” ⇒ 즉, 과소 스티어링 ↔ 과도 스티어링(activation collapse) 사이에서 최적 지점을 자동…