[태그:] K-Steering

* Beyond Linear Steering: Unified Multi-Attribute Control for Language Models (EMNLP 2025 Findings)

논문 “Beyond Linear Steering: Unified Multi-Attribute Control for Language Models” (EMNLP 2025 Findings) 은 LLM의 복수 속성(behavioral attribute) 제어를 위한 새로운 비선형 스티어링 방법인 K-Steering 을 제안한 연구입니다. 아래에 주요 내용을 정리했습니다. 1. 연구 배경 기존의 Activation Steering (예: CAA, ITI, RepE 등)은 LLM의 은닉 표현(activation)을 선형 벡터로 조작하여 특정 속성(예: 공격성, 공손함, 진실성 등)을 제어하지만, 예: “공손하면서 유머러스한 톤”처럼 복합적인 조합은 단순…

1월 16, 2026

* Beyond Linear Steering: Unified Multi-Attribute Control for Language Models (EMNLP 2025 Findings)