[태그:] Spherical Steering

  • *** Spherical Steering: Geometry-Aware Activation Rotation for Language Models (ArXiv 2026)

    *** Spherical Steering: Geometry-Aware Activation Rotation for Language Models (ArXiv 2026)

    1. 문제 설정 (핵심 motivation) 기존 activation steering: 문제점: 논문 핵심 주장: “LLM의 semantic signal은 magnitude가 아니라 direction에 있다” → 따라서 steering도 벡터 이동이 아니라 방향 회전으로 해야 한다  2. 핵심 아이디어: Spherical Steering (1) Representation을 hypersphere로 해석 ⇒ Sd−1S^{d-1} (unit hypersphere 위의 점) (2) Truthfulness axis 정의 contrastive 데이터로부터: Δ=m+−m−\Delta = m^+ – m^-…