[태그:] STA

  • *** Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms (ACL 2025)

    *** Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms (ACL 2025)

    연구 배경 제안 방법: Steering Target Atoms (STA) 1. SAE 기반 표현 분해 모델의 은닉 상태 hh 를 SAE를 통해 고차원, 희소 공간으로 투영합니다. 복원(reconstruction)은 여기서 각 row of WdecW_{dec} 는 하나의 atom direction을 나타냅니다.즉, 모델 표현을 구성하는 기본 단위입니다. 2. Target Atom 식별 (Identify Target Atoms) positive(예: 안전한 응답)과 negative(예: 위험한 응답) 샘플의 SAE 활성도를 비교하여 활성…