*** Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering (NAACL 2025)

논문 **“Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering” (NAACL 2025)**은
대형 언어모델(LLM)이 내부 파라미터(기억된 지식, parametric knowledge)와 입력 문맥(contextual knowledge) 간의 지식 충돌(knowledge conflict) 상황에서 어떤 지식을 사용할지 조절하는 방법을 제안한 연구입니다.

핵심 내용은 다음과 같습니다.


1. 문제 배경: Knowledge Conflict

LLMs는 내부적으로 방대한 사실 지식을 학습하지만,
새로운 컨텍스트(예: 검색 결과, 최신 정보)가 주어지면 기존 지식과 충돌할 수 있습니다.

예시:

Context: “Hinton received the Nobel Prize in Physics in 2024.”
Model Memory: “Hinton is known for the Turing Award.”
➜ 어떤 정보를 믿고 답할 것인가?

이 논문은 이러한 context-memory conflict 상황에서
모델이 “문맥” 또는 “기억된 지식” 중 어느 쪽을 따를지를 제어(steering) 하는 방법을 연구합니다.


2. 제안 기법: SPARE (Sparse Auto-Encoder-based Representation Engineering)

아이디어

LLM 내부의 hidden representation은 다의적(polysemantic)이라 직접 편집하면 여러 의미가 얽혀 불안정합니다.
→ 이를 **Sparse Auto-Encoder (SAE)**로 분해해 단일 의미(monosemantic) feature를 찾아 정밀하게 조절하자는 것.


SPARE의 3단계

(1) Activation 수집

  • 충돌 데이터셋에서
    • DCD_C: 문맥에 따른 답을 낸 경우
    • DMD_M: 모델 기억에 따른 답을 낸 경우
  • 두 집합의 hidden state를 수집.

(2) 기능적 SAE 활성(feature) 식별

  • 각 SAE feature ZiZ_i 와 행동(Y = {C, M}) 간의 상호정보량 I(Zi;Y)I(Z_i; Y) 계산.
  • knowledge selection에 강하게 연관된 상위 k개 feature만 선택.
  • 각각이 “문맥 지식 선택” 혹은 “모델 지식 선택”에 양의 상관을 가지는지 계산하여
    두 방향 벡터 zC,zMz_C, z_M 구성.

(3) Activation 편집 (Steering)

  • 입력 hidden state h의 SAE encoding z를 얻은 후,
  • 원치 않는 방향 제거:
zi=min(zi,ziC)z^-_i = \min(z_i, z^C_i)
  • 원하는 방향 추가:
zi+=max(ziMzi,0)z^+_i = \max(z^M_i – z_i, 0)
  • Decoder로 다시 복원하여 수정된 hidden state:
h=h+α(gϕ(z)+gϕ(z+))h’ = h + \alpha(-g_\phi(z^-) + g_\phi(z^+))

(α은 조절 강도)

  • inference 시 mid-layer에서 이 조작을 수행.

3. 실험 설정

  • 모델: Llama2-7B, Llama3-8B, Gemma2-9B
  • 데이터: NQSwap, MacNoise (둘 다 context-memory conflict QA)
  • 비교 baseline:
    • Representation engineering: TaskVec, ActAdd, SEA
    • Contrastive decoding: DoLa, CAD
    • Prompt-기반: ICL

4. 결과 요약

방법Contextual (EM_C)Parametric (EM_M)요약
SPARE최고 (Llama3-8B: 77.7%)최고 (Llama3-8B: 47.5%)+10~15% 향상
TaskVec / ActAdd / SEA낮음불안정dense feature 편집의 한계
Contrastive (DoLa, CAD)일부 개선Parametric 제어 어려움
ICL느림 + 입력 수정 필요SPARE보다 낮음

결론:
SPARE는 학습 없이, SAE feature 조작만으로 inference-time 제어가 가능하며
속도·효율·정확도 모두 우수합니다.


5. 분석 및 통찰

(a) Conflict 신호 감지

  • residual stream probing 결과:
    conflict 여부를 mid-layer (Llama2: 12~15층, Gemma2: 23~31층)에서 가장 잘 구분 가능.
    ⇒ Steering도 중간층에서 가장 효과적.

(b) Representation 변화

  • conflict를 parametric으로 steer하면 conflict 신호 감소 (AUROC↓).
  • context로 steer하면 conflict 신호 강화.
  • residual stream skewness(kurtosis)가 방향에 따라 달라짐 → 내부 표현 차이 반영.

(c) Ablation

  • “remove only” 또는 “add only”는 실패.
  • “input-independent” steering도 성능 저하.
    → Eq.(2)-(4)의 동적 조절 메커니즘이 핵심.

6. 관련 연구 맥락

  • Representation engineering: TaskVec, ActAdd, SEA
  • Knowledge editing: ROME, MEMIT
  • SAE interpretability: GemmaScope, Sparse Feature Circuits
  • Conflict study: Longpre et al. (2021), Su et al. (2024), Hong et al. (2024)

SPARE는 SAE 기반 feature-level editing을 처음으로 context-memory conflict resolution에 적용한 연구로,
SAE feature를 “functional feature vector”로 사용하는 대표적 사례입니다.


7. 한계 및 향후 과제

  • SAE가 존재하지 않는 모델에는 적용 어려움.
  • ODQA conflict 이외의 복합 추론, multi-hop, 긴 생성에는 검증 부족.
  • 실제 응용에서는 binary 제어 대신 adaptive trust mechanism 필요.

요약하면,

SPARE는 “LLM 내부에서 어떤 지식을 선택할지”를 SAE feature 단위로 조정하는
최초의 training-free, interpretable representation steering 접근입니다.
중간층 residual stream의 conflict 신호를 기반으로, SAE feature를 조작하여
parametric ↔ contextual 지식 선택을 제어할 수 있음을 보여줍니다.

논문의 핵심 방법론(Methodology) 부분을 중심으로, 구조적·수식적 관점에서 자세히 설명드리겠습니다.
(논문 기준: Section 3–4 중심, Figure 3, Eq.(1)–(4))


방법론 요약

SPARE는 **LLM 내부의 residual stream representation을 Sparse Auto-Encoder (SAE)**로 해석하고,
여기서 지식 선택 행동(knowledge selection behaviour) — 즉,
“문맥(Contextual)” vs “기억(Parametric)” 의 선택을 제어하기 위한 기능적 feature vector를 추출·편집하는 방법입니다.


1. 단계 개요

SPARE는 다음 세 단계로 구성됩니다.

단계내용핵심 목적
Step 1. Activation Collection지식 충돌 상황에서 모델이 “문맥” 혹은 “기억”에 의존할 때의 hidden state 수집두 행동의 representation 분리
Step 2. Functional SAE Feature IdentificationSAE latent feature 중 knowledge behaviour와 상관 높은 feature 추출기능적 feature 벡터 zC,zMz_C, z_M 구성
Step 3. Representation Editing (Steering)입력 hidden state의 SAE representation을 부분적으로 수정inference 시 특정 지식 방향으로 steering

2. SAE 기반 표현 학습 (Sparse Auto-Encoder)

먼저 LLM의 residual stream activation

hdh \in \mathbb{R}^d

을 SAE를 통해 sparse representation으로 변환합니다.

fθ(h)=σ(Wθ(hb)+bθ)=zgϕ(z)=Wϕz=i=1nzifi+b=h^\begin{aligned} f_\theta(h) &= \sigma(W_\theta(h – b) + b_\theta) = z \\ g_\phi(z) &= W_\phi z = \sum_{i=1}^{n} z_i f_i + b = \hat{h} \end{aligned}
  • hh: LLM의 residual stream hidden state
  • znz \in \mathbb{R}^n: SAE latent vector (sparse)
  • fif_i: i번째 monosemantic feature
  • Wθ,WϕW_\theta, W_\phi: encoder/decoder 파라미터
  • σ\sigma: ReLU 등 비음수 활성함수

–> SAE를 통해 polysemantic한 dense vector를 monosemantic feature 조합으로 분해. 즉, 특정 의미 단위로 해석 가능한 feature base를 획득합니다.


3. Step 1: 지식 선택 행동에 따른 Activation 수집

지식 충돌 상황에서 LLM의 출력 결과에 따라 두 집합을 정의합니다:

  • DC=(Q,EC)D_C = { (Q, E_C) }: 문맥(Contextual) 지식에 따라 답한 사례
  • DM=(Q,EC)D_M = { (Q, E_C) }: 모델의 기억(Parametric) 지식에 따라 답한 사례

각 샘플의 마지막 token 직전 hidden state를 추출:

{hCj}j=1N,{hMj}j=1N\{h^j_C\}_{j=1}^N, \quad \{h^j_M\}_{j=1}^N

이를 SAE encoder로 변환하여 latent representation을 얻습니다:

zCj=fθ(hCj),zMj=fθ(hMj)z^j_C = f_\theta(h^j_C), \quad z^j_M = f_\theta(h^j_M)

그리고 평균 벡터 계산:

zC=1NjzCj,zM=1NjzMjz_C = \frac{1}{N}\sum_j z^j_C, \quad z_M = \frac{1}{N}\sum_j z^j_M

이 두 벡터는 각각 “문맥 선택 행동”과 “기억 선택 행동”의 평균 latent feature를 나타냅니다.


4. Step 2: Functional SAE Feature 식별

모든 SAE feature ZiZ_i 중, 지식 선택 행동 Y = {C, M}과의 **상호정보량(Mutual Information)**을 계산합니다.

I(Zi;Y)=H(Zi)H(Zi|Y)I(Z_i; Y) = H(Z_i) – H(Z_i | Y)
  • 높은 I(Zi;Y)I(Z_i; Y)ZiZ_i가 행동과 강한 상관을 가짐.
  • 상위 k개의 feature를 선택 → 집합 ZZ.

그 후 각 feature의 기대값 차이로 어떤 방향과 양의 상관인지 구분합니다:

EC[Zi],EM[Zi]E_C[Z_i], \quad E_M[Z_i]
  • EC[Zi]EM[Zi]>0E_C[Z_i] – E_M[Z_i] > 0 ⇒ Contextual behaviour에 양의 상관
  • 반대면 Parametric behaviour와 상관

이를 통해 두 개의 기능적 SAE 벡터를 구성합니다:

ziC={ziC,if EC[Zi]EM[Zi]>00,otherwise,ziM={ziM,if EC[Zi]EM[Zi]<00,otherwisez^C_i = \begin{cases} z^C_i, & \text{if } E_C[Z_i] – E_M[Z_i] > 0 \\ 0, & \text{otherwise} \end{cases} ,\quad z^M_i = \begin{cases} z^M_i, & \text{if } E_C[Z_i] – E_M[Z_i] < 0 \\ 0, & \text{otherwise} \end{cases}

–> 즉, “문맥 지식”과 “기억 지식” 각각을 유도하는 monosemantic feature 집합을 명시적으로 분리합니다.


5. Step 3: Representation Editing (Inference-time Steering)

이제 입력 hidden state hh의 SAE representation z=fθ(h)z = f_\theta(h)을 조정하여
특정 지식 방향으로 “steer”합니다.

예: 모델이 “기억 지식(parametric)”에 더 의존하도록 유도할 경우.

(a) 원하지 않는 문맥 feature 제거

zi=min(zi,ziC)z^-_i = \min(z_i, z^C_i)


– 문맥 feature의 강도를 제한 (비음수 유지 조건)

(b) 원하는 기억 feature 추가

zi+=max(ziMzi,0)z^+_i = \max(z^M_i – z_i, 0)


– parametric 방향 feature를 추가

(c) 수정된 hidden state 재구성

h=h+α(gϕ(z)+gϕ(z+))h’ = h + \alpha(-g_\phi(z^-) + g_\phi(z^+))
  • gϕg_\phi: SAE decoder
  • α: steering 강도 하이퍼파라미터 (positive scalar)
  • 단, z=zz+z+z’ = z – z^- + z^+형태의 직접적인 SAE decoding은 reconstruction 손실로 불안정 → 위 식 채택.

6. 적용 위치: Mid-layer Steering

  • knowledge conflict probing 결과, conflict 신호는 **중간층(mid-layer)**에서 가장 강하게 나타남.
  • 따라서 Llama2-7B에서는 12–15층, Gemma2-9B에서는 23–31층에 적용.
  • editing layer 수를 조절하여 효과 제어 가능.

7. Ablation: 세부 구성 요소 검증

변형설명결과
remove only문맥 feature 제거만 수행성능 급감 (정확도 0)
add onlyparametric feature 추가만 수행성능 저하
input-independent입력과 무관하게 평균 zC,zMz_C, z_M 사용무효 (control 실패)

→ Eq.(2)-(4)를 통한 입력 의존적, 양방향 editing이 필수적임을 증명.


8. 도식 요약 (논문 Figure 3)

입력 hidden state h
        ↓  (SAE Encoder fθ)
        z
        ↓  (z-, z+ 계산: Eq. 2~3)
   ┌───────────────────────────┐
   │ zC, zM functional vectors │
   └───────────────────────────┘
        ↓  (Decoder gϕ)
  h' = h + α(-gϕ(z-) + gϕ(z+))  → Steering 완료

요약: 방법론 핵심 요지

항목설명
접근 방식SAE로 분해된 monosemantic feature 단위에서 hidden activation 조작
목표Contextual vs Parametric 지식 선택을 제어
핵심 기술Mutual Information 기반 functional feature 선택 + 입력별 selective editing
특징학습 불필요(training-free), mid-layer inference-time 제어 가능
결과기존 representation/contrastive 방법보다 +10~15% 정확도 향상

실험 결과 (Experimental Results)

논문은 SPARE의 성능을 지식 충돌(knowledge conflict) 환경에서 평가합니다.

평가 목적은 두 가지입니다:

  1. Parametric Knowledge를 사용하도록 강제할 수 있는가?
  2. Contextual Knowledge를 사용하도록 강제할 수 있는가?

평가는 Open-Domain QA 충돌 데이터셋에서 진행되었습니다.


실험 설정 요약

Dataset

  • NQSwap (Longpre et al., 2021)
  • MacNoise (Hong et al., 2024)

두 데이터셋 모두 context-memory conflict를 인위적으로 구성합니다.


모델

  • Llama2-7B
  • Llama3-8B
  • Gemma2-9B

평가 지표

Metric의미
EM_MParametric knowledge 사용 정확도
EM_CContextual knowledge 사용 정확도

전체 성능 비교 (Main Results)

(A) Parametric Knowledge로 Steering (EM_M)

방법Llama3-8BLlama2-7BGemma2-9B
Without control26.622.226.3
TaskVec24.124.829.8
ActAdd37.831.427.6
CAD33.731.241.1
ICL43.731.643.1
SPARE47.543.744.1

🔎 해석

  • SPARE는 모든 모델에서 최고 성능.
  • 기존 representation engineering 대비 +10% 이상 향상
  • Contrastive decoding (CAD) 대비도 우위.
  • 특히 Llama2-7B에서 +21% 개선.

–> Parametric knowledge steering이 가장 어려운 문제인데, SPARE가 가장 강력함.


(B) Contextual Knowledge로 Steering (EM_C)

방법Llama3-8BLlama2-7BGemma2-9B
Without control42.641.645.9
ActAdd51.947.446.9
CAD65.654.663.1
ICL73.363.370.1
SPARE77.669.373.7

해석

  • Contextual steering은 원래 LLM이 선호하는 방향.
  • 그럼에도 SPARE가 모든 baseline 초과
  • ICL보다도 더 정확함.
  • 특히 MacNoise에서는 90% 이상 달성.

행동 변경 능력 분석 (Behaviour Change Capability)

논문은 단순 정확도뿐 아니라 **“행동을 실제로 바꿀 수 있는지”**도 평가합니다.

정의

Metric의미
EMC→MContext 답변을 Parametric로 바꾸는 능력
EMM→CParametric 답변을 Context로 바꾸는 능력

결과 해석

  • SPARE는 그래프 상 우상단 위치
  • 두 방향 모두 가장 강한 behaviour switching 능력
  • Contrastive decoding은 Parametric 방향 전환이 약함

–> SAE 기반 feature 분리가 실제로 decision boundary를 이동시킴


4. 개입의 부작용 분석 (Maintaining Behaviour)

좋은 steering은:

  • 바꿔야 할 때는 바꾸고
  • 유지해야 할 때는 유지해야 함

평가 지표:

Metric의미
EMM→M원래 Parametric이던 것을 유지
EMC→C원래 Contextual이던 것을 유지

결과

  • SPARE는 ICL과 거의 동일 수준
  • CAD는 Parametric 유지 성능 급감
  • 다른 representation 방법은 polysemantic editing 때문에 불안정

–> SPARE는 정밀한 editing으로 불필요한 왜곡이 적음.


5. Ablation Study

실험 조건

  1. remove only
  2. add only
  3. input-independent editing

결과

Variant결과
remove only정확도 0 (완전 붕괴)
add onlybaseline보다 나쁨
input-independentcontrol 실패

해석

SPARE 핵심은:

h=h+α(g(z)+g(z+))h’ = h + \alpha(-g(z^-) + g(z^+))

  • 제거 + 추가 모두 필요
  • 입력별 동적 계산 필요
  • SAE decoder를 통한 feature-level 조합이 핵심

6. Layer-wise 분석

중간층에서 가장 효과적

  • Llama3-8B: 12–15층
  • Gemma2-9B: 23–31층

이는 probing 결과에서 knowledge conflict 신호가 가장 강한 층과 일치.

–> functional feature가 mid-layer에 위치한다는 해석.


7. Representation 분석

Conflict signal 변화

  • Parametric로 steer → probing AUROC 감소
  • Context로 steer → AUROC 증가

Residual Stream Skewness

  • Contextual 사용 시 kurtosis ↑
  • Parametric 사용 시 kurtosis ↓

–> 내부 표현 공간이 실제로 다른 방향으로 이동함을 보여줌.


8. 종합 결론

항목결론
정확도기존 방법 대비 +10~15%
Parametric steering최초로 강력하게 성공
Contextual steeringICL보다 우수
안정성minimal side effect
해석 가능성monosemantic SAE feature 기반

핵심 메시지

SPARE는 단순 activation shift가 아니라,

“지식 선택을 담당하는 기능적 latent subspace를 찾아서 조작”

한 방법이며, representation engineering이 contrastive decoding이나 prompting보 더 정밀하고 안정적인 behaviour control을 할 수 있음을 실험적으로 증명한 논문입니다.



Q: 데이터셋에서 context-memory conflict를 인위적으로 구성했다고 하는데 어떻게 한 것인가?

이 논문은 새로운 충돌 데이터를 직접 만들지 않고, 기존 ODQA 데이터셋을 **의도적으로 변형(swap / noise injection)**하여 context-memory conflict를 구성합니다.

핵심은 다음 구조입니다:

(Q, E_M, M, E_C, C)

  • Q: 질문
  • E_M: 모델의 parametric memory와 일치하는 evidence
  • M: parametric answer
  • E_C: memory와 충돌하도록 조작된 evidence
  • C: contextual answer

즉, 같은 질문 Q에 대해 서로 다른 두 답이 가능하도록 구성합니다.


1. NQSwap (Longpre et al., 2021)

기본 아이디어

Natural Questions (NQ)의 QA 데이터를 기반으로 entity를 다른 entity로 교체(swap) 하여 잘못된 문맥을 만듭니다.


구성 방법

(1) 원래 샘플

Q: Where was Albert Einstein born?
E_M: Albert Einstein was born in Ulm, Germany.
M: Ulm

이 상태에서는 parametric knowledge와 context가 일치.


(2) Entity Swap

동일 유형의 다른 entity를 선택하여 문맥을 변형:

E_C: Albert Einstein was born in Vienna, Austria.
C: Vienna

여기서:

  • 모델의 parametric memory → Ulm
  • 주어진 context → Vienna

–> 충돌 발생


특징

  • 질문은 그대로 유지
  • evidence 문장만 교체
  • answer도 교체된 entity 기준으로 설정

따라서 모델은 두 가지 선택지 사이에서 결정해야 함:

선택결과
Memory 사용Ulm
Context 사용Vienna

2. MacNoise (Hong et al., 2024)

MacNoise는 retrieval-augmented QA 환경에서의 충돌을 모사합니다.

기본 아이디어

  • 실제 retrieval 시스템에서 발생할 수 있는 counterfactual noise 삽입
  • 일부 문장을 의도적으로 틀린 정보로 교체

구성 방식

(1) 정상 retrieval context

Q: Who wrote Pride and Prejudice?
E_M: Jane Austen wrote Pride and Prejudice.
M: Jane Austen

(2) Noise injection

다른 author 정보를 삽입:

E_C: Charles Dickens wrote Pride and Prejudice.
C: Charles Dickens

차이점

NQSwapMacNoise
Entity-level swapRetrieval noise injection
문장 자체 교체일부 evidence corruption
완전 counterfactualretrieval-style misinfo

3. Conflict 구성의 공통 구조

두 데이터셋 모두 다음 원리를 따릅니다:

Step 1: 질문 Q는 유지

Step 2: Memory-consistent evidence E_M확보

Step 3: Counterfactual evidence E_C생성

Step 4: 두 answer (M, C) 모두 정의

즉, 모델은 항상:

(Q, E_C)

를 입력으로 받습니다.

그리고 평가 시:

  • 모델이 M을 생성하면 → parametric knowledge 사용
  • 모델이 C를 생성하면 → contextual knowledge 사용

4. 왜 이런 구성이 중요한가?

이 설정의 장점은:

  1. 모델이 이미 학습한 parametric knowledge 존재
  2. context가 명시적으로 그 지식을 뒤집음
  3. binary decision 구조 → steering 평가에 적합

5. 논문에서 이 구조를 어떻게 활용하는가?

논문 Section 3에서 다음과 같이 구성합니다:

  • DEM={(Q,EM)}D_{EM} = \{(Q, E_M)\}
  • DEC={(Q,EC)}D_{EC} = \{(Q, E_C)\}

그리고 probing을 통해:

  • residual stream이 conflict를 인식하는지 확인
  • mid-layer에서 conflict signal 최대

6. 실험적으로 확인된 현상

이 데이터셋에서 LLM은:

  • 대체로 contextual knowledge 선호 (약 70%)
  • parametric 선택은 10–30%

따라서 SPARE는 어려운 방향(Parametric steering)을 강조.


7. 요약 정리

항목설명
충돌 생성 방식Entity swap 또는 noise injection
질문유지
evidencememory-consistent vs counterfactual 생성
평가 방식출력 answer가 M인지 C인지
목적LLM의 knowledge selection behaviour 분석

핵심 요지

이 논문은 새로운 데이터셋을 만들기보다는,

기존 QA 데이터에서 counterfactual evidence를 삽입하여

context-memory conflict를 인위적으로 만든 후

LLM이 어떤 지식을 선택하는지 분석하고 steering합니다.



게시됨

카테고리

, , ,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다