Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect (EMNLP 2025)

이 논문 “Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect” (EMNLP 2025) 은 LLM 내부 표현에서 시제(tense)상(aspect) 이 어떻게 구조적으로 표현되고, 이를 multi-token 생성 과정에서 조절(steering) 할 수 있는지를 체계적으로 분석한 연구입니다 .

아래는 핵심 내용을 정리한 해설입니다.


🧩 연구 배경

기존의 LLM 해석 연구는 주로

  • 단일 토큰 수준(binary contrast) (예: 단수-복수, 긍정-부정)
  • 행동적 평가(behavioral evaluation) — 예: perplexity, grammaticality benchmark

에 초점을 맞췄습니다.

하지만 실제 문법적 현상은 다차원적이고 조합적(multidimensional and compositional) 입니다.

저자들은 시제(현재·과거·미래)상(단순·진행·완료·완료진행) 이라는 복수의 이산적·위계적 문법 속성을 선택하여,

이들이 LLM의 은닉 공간(residual space) 에 어떻게 선형적으로 부호화되는지,

그리고 해당 방향을 조작하여 생성 문법을 제어할 수 있는지를 탐구했습니다 .


⚙️ 방법론 요약

1. LDA 기반 문법 개념 탐색 (Representation Localization)

  • Linear Discriminant Analysis (LDA) 를 변형하여 각 문법 범주(예: PAST, PRESENT, FUTURE)를 서로 독립적인 방향 벡터 ℓ̄₍ₜ₎ 로 계산함.
  • 각 방향은 “그 클래스의 평균 활성화 차이”를 나타내며, 시제/상 간의 구조적 관계를 표현하는 feature subspace 형성.
  • 실험 모델: Llama-3.1-8B-InstructQwen-2.5-7B-Instruct.

결과: tense와 aspect는 서로 거의 직교(orthogonal) (cos ≈ 0.02)하며, 각 범주는 3D latent space에서 명확한 클러스터로 분리됨 .


2. Causal Steering in Multi-Token Generation

(1) 개념

각 토큰의 residual activation hilh^l_i 에 대해 목표 개념 방향 T\bar{\ell}_T 을 추가 또는 조정함으로써

생성되는 문장의 시제나 상을 제어.

(2) 세 가지 steering 방식

방법수식설명
TA (Target-Addition)h=h+αTh’ = h + α \bar{\ell}_T가장 단순한 방법
TA + SS (Source-Subtraction)h=h+α(TS)h’ = h + α(\bar{\ell}_T – \bar{\ell}_S)기존 시제/상을 억제
TA + Proj-SSh=h+αT(h·S)Sh’ = h + α\bar{\ell}_T – (h·\bar{\ell}_S)\bar{\ell}_Ssource 방향 성분만 제거

(3) 실험 과제

  1. Random Sentence — 자유 생성
  2. Repetition Task — 주어진 문장을 반복
  3. Temporal Translation — 문장을 다른 시제/상으로 “변환”

📊 주요 결과

(1) Steering 효과

  • 시제(tense) > 상(aspect) : 시제가 훨씬 쉽게 제어됨.
  • 무제약 생성보다 few-shot (복잡한) 태스크에서 제어가 어려움.
  • Llama-8B < Qwen-7B 의 α 값: 모델별 activation norm 차이 때문.

(2) Selectivity 분석

  • Source-subtraction(SS)은 선택성을 오히려 감소시킴. Projection subtraction은 이를 부분적으로 완화함 .
  • 이는 시제와 상 벡터가 실제로는 완전히 독립적이지 않음을 시사.

(3) Layer 및 Strength 영향

  • 깊은 레이어일수록 activation norm이 커져 더 큰 α 필요.
  • 적절한 α 조정은 degenerate 출력(반복·비문 등)을 줄이는 핵심.

🧠 정성적 분석 (Qualitative Study)

위치결과
Prompt Steering효과 제한적 (특히 변환 task 에서는 실패)
Generation-time Steering가장 안정적·효과적
Verb 이전 토큰에서 개입가장 성공적, 문법적으로 일관된 결과
Steering 지속시간너무 길면 topic shift 및 degeneration 유발

예: “He is crying.” → (PAST steering) “He was crying.”

하지만 랜덤 생성에서는 시제는 변하지만 주제 전환 발생 .


🧩 결론 및 의의

  1. LLM은 시제와 상을 구조적으로 구분하여 인코딩 하며, 서로 거의 독립된 하위공간으로 표현함.
  2. 해당 방향을 조작해 문법적 속성(시제·상)을 인과적으로 제어 가능.
  3. 그러나 multi-token steering은 부작용(topic shift, degeneration) 에 민감하며, 강도·위치·지속시간 의 세 매개변수를 세밀히 조정해야 함.
  4. 자동화된 최적 steering 탐색 및 side-effect 모니터링 이 향후 과제.

🔍 연구 기여 요약

구분기여
Representation AnalysisLDA로 tense/aspect의 독립 방향 탐색
Causal Steeringmulti-token 단위 문법 제어 검증
Empirical Findingssteering 강도·위치 · 모델 별 차이 정량 분석
Linguistic Insight시제·상의 위계적 표상 및 인간 언어 유사 조직성 발견

요약하면,

이 논문은 **“시제와 상을 제어 가능한 인코딩으로서 조작해 LLM 문장 생성을 제어할 수 있다”**는 것을 보여주며, multi-token steering 의 효과와 한계를 정밀하게 규명한 대표적 연구입니다 .

아래는 논문 방법론(Methodology) 을 핵심 아이디어 → 수식 → 실험 설계 흐름으로 정리·해부한 설명입니다.


1️⃣ 문제 설정: 다차원 문법 개념의 표현 + 인과적 제어

  • 대상 개념:
    • 시제(Tense) = {past, present, future}
    • 상(Aspect) = {simple, progressive, perfect, perfect progressive}
  • 특징:
    • 이산적(categorical)
    • 조합 가능(tense × aspect)
    • multi-token에 걸쳐 실현됨 (“will have been driving”)

➡️ 목표는

(1) 이 개념들이 LLM 잔차 스트림(residual stream) 에서 어떻게 표현되는지 찾고

(2) 그 방향을 generation 중에 개입해 문법을 바꾸는 것.


2️⃣ Step A — 문법 개념 

위치 찾기(Localization)

A.1 선형 프로빙 (Linear Probing)

각 레이어 l에서 문장 전체의 hidden state를 집계한 뒤,

시제 / 상 / 시제-상 조합을 예측하는 multinomial logistic regression을 학습.

🔹 토큰 집계 방식

논문에서 가장 성능이 좋았던 방식:

hagg(l)=1Ni=1Nhi(l)h^{(l)}_{\text{agg}} = \frac{1}{\sqrt{N}} \sum_{i=1}^{N} h^{(l)}_i

  • N: 문장 길이
  • 이유: 길이 변화에 대해 안정적이며 다른 pooling보다 F1이 높음

➡️ 결과

  • embedding layer 근처부터 시제/상 정보가 이미 강하게 존재
  • depth가 깊어질수록 tense–aspect 조합 분리 성능 증가

3️⃣ Step B — 문법 개념을 벡터 방향으로 추출 (LDA 기반)

핵심은 Park et al. (2024) 의 categorical LDA 프레임워크를 확장한 것.

B.1 범주 개념을 “이진 특징들의 집합”으로 분해

예시 (TENSE):

  • IS_PAST vs NOT_PAST
  • IS_PRESENT vs NOT_PRESENT
  • IS_FUTURE vs NOT_FUTURE

👉 각 범주를 서로 독립적으로 벡터로 추출 가능


B.2 LDA 변형을 이용한 방향 계산

각 이진 특징 w에 대해:

(1) 정규화된 방향 벡터

h~w=Cov(hw)𝔼[hw]Cov(hw)𝔼[hw]2\tilde{h}_w = \frac{\mathrm{Cov}(h_w)^{\dagger}\,\mathbb{E}[h_w]} {\|\mathrm{Cov}(h_w)^{\dagger}\,\mathbb{E}[h_w]\|_2}

  • 클래스 평균과 공분산의 pseudo-inverse 사용
  • between-class covariance 제거 → 범주 간 구조를 강제하지 않음

(2) 스케일 반영된 최종 개념 벡터

w=(h~w𝔼[hw])h~w\bar{\ell}_w = (\tilde{h}_w^\top \mathbb{E}[h_w])\,\tilde{h}_w

➡️ 결과:

  • 시제 3개 방향, 상 4개 방향이 residual space에 형성
  • 서로 거의 직교(orthogonal)

B.3 Binary Contrast (잠재 차원 만들기)

범주 내부 비교를 위해 차이 벡터 사용:

TENSE=FUTUREPAST\bar{\ell}_{\text{TENSE}} = \bar{\ell}_{\text{FUTURE}} – \bar{\ell}_{\text{PAST}}

ASPECT=PROGPERF\bar{\ell}_{\text{ASPECT}} = \bar{\ell}_{\text{PROG}} – \bar{\ell}_{\text{PERF}}

➡️ 이를 통해

  • tense 축
  • aspect 축 을 형성 → 2D/3D 투영 시 명확한 군집

4️⃣ Step C — Multi-Token Steering(인과 개입)

이제 찾은 개념 벡터를 generation 중에 직접 주입.

C.1 개입 위치

  • 레이어 l
  • 각 generation step의 마지막 토큰 residual: hi=1(l)h^{(l)}_{i=-1}

C.2 세 가지 Steering 전략

(1) TA (Target Addition) — 기본

h=h+αTh’ = h + \alpha \bar{\ell}_T

  • 가장 안정적
  • 논문에서 전반적으로 최고 성능

(2) TA + SS (Source Subtraction)

h=h+αTαSh’ = h + \alpha \bar{\ell}_T – \alpha \bar{\ell}_S

  • 기존 시제/상 제거 목적
  • ❌ 실제로는 selectivity 감소

(3) TA + Projection-SS (부분 제거)

h=h+αT(hS)Sh’ = h + \alpha \bar{\ell}_T – (h \cdot \bar{\ell}_S)\bar{\ell}_S

  • source 방향 성분만 제거
  • SS의 부작용 완화

5️⃣ Step D — 평가 프로토콜 (자동 + 구조적)

D.1 평가 태스크

  1. Random sentence generation
  2. Repetition (few-shot copy)
  3. Temporal translation (tense/aspect 변환)

D.2 평가 방식 (중요)

  • 생성 후 다시 forward
  • 개입 없이 probe 적용
  • 사람이 직접 라벨링 ❌

정의된 지표

  • Steering Success
  • Degenerate Rate (반복, 비문, verb 누락)
  • Efficacy = 성공 ∧ 비퇴행
  • Selectivity = 다른 문법 속성 유지 여부
  • Perplexity 변화
  • BERTScore (topic shift 분석)

6️⃣ Step E — 위치·강도·지속시간 분석 (Case Study)

정량 실험 + 정성 분석을 통해:

핵심 발견

  • Generation-time steering > Prompt steering
  • 동사 직전 토큰에서 개입이 최적
  • ❌ 너무 길게 개입 → topic shift / degeneration
  • 모델별 activation norm 차이 → α 스케일 조정 필수

🔑 방법론 핵심 요약 (한 줄씩)

  • LDA 기반 categorical direction 추출 → 다차원 문법 개념 처리 가능
  • Residual stream 개입 → multi-token 문법 제어 가능
  • TA만으로 충분 → source subtraction 불필요
  • 위치·강도·지속시간이 steering 성패의 결정 변수

아래는 논문의 실험 결과(Experimental Results)

① 정량 결과 → ② 비교 분석 → ③ 정성 분석 → ④ 핵심 해석 구조로 정리한 설명입니다.

(steering 연구 관점에서 왜 이런 결과가 나왔는지에 초점을 둡니다)


1️⃣ 표현 분석 결과 (Probing & Geometry)

1.1 Probing 성능 (Table 1)

TargetLlama-3-8BQwen-2.5-7B
Tense1.001.00
Aspect0.980.98
Tense–Aspect0.930.92

해석

  • 시제/상 정보는 embedding layer 근처부터 매우 강하게 존재
  • fine-grained한 tense–aspect 조합은 deeper layer에서 더 잘 분리됨 → 문법 정보가 early + compositional 하게 인코딩됨

1.2 LDA 투영 결과 (Figure 1–3)

논문 Figure 1

(1) 시제 (past / present / future)

  • 3D 공간에서 3개 클러스터가 명확히 분리
  • 설명 분산 ≈ 72%
논문 Figure 2

(2) 상 (simple / progressive / perfect / perfect-progressive)

  • 4개 군집 분리
  • 설명 분산 ≈ 70%
논문 Figure 3

(3) 시제 vs 상 관계

  • tense 축과 aspect 축의 cosine similarity ≈ 0.02
  • 거의 완전한 직교

핵심 결론

LLM 내부에서

  • 시제 내부 값들은 structured subspace
  • 시제와 상은 서로 독립적인 문법 차원 으로 표현됨

2️⃣ Steering 정량 결과 (Main Results)

2.1 Steering Efficacy (Figure 4)

논문 Figure 4

전체 경향

  • Tense ≫ Aspect
  • Random sentence ≫ Few-shot tasks

대표 수치

  • Random Sentence:
    • Tense: 94–96%
    • Aspect: 51–66%
  • Few-shot (Repetition / Translation):
    • Tense 최고 ≈ 73%
    • Aspect 최저 ≈ 18%

해석

  • tense는 비교적 국소적 + 선형적
  • aspect는 분산적·구성적(multi-token) → steering 어려움

2.2 Steering 방식 비교 (Figure 4 & 5)

논문 Figure 5

(1) TA vs TA+SS vs TA+Proj-SS

방법EfficacySelectivity
TA✅ 최고✅ 안정
TA + SS❌ 감소❌ 감소
TA + Proj-SS△ 회복△ 개선

중요한 발견

  • source vector를 그대로 빼는 것은 오히려 해로움
  • 이유:
    • tense/aspect 방향이 완전히 독립적이지 않음
    • residual stream에 불필요한 disturbance 유발
  • projection subtraction은 부분 완화 효과

➡️ 실전 결론

categorical steering에서는 Target Addition만으로 충분


2.3 α (Steering Strength) 분석

모델최적 α 범위
Llama-8B5–25
Qwen-7B100–250

원인 분석

  • Qwen의 activation norm이 훨씬 큼
  • 깊은 레이어일수록 norm ↑ → α도 ↑ 필요

➡️ α ≈ activation scale compensation


2.4 Perplexity 변화

  • 대부분 시나리오에서 perplexity 증가 미미
  • → steering은 fluency를 크게 해치지 않음

(단, 실패 케이스는 degeneration 동반)


3️⃣ 정성 결과 (Qualitative Analysis)

3.1 Topic Shift 분석 (Table 2)

TaskBERTScore (↑ 유지)
Random Sentence0.56
Repetition0.69
Temporal Translation0.77

해석

  • 자유 생성일수록 topic drift 큼
  • few-shot은 context constraint 덕분에 안정

3.2 생성 예시 (Table 3, 4)

성공 케이스

  • 시제는 정확히 바뀜
  • 문법적 일관성 유지

실패 케이스

  • 주제 전환
  • 문장 의미 재작성
  • 반복·중단 (degeneration)

중요

probe 기반 정량 지표만으로는 semantic side-effect를 포착 못함


4️⃣ Steering 위치·지속시간 분석 (Case Study)

핵심 발견 요약

요소결과
Generation-time vs PromptGeneration-time 압승
Verb 이전 개입최고 성능
Verb 이후 지속 개입topic shift ↑
Prompt 전체 개입repetition만 부분 성공

직관적 해석

  • 문법 결정은 verb 생성 직전에 집중됨
  • 너무 이르면 덮어쓰기 실패
  • 너무 늦으면 의미까지 교란

5️⃣ 실험 결과의 핵심 메시지 (정리)

✔ 가능한 것

  • 시제·상은 실제로 제어 가능한 개념
  • multi-token 문법도 steering 가능
  • tense/aspect는 독립적 문법 축

⚠ 한계

  • aspect는 여전히 어려움
  • side effect (topic shift) 존재
  • steering은 하이퍼파라미터 민감

🔑 실전 교훈

  1. TA only
  2. Generation-time
  3. Verb 직전
  4. α는 activation norm 기준으로

아래는 Park et al. (2024) 에서 제안된 categorical LDA (Categorical Linear Discriminant Analysis) 프레임워크 를 핵심 개념부터 수식까지 정리한 설명입니다.

(LLM interpretability / steering 연구에서 왜 이게 중요한지 를 중점으로 설명합니다.)


✅ 1. 왜 Categorical LDA가 필요한가?

전통적인 LDA (Linear Discriminant Analysis)

  • 범주형(class) 구분
  • 입력이 연속적
  • 각 클래스가 정규성(gaussian) + 공분산 동일성(shared covariance) 가정

을 전제로 합니다.

하지만 LLM의 residual stream hidden activation

  • 낮은 레이어는 gaussian에 가깝지만
  • 깊은 레이어는 비정규적 + 비구형 분포 가 됨 → traditional LDA는 잘 동작하지 않음.

그리고 우리가 원하는 것은

➡️ 각 범주(categorical linguistic feature) 에 대한 “선형 방향(direction)” 을 찾는 것.

예) tense = {past, present, future}

→ 이들 범주 각각이 latent space에서 분리되는 방향

기존 LDA는 이 값들을 선형 축 하나로 모으면 범주 간 cluster structure 전체를 반영하지만, LLM steering/interpretation 관점에서는

👉 binary contrast(2-class) 마진 방향을 개별로 분류 하는 것이 더 의미있습니다.


✅ 2. 핵심 아이디어: 

categorical LDA

categorical LDA는 다음을 만족합니다:

✔ 각 범주 w 에 대해 독립적인 direction vector 를 구한다

✔ 여러 클래스가 있어도 각각의 binary contrast 로 분해 가능

✔ high-dimensional, non-gaussian activation에 상대적으로 robust

즉,

“클래스 w vs not w” 를 분리하는 방향 벡터를 residual space에서 추출

하는 것이 목표입니다.


✅ 3. 기본 수식/정의

대표적으로 다음 3개의 개념이 등장합니다.


🔹 A. Binary Feature Indicator

각 범주에 대해:

  • w = +1 if sample belongs to class w
  • w = -1 otherwise

예: IS_PAST

→ tense가 past면 +1, 아니면 -1

이렇게 이진 target을 만들면

→ binary contrast 방향을 찾을 수 있습니다.


🔹 B. Between-class Expectation 𝔼[hw]\mathbb{E}[h_w]

예를 들어:

𝔼[hw]=1Ni=1Nwihi\mathbb{E}[h_w] = \frac{1}{N} \sum_{i=1}^N w_i\, h_i

이는 class w의 평균 activation minus not-w의 평균 activation 을 나타냅니다.


🔹 C. Covariance + Pseudoinverse

이때 공분산 행렬 공식을 약간 변형합니다:

Cov(hw)=𝔼[(hw𝔼[hw])(hw𝔼[hw])]\mathrm{Cov}(h_w) = \mathbb{E}[(h_w-\mathbb{E}[h_w])(h_w-\mathbb{E}[h_w])^\top]

그런데 activation은 high-dimensional + rank-deficient이므로

→ pseudoinverse Cov(hw)\mathrm{Cov}(h_w)^\dagger 사용


✅ 4. Direction Vector 계산

categorical LDA의 핵심 수식은 다음 두 단계입니다.


📌 Step 1: 

Normalized direction

h~w=Cov(hw)𝔼[hw]Cov(hw)𝔼[hw]2\tilde{h}_w = \frac{\mathrm{Cov}(h_w)^{\dagger}\,\mathbb{E}[h_w]} {\|\mathrm{Cov}(h_w)^{\dagger}\,\mathbb{E}[h_w]\|_2}

설명

𝔼[hw]\mathbb{E}[h_w] : class mean difference

Cov𝔼[hw]\mathrm{Cov}^\dagger\,\mathbb{E}[h_w] : covariance 구조에 맞춰 방향 보정

✔ 분모 정규화 : 순수한 방향만 남김

즉,

covariance 구조가 크거나 작은 축을 가중치로 설정

하는 효과.


📌 Step 2: 

Scaled categorical direction

w=(h~w𝔼[hw])h~w\bar{\ell}_w = (\tilde{h}_w^\top \mathbb{E}[h_w])\,\tilde{h}_w

여기에 스케일을 붙이는 이유는:

✔ magnitude 정보를 보존 → downstream steering에서 효과가 큼

✔ 방향 + strength를 모두 반영


✅ 5. 왜 이게 좋은가? (직관적 설명)

특징의미
𝔼[hw]\mathbb{E}[h_w]class w activation의 주 방향
Cov\mathrm{Cov}^\dagger분포 흩어짐 + 축 약함 보정
normalized + scaleddirection + magnitude 유지
independent w vectorsmulti-category separability

즉,

class별로 orthogonal에 가까운 heading vector를 찾고

residual stream에서 각 개념의 선형적 표현 구성 가능

합니다.

실제로 실험에서는

  • tense vectors끼리 orth ≈ 0.02
  • aspect vectors끼리도 분리됨 → 활성화 공간에서 구조화된 representation 이 존재합니다.

✅ 6. LDA vs 기존 Probe/Regression

방법output장점
linear probescalar score범주 예측 정확
PCA최대 분산의미 없음
LDA (traditional)multi-class separationgaussian 가정
categorical LDAbinary contrast per categoryscaling + covariance 보정

가장 큰 차이는:

👉 traditional LDA는 class 간 공통 subspace 를 찾지만

👉 categorical LDA는 각 category별 direction 을 뽑습니다.

이는 steering에서 방향 주입 → 개념 조작 으로 직결됩니다.


✅ 7. Practical Recipe

1️⃣ sample sentences with labels

2️⃣ compute hih_i per token

3️⃣ aggregate to sentence-level vectors

→ mean / sum-pool

4️⃣ compute 𝔼[hw]\mathbb{E}[h_w] for each w

5️⃣ compute Cov(hw)\mathrm{Cov}(h_w)^\dagger

6️⃣ extract h~w\tilde{h}_w

7️⃣ scale → w\bar{\ell}_w

이후 steering에서:

→ h := h + α w\bar{\ell}_w

처럼 additive intervention 가능


🔁 요약

categorical LDA는

✅ 각 문법 범주의 steering 방향을 벡터로 분해

✅ covariance 구조까지 반영

✅ high-dimensional residual space에서 robust

한 방법입니다.


이 논문의 결과는 사실상 최근 activation steering 계열 방법들(CAA / SADI / FGAA / SAE)하나의 공통 좌표계 위에 올려서 비교·재해석할 수 있는 교과서적인 사례입니다.

아래에서는 각 방법의 핵심 가정 → 이 논문의 실험 결과가 주는 해석 → 시사점 순서로 정리하겠습니다.


0️⃣ 공통 전제: 이 논문이 제공한 “기준 좌표계”

이 논문은 먼저 다음을 경험적으로 확정합니다.

  1. Tense / Aspect는 residual space의 선형 방향으로 존재
  2. 두 개념은 거의 직교 (cos ≈ 0.02)
  3. 각 category 내부(past/present/future)는 structured subspace 형성
  4. 이 방향은 causal (steering으로 실제 생성 변화)

➡️ 즉, “잘 정의된, 사람이 해석 가능한 개념 subspace” 가 실제로 존재함을 보여줌

이제 이를 기준으로 각 방법을 재해석합니다.


1️⃣ CAA (Contrastive Activation Addition) 관점

CAA의 핵심 가정

  • 두 분포 A vs B (예: harmful vs harmless)
  • 차이 벡터 v=𝔼[h|A]𝔼[h|B]v = \mathbb{E}[h|A] – \mathbb{E}[h|B]
  • 이 벡터를 더하면 개념이 바뀐다

🔁 이 논문 결과의 CAA적 해석

(1) Categorical LDA = CAA의 정제된 일반화

  • 이 논문의 wℓ̄_w 는 본질적으로 CAA direction+covariance-aware whitening\text{CAA direction} + \text{covariance-aware whitening}
  • 단순 mean-diff보다:
    • noise 축 제거
    • category 간 leakage 감소

➡️ “CAA를 category-wise로, 더 정교하게 만든 형태”


(2) 왜 TA만으로 충분했는가?

  • CAA에서도 종종 source subtraction 불필요
  • 이 논문에서도:
    • TA+SS → 성능 하락
    • TA → 최고 성능

이유 (CAA 관점):

  • target direction이 이미 decision boundary를 넘어감
  • source를 빼면 불필요한 residual disturbance

➡️ CAA의 경험적 관찰을 문법 개념에서도 재현


✅ CAA 관점 핵심 메시지

Tense / Aspect는 “CAA가 가장 이상적으로 작동하는 개념”에 가깝다 (선형·직교·명확)


2️⃣ SADI (Semantics-Adaptive Dynamic Intervention) 관점

SADI의 핵심 가정

  • 고정 steering vector는 불충분
  • 토큰 / 위치 / 의미 상태에 따라 개입을 조절해야 함
  • “언제, 얼마나”가 중요

🔁 이 논문 결과의 SADI적 해석

(1) Generation-time > Prompt steering

  • SADI가 주장한 바 그대로:
    • prompt-level 개입은 의미 결정 전에 너무 이르다
    • generation-time이 semantic control에 핵심

이 논문:

  • prompt steering → 거의 실패
  • generation-time → 성공

➡️ SADI의 정당성 강화


(2) “Verb 직전 개입” 결과 = token-adaptive gating

  • 논문:
    • verb 직전 토큰에서만 개입할 때 최적
    • 너무 길면 topic shift

이는 SADI에서 말하는:

  • semantic relevance peak
  • dynamic gating window

과 정확히 대응


(3) Aspect가 어려운 이유 (SADI 관점)

  • aspect는:
    • 여러 토큰에 분산
    • auxiliary verb + main verb 조합
  • single-shot steering 불충분

➡️ SADI식으로는:

  • aspect steering은
    • multi-step
    • token-aware
    • adaptive α 필요

✅ SADI 관점 핵심 메시지

이 논문은 “왜 SADI가 필요한지”를 문법 개념으로 실증한 사례


3️⃣ FGAA (Feature-Guided Activation Addition) 관점

FGAA의 핵심 가정

  • steering은 feature-level 로 해야 안정적
  • coarse vector는 side effect 유발
  • feature filtering + effect approximator 필요

🔁 이 논문 결과의 FGAA적 해석

(1) LDA direction = “manual feature selection”

  • categorical LDA는 사실상:
    • 문법적으로 정제된 feature 집합
    • noise feature 제거된 상태

➡️ FGAA에서 말하는:

  • “good feature set”을
  • 사람이 문법 지식으로 설계한 셈

(2) Projection-SS가 SS보다 낫다

  • FGAA 관점:
    • full subtraction = 과도한 feature 제거
    • projection = 필요한 성분만 제거

논문 결과:

  • TA+SS ❌
  • TA+Proj-SS ⭕ (부분 회복)

➡️ FGAA의 “feature-local intervention” 주장과 일치


(3) Aspect 실패 = feature entanglement

  • aspect는:
    • auxiliary verb
    • tense overlap
    • semantic duration
  • → feature들이 얽혀 있음

FGAA 관점:

  • disentangled feature 없이는
    • selectivity ↓
    • degeneration ↑

✅ FGAA 관점 핵심 메시지

이 논문은

좋은 feature를 고르면 FGAA 없이도 된다”는 예시이자,

나쁜 feature(aspect)는 FGAA가 필요하다”는 반례


4️⃣ SAE (Sparse Autoencoder) 관점

SAE의 핵심 가정

  • LLM 내부에는 monosemantic feature가 존재
  • 이를 SAE로 분해 가능
  • steering은 feature on/off 로 해야 안정적

🔁 이 논문 결과의 SAE적 해석

(1) Tense = SAE-friendly feature

  • 특성:
    • 선형
    • 직교
    • 국소적
  • → SAE로 깨끗한 feature 나올 가능성 높음

실제로:

  • Brinkmann et al. (2025)에서도 tense SAE feature 존재

(2) Aspect = SAE가 필요한 영역

  • aspect는:
    • multi-token
    • multi-head
    • auxiliary verb circuit
  • → 하나의 LDA 방향으로는 부족

SAE 관점:

  • aspect는
    • 여러 sparse feature의 조합
    • feature-wise gating 필요

(3) Topic shift = SAE 부재의 결과

  • LDA vector는 coarse
  • SAE feature는 content-preserving control에 유리

➡️ 이 논문의 topic drift는

“SAE-level disentanglement가 없기 때문”

으로 해석 가능


✅ SAE 관점 핵심 메시지

이 논문은

어떤 개념은 SAE 없이도 충분

어떤 개념은 SAE 없이는 불가능

를 명확히 구분해 줌


5️⃣ 한 장으로 요약 (통합 비교)

관점이 논문 결과의 의미
CAAcategorical LDA = 정제된 CAA
SADI위치·타이밍 중요성 실증
FGAAfeature quality가 전부
SAEaspect는 SAE 필요 영역

6️⃣ 메타 결론 (중요)

이 논문은

“steering 방법의 성능 차이는

알고리즘 차이 이전에

‘개념이 얼마나 선형·국소·분리되어 있느냐’에 달려 있다”

는 것을 보여줍니다.

즉,

  • tense → CAA/LDA로 충분
  • aspect → SADI + FGAA + SAE 필요


게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다