* Steering LLM Reasoning Through Bias-Only Adaptation (ArXiv 2025)


1. 핵심 아이디어 (TL;DR)

이 논문의 핵심은 매우 명확합니다:

“LLM의 reasoning 능력은 매우 적은 파라미터 (layer별 vector)만 학습해도 충분히 끌어낼 수 있다.”

  • 전체 파라미터를 업데이트할 필요 없음
  • 각 layer마다 단 하나의 vector만 학습
  • 전체 파라미터의 0.0016%만 사용
  • 그런데도 full RL fine-tuning과 거의 동일한 성능

즉,

reasoning은 “새로 학습되는 능력”이 아니라

이미 존재하는 능력을 특정 방향으로 “증폭(amplify)”하는 것이라는 강한 근거 제공


2. 방법론 (Methodology)

2.1 Steering Vector 정의

각 transformer layer ℓ에 대해:

  • hidden state: h,tdh_{\ell,t} \in \mathbb{R}^d
  • steering vector: sds_\ell \in \mathbb{R}^d

다음과 같이 단순히 더함:

h,th,t+sh_{\ell,t} \leftarrow h_{\ell,t} + s_\ell

✔ 특징:

  • 모든 token에 동일하게 적용 (position-independent)
  • 모든 기존 weight는 freeze
  • 학습되는 것은 오직 s1,...,sLs_1, …, s_L

총 파라미터 수:

L×d(매우 작음)L \times d \quad (\text{매우 작음})


2.2 구현 관점

논문 코드 핵심:

class SteeringVector(nn.Module):
    def __init__(self, hidden_size):
        self.steering_vector = nn.Parameter(...)
    
    def forward(self, x):
        return x + self.steering_vector

→ Transformer layer output 뒤에 bias처럼 더하는 구조

사실상:

  • BitFit의 extreme 버전
  • Activation engineering + parameter learning

2.3 학습 방식 (RL)

DeepSeek-R1 스타일 RL:

Step 1: 샘플링

y1,...,yNπθ(x)y_1, …, y_N \sim \pi_\theta(x)

Step 2: reward

  • 정답이 \boxed{} 안에 있으면 1, 아니면 0

Step 3: Advantage 계산

b=1Nri,ai=ribb = \frac{1}{N} \sum r_i,\quad a_i = r_i – b

Step 4: Policy Gradient

θJ=𝔼[a(x,y)θlogπθ(y|x)]\nabla_\theta J = \mathbb{E}[a(x,y)\nabla_\theta \log \pi_\theta(y|x)]

중요한 점:

  • θ는 steering vector만 포함
  • base model은 완전히 frozen

3. 결과 (핵심 실험 결과)

3.1 성능 비교

결론:

Steering ≈ Full Fine-tuning

예시 (Qwen2.5-7B):

모델Avg
Base24.2
Steering36.4
Full-tune37.1

–> 거의 동일


3.2 비용 절감

항목Full-TuneSteering
파라미터14.7B245K
Optimizer memory13.8GB240KB
Step time9.94s0.11s

–> 압도적 효율성


4. 해석 (Interpretability)

4.1 Logit Lens 분석

각 token v에 대해:

c(v)=s,uvsuvc_\ell(v) = \frac{\langle s_\ell, u_v \rangle}{\|s_\ell\|\|u_v\|}

  • uvu_v: token embedding 방향
  • 의미:
    • 값 ↑ → 해당 token 방향으로 bias
    • 값 ↓ → suppression

4.2 발견된 패턴 (중요)

Layer별 역할:

(1) 초기 layer

  • programming tokens
  • named entities

–> 구조적 reasoning 준비


(2) 중간 layer

  • correctness, validation

–> reasoning step 검증


(3) 마지막 layer

  • because, therefore, however

–> reasoning 연결


매우 중요한 해석:

reasoning은 특정 layer별로 기능적으로 분리된 circuit로 존재


5. 중요한 해석 (논문의 Implication)

5.1 핵심 주장

Steering vector는 새로운 능력을 만들지 않는다

→ 기존 latent capability를 증폭한다


5.2 증거

  • base model이 이미 능력이 있을 때: → steering ≈ full-tune
  • 능력이 부족할 때: → steering < full-tune

즉:

Performancef(existing capability)\text{Performance} \approx f(\text{existing capability})


5.3 LoRA와 비교

방법특징
Steeringglobal vector
LoRAtoken-dependent

결과:

  • LoRA가 gap을 항상 메움
  • 이유: → 더 fine-grained control 가능

6. 한계

논문에서 명시:

  1. token-independent vector → 표현력 제한
  2. logit lens 한계 → downstream effect 반영 못함
  3. reasoning task 편중 → generalization 불명확

7. 한 줄 요약

Reasoning 능력은 학습되는 것이 아니라, 이미 존재하는 circuit을 steering으로 증폭하는 것이다.


논문의 **방법론(Methodology)**을 수식 중심으로 정리합니다.


1. 전체 구조 개요

이 논문의 방법론은 다음 3가지 요소로 구성됩니다:

  1. Layer-wise steering vector 삽입
  2. Base model freeze
  3. RL 기반 학습 (RLOO)

2. Steering Vector 설계

2.1 기본 정의

Transformer의 각 layer ℓ에서:

  • hidden state: h,tdh_{\ell,t} \in \mathbb{R}^d
  • steering vector: sds_\ell \in \mathbb{R}^d

2.2 Forward 과정

각 token t에 대해:

h,th,t+sh_{\ell,t} \leftarrow h_{\ell,t} + s_\ell

✔ 특징:

  • token-independent (모든 token에 동일)
  • layer-specific
  • residual stream에 직접 추가

즉:

global bias를 layer마다 주입하는 구조


2.3 전체 모델 동작

Transformer forward를 쓰면:

h+1=TransformerLayer(h)+sh_{\ell+1} = \text{TransformerLayer}_\ell(h_\ell) + s_\ell

→ 모든 layer에서 additive perturbation 발생


3. 학습 대상 파라미터

전체 모델 파라미터 θ를 분리하면:

θ=θbase{s1,...,sL}\theta = \theta_{\text{base}} \cup \{s_1, …, s_L\}

  • θbase\theta_{\text{base}}: freeze
  • ss_\ell: trainable

파라미터 수

#params = L×dL \times d

예:

  • L=32, d=4096 → 약 131K

논문:

전체의 약 0.0016% 


4. 학습 알고리즘 (RL)

4.1 샘플링

입력 x에 대해:

y1,...,yNπθ(|x)y_1, …, y_N \sim \pi_\theta(\cdot | x)

  • temperature τ = 1
  • N rollouts

4.2 reward 정의

r(x, y_i) = \begin{cases} 1 & \text{정답이 \boxed{} 안에 있음} \\ 0 & \text{otherwise} \end{cases}

–> 매우 sparse reward


4.3 baseline (variance reduction)

b=1Ni=1Nrib = \frac{1}{N} \sum_{i=1}^N r_i

ai=riba_i = r_i – b


4.4 Policy Gradient (RLOO)

θJ=𝔼xD,yπθ[a(x,y)θlogπθ(y|x)]\nabla_\theta J = \mathbb{E}_{x \sim D, y \sim \pi_\theta} \left[ a(x,y)\nabla_\theta \log \pi_\theta(y|x) \right]

✔ 여기서 중요한 점:

  • gradient는 오직 steering vector로만 흐름
  • base model은 완전히 고정

5. 왜 이게 동작하는가? (Mechanistic 해석)

논문의 implicit assumption:

Steering vector는 새로운 feature를 생성하지 않고

이미 존재하는 representation을 특정 방향으로 이동시킨다


수식적 해석

hidden state를 feature basis로 보면:

h=iαifih = \sum_i \alpha_i f_i

steering 적용:

h’ = h + s

→ 결과:

αi=αi+Δi\alpha_i’ = \alpha_i + \Delta_i

즉:

특정 feature 방향을 amplify / suppress


6. Logit Lens 기반 해석

각 token v에 대해:

c(v)=s,uvsuvc_\ell(v) = \frac{\langle s_\ell, u_v \rangle} {\|s_\ell\|\|u_v\|}

  • uvu_v: unembedding vector

의미:

  • c(v)>0c_\ell(v) > 0: token v를 더 생성하도록 bias
  • c(v)<0c_\ell(v) < 0: 억제

7. LoRA 확장 (논문 Appendix D)

7.1 문제점

기본 steering:

h’ = h + s

–> token-independent → 표현력 부족


7.2 LoRA 기반 steering

h=h+BAhMLPh’ = h + B A h_{\text{MLP}}

  • Ar×dA \in \mathbb{R}^{r \times d}
  • Bd×rB \in \mathbb{R}^{d \times r}

특징:

  • token-dependent
  • low-rank adaptation

비교

방법표현력
Steeringglobal shift
LoRAinput-dependent shift

8. 전체 알고리즘 정리

Algorithm

for each batch:
    for each input x:
        sample y1,...,yN ~ πθ
        compute reward r_i
        
    compute baseline b
    compute advantage a_i = r_i - b
    
    update steering vectors:
        ∇θ J = E[a_i ∇ log π(y_i|x)]

9. 핵심 설계 요약

Design Principles

(1) Minimal Intervention

  • 단 하나의 vector per layer

(2) Activation-level control

  • weight 수정 없음

(3) RL-driven alignment

  • reasoning behavior 유도


10. 한 줄 핵심

Layer-wise additive vector + RL만으로 reasoning을 유도할 수 있다.


논문의 **실험 결과(Results)**를 핵심 지표 중심으로 정리합니다. (성능 / 효율 / 해석 / 추가 실험까지)


1. 핵심 결과 요약

Steering-only 학습 ≈ Full fine-tuning 성능

  • 대부분 모델/벤치마크에서 동일 수준
  • 일부 경우 오히려 더 높은 성능
  • 단, base capability가 부족한 경우에는 gap 존재 

2. 메인 벤치마크 결과 (Table 1)

2.1 실험 설정

  • 모델:
    • Qwen2.5 (1.5B / 7B / 14B)
    • Qwen2.5-Math
    • LLaMA3.1-8B
  • 벤치마크:
    • AIME24/25
    • AMC23
    • MATH500
    • MinervaMath
    • OlympiadBench

2.2 대표 결과

(1) Qwen2.5-7B

모델Avg
Base24.2
Steering36.4
Full-tune37.1

–> Steering ≈ Full-tune


(2) Qwen2.5-14B

모델Avg
Base26.1
Steering42.3
Full-tune41.3

–> Steering > Full-tune


(3) Qwen2.5-Math-7B

모델Avg
Base24.8
Steering43.3
Full-tune43.5

–> 거의 동일


(4) LLaMA3.1-8B

모델Avg
Base3.9
Steering9.1
Full-tune11.5

–> 약 70% 수준만 회복


2.3 핵심 관찰

✔ Observation 1

대부분 경우:

SteeringFull-tune\text{Steering} \approx \text{Full-tune}


✔ Observation 2

일부 경우:

Steering<Full-tune\text{Steering} < \text{Full-tune}

이유:

  • base model에 reasoning capability 부족

✔ Observation 3

일부 경우:

Steering>Full-tune\text{Steering} > \text{Full-tune}

해석:

  • implicit regularization 효과 

3. 데이터셋 교차 실험 (Table 4)

3.1 GSM8K → GSM8K

모델FullSteering
Qwen2.5-1.5B78.973.8
Qwen2.5-Math86.579.9
LLaMA3.176.570.4

–> 항상 약간 낮음 (56%)


3.2 GSM8K → MATH (generalization)

모델FullSteering
Qwen2.5-1.5B40.848.7
LLaMA3.116.922.8

–> Steering이 더 좋음


3.3 MATH → MATH

모델FullSteering
Qwen2.5-1.5B44.551.4

–> 다시 Steering > Full


3.4 핵심 해석

✔ In-domain

  • Steering slightly worse

✔ Out-of-domain

  • Steering often better

이유:

parameter 적음 → overfitting 감소 → generalization 향상


4. LoRA 비교 실험

결과:

LoRA는 항상 Full-tune 수준까지 도달


예시

방법성능
Steering약간 낮음
LoRA거의 동일
Full-tune기준

해석

  • Steering:
    • global shift → coarse control
  • LoRA:
    • token-dependent → fine-grained control

따라서:

LoRA>Steering\text{LoRA} > \text{Steering}


5. 효율성 결과 (Table 3, 5)

Qwen2.5-14B 기준

항목FullSteering
파라미터14.7B245K
Optimizer memory13.8GB240KB
Step time9.94s0.11s
총 학습 시간52분거의 없음

–> 약 100~1000배 효율 개선 


핵심 메시지

거의 동일 성능 + 극단적 비용 절감


6. 해석 결과 (Interpretability)

6.1 Layer별 역할

논문에서 발견:


Layer 2

  • programming tokens
  • named entities

–> 문제 구조 파싱


Layer 17

  • correctness, validation

–> reasoning 검증 단계


Layer 30

  • because, therefore, however

–> reasoning 연결


6.2 핵심 insight

reasoning은 layer-wise로 분리된 기능 구조를 가짐 


7. 종합 결론

7.1 가장 중요한 결과

(1) 성능

SteeringFull-tune\text{Steering} \approx \text{Full-tune}


(2) 비용

Cost\text{Cost} \downarrow \downarrow \downarrow


(3) 해석

reasoning = latent feature amplification


7.2 논문이 주장하는 바

“Reasoning training does not create new abilities

but amplifies existing ones.” 


8. 한 줄 정리

극소수의 layer-wise vector만으로 full RL reasoning 성능을 재현할 수 있다.



게시됨

카테고리

,

작성자

태그:

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다