이 논문은 오늘날 Mechanistic Interpretability 분야의 출발점 중 하나로 평가받습니다. 특히 이후의

Attention Head 분석
Induction Head 발견
Path Expansion
Virtual Attention Head
Residual Stream 해석
EAP(Edge Attribution Patching)
ACDC
Circuit Discovery

등의 연구들이 사실상 이 논문의 수학적 프레임워크 위에서 발전되었습니다.

1. 논문의 핵심 질문

Transformer 내부를 회로(circuit)처럼 해석할 수 있는가?

기존 Transformer 수식:

$Q=XW_Q$

$K=XW_K$

$V=XW_V$

$A=\text{softmax}(QK^T)$

$Y=AVW_O$

은 학습과 구현에는 편하지만,

“이 head가 실제로 무엇을 하는가?”

를 이해하기 어렵습니다.

저자들은 Transformer를 “token → token 정보 이동 회로”로 재해석합니다.

2. 가장 중요한 아이디어: Residual Stream

기존 관점:

Layer1
 ↓
Layer2
 ↓
Layer3

논문 관점:

                Residual Stream
------------------------------------------------
Embedding ---> shared communication channel
                    ↑
             Head 1 writes
                    ↑
             Head 2 writes
                    ↑
             MLP writes

Residual Stream은 “계산 공간”이 아니라 “통신 채널”입니다.

모든 모듈은

읽기(Read) $W_{in}$

쓰기(Write) $W_{out}$

를 수행합니다.

3. Virtual Weight

Residual Stream이 선형(additive) 구조이므로

Layer A와 Layer B 사이에

가상의 연결을 정의할 수 있습니다.

$W_{virtual}=W_{out}^{(A)}W_{in}^{(B)}$

의미:

Head A --> Residual Stream --> Head B

대신

Head A --> Virtual Weight --> Head B

처럼 생각 가능

이 아이디어가 나중에

Edge Attribution
Circuit Graph

의 기반이 됩니다.

4. Attention Head를 두 부분으로 분해

논문의 가장 중요한 기여 중 하나

기존:

$A=\text{softmax}(QK^T)$

$Y=AVW_O$

저자들은

Attention Head를

QK Circuit

어디를 볼 것인가?

$W_{QK}=W_Q^TW_K$

OV Circuit

무엇을 복사할 것인가?

$W_{OV}=W_OW_V$

로 분리합니다.

5. Head = Information Movement

논문은 attention을 “정보 이동”으로 해석합니다.

$h(x)=(A \otimes W_{OV})x$

의미:

QK: source token 찾기

OV: source 정보를 destination으로 복사

즉, Attention Head는

어디서 읽을까? (QK)

무엇을 옮길까?(OV)

입니다.

6. Path Expansion Trick

논문의 대표적 기법

1-layer attention-only transformer

$T=W_U(I+A W_{OV})W_E$

전개하면

$T=W_UW_E+W_UAW_{OV}W_E$

이 의미는 Transformer를 Layer 기준이 아니라 Path 기준으로 볼 수 있다는 것입니다.

Direct Path

$W_UW_E$

token –> embedding –> unembedding

Bigram 역할

Attention Path

$W_UAW_{OV}W_E$

source token –> attention head –> output token

Skip-Trigram 역할

7. 0-Layer Transformer

Layer가 없으면

$T=W_UW_E$

뿐입니다.

현재 token만 보고 다음 token 예측

↓

Bigram Model: $P(x_t|x_{t-1})$

8. 1-Layer Transformer = Skip-Trigram Model

논문의 중요한 결과

1-layer attention-only transformer는

Bigram + Skip-Trigram ensemble

입니다.

예:

keep ... in -> mind

day ... and -> night

github ... / -> issues

http ... / -> www

형태:

$A … B \rightarrow C$

즉,

source=A
destination=B
prediction=C

그래서 1-layer는 사실상 P(C|A,B) 형태의 skip-trigram table들의 집합으로 해석됩니다.

9. OV Circuit 해석

OV는

$W_UW_{OV}W_E$

로 전개됩니다.

결과:

Vocabulary × Vocabulary

행렬

$50000\times50000$

질문:

“token A를 읽으면 어떤 token의 logit이 증가하는가?”

예:

perfect
↓
perfect
super
absolute

즉, OV는 “token 변환기”입니다.

10. QK Circuit 해석

QK:

$W_E^TW_Q^TW_KW_E$

질문:

현재 token이 B일 때
어느 과거 token을 찾는가?

예:

perfect ... are

이면 perfect를 찾음

즉, QK는 token 검색 엔진입니다.

11. Freezing Attention Pattern

매우 중요한 해석 기법

Attention을 두 단계로 나눔

QK만 실행 → attention pattern 저장

pattern 고정. $A=\text{const}$

그러면

$y=(A\otimes W_{OV})x$

는 선형 함수가 됩니다.

이 아이디어가 나중에

Activation Patching
Attribution Patching
EAP

의 이론적 기반이 됩니다.

12. 2-Layer 모델의 핵심

여기서 논문의 가장 유명한 결과 등장

1-layer –> Skip-Trigram

2-layer –> Head Composition 가능

13. 세 가지 Composition

논문은 head composition을 세 종류로 구분합니다.

(1) Q-composition

첫 번째 head 출력이

두 번째 head의 Query 생성에 영향

$W_Q$ 경유

(2) K-composition

첫 번째 head 출력이

두 번째 head의 Key 생성에 영향

$W_K$ 경유

(3) V-composition

첫 번째 head 출력이

두 번째 head의 Value 생성에 영향

$W_V$ 경유

14. Virtual Attention Head

V-composition은

$(A_2 \otimes W_{OV,2}) (A_1 \otimes W_{OV,1})$

으로 표현됩니다.

전개하면

$(A_2A_1)\otimes(W_{OV,2}W_{OV,1})$

즉, 두 head의 조합이 새로운 head처럼 행동

↓

Virtual Attention Head

이 개념이 후일 Attention Circuit 분석의 핵심이 됩니다.

15. 왜 2-Layer부터 갑자기 강력해지는가?

1-layer:

A ... B -> C

만 가능

2-layer:

A를 찾고
↓
A와 비슷한 token 찾고
↓
그 token의 다음 token 예측

가능

즉

Lookup Table

↓

Algorithm

으로 변합니다.

16. Induction Head의 발견

이 논문의 가장 유명한 결과

패턴:

A B C
...
A B

보면

다음 token C 예측

예:

Tom likes apples.
Mary likes oranges.
Tom likes

↓

apples 예측

동작:

Head 1

현재 위치와 동일 token 찾기

Tom
↓
이전 Tom

Head 2

그 위치의 다음 token 참조

likes
↓
apples

결과:

Tom likes -> apples

이것이 Induction Head입니다.

이후 연구에 미친 영향

이 논문은 사실상 현대 Mechanistic Interpretability의 출발점입니다.

직접 연결되는 연구 흐름은

Transformer Circuits (2021)
        ↓
Induction Heads (2022)
        ↓
Path Patching
        ↓
ACDC
        ↓
EAP
        ↓
EAP-IG
        ↓
Circuit Discovery
        ↓
SAE Circuit Analysis

입니다.

* A Mathematical Framework for Transformer Circuits (Transformer Circuits 2021)

1. 논문의 핵심 질문

2. 가장 중요한 아이디어: Residual Stream

3. Virtual Weight

4. Attention Head를 두 부분으로 분해

QK Circuit

OV Circuit

5. Head = Information Movement

6. Path Expansion Trick

Direct Path

Attention Path

7. 0-Layer Transformer

8. 1-Layer Transformer = Skip-Trigram Model

9. OV Circuit 해석

10. QK Circuit 해석

11. Freezing Attention Pattern

12. 2-Layer 모델의 핵심

13. 세 가지 Composition

(1) Q-composition

(2) K-composition

(3) V-composition

14. Virtual Attention Head

15. 왜 2-Layer부터 갑자기 강력해지는가?

16. Induction Head의 발견

Head 1

Head 2

이후 연구에 미친 영향

댓글

답글 남기기 응답 취소