







이 논문은 오늘날 Mechanistic Interpretability 분야의 출발점 중 하나로 평가받습니다. 특히 이후의
- Attention Head 분석
- Induction Head 발견
- Path Expansion
- Virtual Attention Head
- Residual Stream 해석
- EAP(Edge Attribution Patching)
- ACDC
- Circuit Discovery
등의 연구들이 사실상 이 논문의 수학적 프레임워크 위에서 발전되었습니다.
1. 논문의 핵심 질문
Transformer 내부를 회로(circuit)처럼 해석할 수 있는가?
기존 Transformer 수식:
은 학습과 구현에는 편하지만,
“이 head가 실제로 무엇을 하는가?”
를 이해하기 어렵습니다.
저자들은 Transformer를 “token → token 정보 이동 회로”로 재해석합니다.
2. 가장 중요한 아이디어: Residual Stream
기존 관점:
Layer1
↓
Layer2
↓
Layer3
논문 관점:
Residual Stream
------------------------------------------------
Embedding ---> shared communication channel
↑
Head 1 writes
↑
Head 2 writes
↑
MLP writes
Residual Stream은 “계산 공간”이 아니라 “통신 채널”입니다.
모든 모듈은
읽기(Read)
쓰기(Write)
를 수행합니다.
3. Virtual Weight
Residual Stream이 선형(additive) 구조이므로
Layer A와 Layer B 사이에
가상의 연결을 정의할 수 있습니다.
의미:
Head A --> Residual Stream --> Head B
대신
Head A --> Virtual Weight --> Head B
처럼 생각 가능
이 아이디어가 나중에
- Edge Attribution
- Circuit Graph
의 기반이 됩니다.
4. Attention Head를 두 부분으로 분해
논문의 가장 중요한 기여 중 하나
기존:
저자들은
Attention Head를
QK Circuit
어디를 볼 것인가?
OV Circuit
무엇을 복사할 것인가?
로 분리합니다.
5. Head = Information Movement
논문은 attention을 “정보 이동”으로 해석합니다.
의미:
QK: source token 찾기
OV: source 정보를 destination으로 복사
즉, Attention Head는
어디서 읽을까? (QK)
무엇을 옮길까?(OV)
입니다.
6. Path Expansion Trick
논문의 대표적 기법
1-layer attention-only transformer
전개하면
이 의미는 Transformer를 Layer 기준이 아니라 Path 기준으로 볼 수 있다는 것입니다.
Direct Path
token –> embedding –> unembedding
Bigram 역할
Attention Path
source token –> attention head –> output token
Skip-Trigram 역할
7. 0-Layer Transformer
Layer가 없으면
뿐입니다.
현재 token만 보고 다음 token 예측
↓
Bigram Model:
8. 1-Layer Transformer = Skip-Trigram Model
논문의 중요한 결과
1-layer attention-only transformer는
Bigram + Skip-Trigram ensemble
입니다.
예:
keep ... in -> mind
day ... and -> night
github ... / -> issues
http ... / -> www
형태:
즉,
source=A
destination=B
prediction=C
그래서 1-layer는 사실상 P(C|A,B) 형태의 skip-trigram table들의 집합으로 해석됩니다.
9. OV Circuit 해석
OV는
로 전개됩니다.
결과:
Vocabulary × Vocabulary
행렬
질문:
“token A를 읽으면 어떤 token의 logit이 증가하는가?”
예:
perfect
↓
perfect
super
absolute
즉, OV는 “token 변환기”입니다.
10. QK Circuit 해석
QK:
질문:
현재 token이 B일 때
어느 과거 token을 찾는가?
예:
perfect ... are
이면 perfect를 찾음
즉, QK는 token 검색 엔진입니다.
11. Freezing Attention Pattern
매우 중요한 해석 기법
Attention을 두 단계로 나눔
- QK만 실행 → attention pattern 저장
- pattern 고정.
그러면
는 선형 함수가 됩니다.
이 아이디어가 나중에
- Activation Patching
- Attribution Patching
- EAP
의 이론적 기반이 됩니다.
12. 2-Layer 모델의 핵심
여기서 논문의 가장 유명한 결과 등장
1-layer –> Skip-Trigram
2-layer –> Head Composition 가능
13. 세 가지 Composition
논문은 head composition을 세 종류로 구분합니다.
(1) Q-composition
첫 번째 head 출력이
두 번째 head의 Query 생성에 영향
경유
(2) K-composition
첫 번째 head 출력이
두 번째 head의 Key 생성에 영향
경유
(3) V-composition
첫 번째 head 출력이
두 번째 head의 Value 생성에 영향
경유
14. Virtual Attention Head
V-composition은
으로 표현됩니다.
전개하면
즉, 두 head의 조합이 새로운 head처럼 행동
↓
Virtual Attention Head
이 개념이 후일 Attention Circuit 분석의 핵심이 됩니다.
15. 왜 2-Layer부터 갑자기 강력해지는가?
1-layer:
A ... B -> C
만 가능
2-layer:
A를 찾고
↓
A와 비슷한 token 찾고
↓
그 token의 다음 token 예측
가능
즉
Lookup Table
↓
Algorithm
으로 변합니다.
16. Induction Head의 발견
이 논문의 가장 유명한 결과
패턴:
A B C
...
A B
보면
다음 token C 예측
예:
Tom likes apples.
Mary likes oranges.
Tom likes
↓
apples 예측
동작:
Head 1
현재 위치와 동일 token 찾기
Tom
↓
이전 Tom
Head 2
그 위치의 다음 token 참조
likes
↓
apples
결과:
Tom likes -> apples
이것이 Induction Head입니다.
이후 연구에 미친 영향
이 논문은 사실상 현대 Mechanistic Interpretability의 출발점입니다.
직접 연결되는 연구 흐름은
Transformer Circuits (2021)
↓
Induction Heads (2022)
↓
Path Patching
↓
ACDC
↓
EAP
↓
EAP-IG
↓
Circuit Discovery
↓
SAE Circuit Analysis
입니다.
답글 남기기