* A Mathematical Framework for Transformer Circuits (Transformer Circuits 2021)

이 논문은 오늘날 Mechanistic Interpretability 분야의 출발점 중 하나로 평가받습니다. 특히 이후의

  • Attention Head 분석
  • Induction Head 발견
  • Path Expansion
  • Virtual Attention Head
  • Residual Stream 해석
  • EAP(Edge Attribution Patching)
  • ACDC
  • Circuit Discovery

등의 연구들이 사실상 이 논문의 수학적 프레임워크 위에서 발전되었습니다.  


1. 논문의 핵심 질문

Transformer 내부를 회로(circuit)처럼 해석할 수 있는가?

기존 Transformer 수식:

Q=XWQQ=XW_Q

K=XWKK=XW_K

V=XWVV=XW_V

A=softmax(QKT)A=\text{softmax}(QK^T)

Y=AVWOY=AVW_O

은 학습과 구현에는 편하지만,

“이 head가 실제로 무엇을 하는가?”

를 이해하기 어렵습니다.

저자들은 Transformer를 “token → token 정보 이동 회로”로 재해석합니다.  


2. 가장 중요한 아이디어: Residual Stream

기존 관점:

Layer1
 ↓
Layer2
 ↓
Layer3

논문 관점:

                Residual Stream
------------------------------------------------
Embedding ---> shared communication channel
                    ↑
             Head 1 writes
                    ↑
             Head 2 writes
                    ↑
             MLP writes

Residual Stream은 “계산 공간”이 아니라 “통신 채널”입니다.  


모든 모듈은

읽기(Read) WinW_{in}

쓰기(Write) WoutW_{out}

를 수행합니다.


3. Virtual Weight

Residual Stream이 선형(additive) 구조이므로

Layer A와 Layer B 사이에

가상의 연결을 정의할 수 있습니다.

Wvirtual=Wout(A)Win(B)W_{virtual}=W_{out}^{(A)}W_{in}^{(B)}


의미:

Head A --> Residual Stream --> Head B

대신

Head A --> Virtual Weight --> Head B

처럼 생각 가능


이 아이디어가 나중에

  • Edge Attribution
  • Circuit Graph

의 기반이 됩니다.


4. Attention Head를 두 부분으로 분해

논문의 가장 중요한 기여 중 하나


기존:

A=softmax(QKT)A=\text{softmax}(QK^T)

Y=AVWOY=AVW_O


저자들은

Attention Head를

QK Circuit

어디를 볼 것인가?

WQK=WQTWKW_{QK}=W_Q^TW_K


OV Circuit

무엇을 복사할 것인가?

WOV=WOWVW_{OV}=W_OW_V

로 분리합니다.  


5. Head = Information Movement

논문은 attention을 “정보 이동”으로 해석합니다.

h(x)=(AWOV)xh(x)=(A \otimes W_{OV})x


의미:

QK: source token 찾기

OV: source 정보를 destination으로 복사


즉, Attention Head는

어디서 읽을까? (QK)

무엇을 옮길까?(OV)

입니다.


6. Path Expansion Trick

논문의 대표적 기법


1-layer attention-only transformer

T=WU(I+AWOV)WET=W_U(I+A W_{OV})W_E


전개하면

T=WUWE+WUAWOVWET=W_UW_E+W_UAW_{OV}W_E


이 의미는 Transformer를 Layer 기준이 아니라 Path 기준으로 볼 수 있다는 것입니다.


Direct Path

WUWEW_UW_E

token –> embedding –> unembedding


Bigram 역할


Attention Path

WUAWOVWEW_UAW_{OV}W_E

source token –> attention head –> output token


Skip-Trigram 역할


7. 0-Layer Transformer

Layer가 없으면

T=WUWET=W_UW_E

뿐입니다.


현재 token만 보고 다음 token 예측

Bigram Model: P(xt|xt1)P(x_t|x_{t-1})


8. 1-Layer Transformer = Skip-Trigram Model

논문의 중요한 결과

1-layer attention-only transformer는

Bigram + Skip-Trigram ensemble

입니다.  


예:

keep ... in -> mind
day ... and -> night
github ... / -> issues
http ... / -> www

형태:

A...BCA … B \rightarrow C

즉,

source=A
destination=B
prediction=C

그래서 1-layer는 사실상 P(C|A,B) 형태의 skip-trigram table들의 집합으로 해석됩니다.


9. OV Circuit 해석

OV는

WUWOVWEW_UW_{OV}W_E

로 전개됩니다.


결과:

Vocabulary × Vocabulary

행렬

50000×5000050000\times50000


질문:

“token A를 읽으면 어떤 token의 logit이 증가하는가?”


예:

perfect
↓
perfect
super
absolute

즉, OV는 “token 변환기”입니다.


10. QK Circuit 해석

QK:

WETWQTWKWEW_E^TW_Q^TW_KW_E


질문:

현재 token이 B일 때
어느 과거 token을 찾는가?

예:

perfect ... are

이면 perfect를 찾음


즉, QK는 token 검색 엔진입니다.


11. Freezing Attention Pattern

매우 중요한 해석 기법


Attention을 두 단계로 나눔

  1. QK만 실행 → attention pattern 저장
  1. pattern 고정. A=constA=\text{const}

그러면

y=(AWOV)xy=(A\otimes W_{OV})x

는 선형 함수가 됩니다.  


이 아이디어가 나중에

  • Activation Patching
  • Attribution Patching
  • EAP

의 이론적 기반이 됩니다.


12. 2-Layer 모델의 핵심

여기서 논문의 가장 유명한 결과 등장


1-layer –> Skip-Trigram


2-layer –> Head Composition 가능


13. 세 가지 Composition

논문은 head composition을 세 종류로 구분합니다.


(1) Q-composition

첫 번째 head 출력이

두 번째 head의 Query 생성에 영향

WQW_Q 경유


(2) K-composition

첫 번째 head 출력이

두 번째 head의 Key 생성에 영향

WKW_K 경유


(3) V-composition

첫 번째 head 출력이

두 번째 head의 Value 생성에 영향

WVW_V 경유


14. Virtual Attention Head

V-composition은

(A2WOV,2)(A1WOV,1)(A_2 \otimes W_{OV,2}) (A_1 \otimes W_{OV,1})

으로 표현됩니다.


전개하면

(A2A1)(WOV,2WOV,1)(A_2A_1)\otimes(W_{OV,2}W_{OV,1})


즉, 두 head의 조합이 새로운 head처럼 행동

Virtual Attention Head


이 개념이 후일 Attention Circuit 분석의 핵심이 됩니다.


15. 왜 2-Layer부터 갑자기 강력해지는가?

1-layer:

A ... B -> C

만 가능


2-layer:

A를 찾고
↓
A와 비슷한 token 찾고
↓
그 token의 다음 token 예측

가능


Lookup Table

Algorithm

으로 변합니다.


16. Induction Head의 발견

이 논문의 가장 유명한 결과


패턴:

A B C
...
A B

보면

다음 token C 예측


예:

Tom likes apples.
Mary likes oranges.
Tom likes

apples 예측

동작:

Head 1

현재 위치와 동일 token 찾기

Tom
↓
이전 Tom

Head 2

그 위치의 다음 token 참조

likes
↓
apples

결과:

Tom likes -> apples

이것이 Induction Head입니다.  


이후 연구에 미친 영향

이 논문은 사실상 현대 Mechanistic Interpretability의 출발점입니다.

직접 연결되는 연구 흐름은

Transformer Circuits (2021)
        ↓
Induction Heads (2022)
        ↓
Path Patching
        ↓
ACDC
        ↓
EAP
        ↓
EAP-IG
        ↓
Circuit Discovery
        ↓
SAE Circuit Analysis

입니다.

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다