*** Position-aware Automatic Circuit Discovery (ACL 2025)

아래는 ACL 2025 논문 “Position-aware Automatic Circuit Discovery (PEAP)” 전체 내용을 기반으로 한 논문 설명입니다.


📌 Position-aware Automatic Circuit Discovery — 논문 전체 설명

1. 논문 문제의식 (Why?)

기존 자동 circuit discovery 기법(EAP, direct patching 등)은 “position-invariant” 가정을 한다.

즉,

  • 어떤 attention head 또는 FFN이 한 번 포함되면 모든 토큰 위치에서 동일하게 포함된다고 가정함
  • cross-position interaction(예: position t의 head가 position t′의 head에 미치는 영향)을 회색 처리
  • 서로 다른 위치에서의 효과를 합산(summing across positions)하면서 중복/소거(cancellation) 발생 → Figure 2에서 명확히 보임:
    • 한 위치에서 매우 중요한 edge라도 다른 위치의 음/양향 영향이 합산되면 중요도가 사라짐.

이로 인해

  • Recall 낮음: 중요한 edge가 cancel됨
  • Precision 낮음: 모든 위치에서 조금씩 영향을 주는 edge가 과대평가됨
  • Circuit이 불필요하게 커지고, 정확도(faithfulness)도 낮아짐

이 문제를 해결하기 위해 저자들은 **“Position-aware Edge Attribution Patching (PEAP)”**을 제안한다.


2. 제안 핵심 기여 (What?)

(1) 

PEAP: 위치 의존적 Edge Attribution 방식 도입

  • 기존 EAP는 **동일 위치 내 edge (u→v)**만 고려
  • PEAP는 **attention head 사이의 cross-position edge (value/key/query dependencies)**까지 고려
  • 각 위치별(edge, position pair)별 중요도를 독립적으로 계산 → cancellation·overestimation 문제를 제거

(2) 

Schema: Variable-length 입력에서 위치 정렬을 자동화하는 새로운 구조

대부분의 데이터셋(IOI, Winobias 등)은 예시마다 길이가 다르고 의미 구조도 다르기 때문에 “position” 자체가 고정적일 수 없다.

그래서 논문은 Schema 개념을 도입:

예시:

문장 조각Schema span
“The war lasted …”SUBJECT
“from 1453 to 14”START-YEAR, END-YEAR

→ 예시마다 token 개수는 다르지만, 동일한 semantic 역할을 하는 span을 정렬할 수 있음

→ Variable-length 입력에서도 position-aware 회로 탐색 가능


(3) 

LLM 기반 자동 Schema 생성·적용 파이프라인

  • Claude 3.5 Sonnet을 활용해 schema 자동 생성
  • 토큰 saliency(mask) 정보를 LLM에게 제공하여 → “모델이 실제로 중요하게 사용하는 위치”에 대한 정보를 기반으로 schema 설계
  • manual schema와 유사하거나 더 좋은 faithfulness를 달성

3. PEAP 방법론 상세 (How?)

기존 EAP 공식

Edge e = (u→v)의 indirect effect:

g(e)=(zuzu)vM(x)g(e) = (z_u^* – z_u)^\top \nabla_v M(x)

PEAP의 차별점은:

✔ 

cross-position attention edge

의 attribution을 직접 근사

Figure 3 참고.

각 attention head htih^i_t에 대해 value/key/query patching 시 output zz^{*} 변화를 계산.

수식 예(논문 Eq. 4–6):

  • value patching: zhti=WOi(softmax(qtiKti/dk)[v1,,vt])z_{h^i_t}^* = W^i_O(\text{softmax}(q^i_t K^i_t /\sqrt{d_k}) [v_1,\ldots,v_t’] )
  • key patching
  • query patching

이렇게 얻은 zzz^* – z와 gradient를 내적하여 attribution score 산출.

결과적으로 다음을 포함한 새로운 “positional circuit” 생성 가능:

  • 동일 head라도 t=5에서는 포함, t=1에서는 제외
  • 특정 cross-position edge (예: head L3.H7 position t→t-1)만 선택

4. Schema 기반 Circuit Discovery (Variable-length 입력)

핵심 아이디어

  • 예시마다 길이가 달라도, 모든 예시가 공유하는 semantic structure는 존재한다.
  • → 이를 “schema span”으로 정리
  • → 각 span을 하나의 abstract position으로 mapping
  • → 모든 예시의 computation graph를 같은 “abstract graph”로 정렬 Figure 5 참고.

3단계 절차

  1. 각 예시 x에서 원래 Gₓ에서 edge score 계산
  2. schema 매핑 함수 f_x로 abstract edge e에 대응되는 원래 edge 집합 f_x(e)을 찾음
  3. 모든 예시에서 평균 내어 abstract graph GSG_S에 대한 gS(e)g_S(e) 산출:

gS(e)=1|D|xDefx(e)gx(e)g_S(e) = \frac{1}{|D|} \sum_{x\in D} \sum_{e’ \in f_x(e)} g_x(e’)

  1. greedy algorithm으로 abstract circuit 선택
  2. 평가 시 다시 원래 Gₓ로 펼쳐서 circuit 구성

5. 실험 결과 (GPT2-small, Llama-3-8B)

평가 지표

  • Soft faithfulness: FS=M(C)M(full model)F_S = \frac{M(C)}{M(\text{full model})}
  • Hard faithfulness: 정답 토큰 동일 여부 Figure 6에 다양한 task 결과가 제시됨.

주요 결과

✔ Position-aware circuits는 non-positional circuits보다 

훨씬 작고 훨씬 정확함

  • 기존 방식은 수천 개 edges 필요
  • PEAP는 수백 개 이하로 동일 faithfulness 달성

✔ LLM+saliency mask 기반 자동 schema는 human schema와 동급 또는 더 우수

특히:

  • Greater-Than: human ≈ LLM+mask ≫ LLM-only
  • IOI(Llama-3-8B): LLM+mask가 human보다 faithfulness 더 좋음
  • Winobias: 자동 schema도 높은 성능

논문 결론:

자동 schema + PEAP 조합은 사람 전문가가 만든 회로 구조를 완전히 대체 가능하며, 오히려 더 좋은 회로를 찾을 수도 있다.


6. 논문의 의미 (Interpretability 측면)

  1. Transformer 계산 구조는 위치에 따라 크게 다르다
  2. 그럼에도 기존 자동 기법은 모든 위치에서 동일한 mechanism이라고 가정해 오류 발생
  3. 실제로 cross-position interaction(head-to-head)이 중요한 경우가 많다
  4. PEAP는 최초로 완전 자동 position-aware circuit을 실현
  5. schema 개념은 앞으로의 interpretability 연구에서 “variable-length 데이터 정렬” 문제를 크게 해결할 핵심 도구가 될 가능성이 큼

📌 요약 한 줄

이 논문은 LLM 내부 메커니즘 분석에서 “position” 차원을 본격적으로 도입함으로써, 기존 회로 분석의 근본적 한계를 돌파한 첫 자동화 프레임워크이다.


논문에서 정리한 **관련 연구(related work)**는 크게 세 가지 축으로 나눌 수 있습니다.

전반적인 관련 연구 논의는 Appendix A “Related Work”와 서론/배경에서 흩어져 있습니다.


1. 기존 자동 position-aware 시도들

논문이 직접 겨냥하는 건 “위치까지 고려하는 자동 회로 발견”인데, 저자들은 이미 몇 가지 선행 연구가 position을 다루긴 하지만 한계가 뚜렷하다고 정리합니다.

1-1. Kramár et al. 2024 — AtP*

  • 무엇을 했나?
    • Edge Attribution Patching(EAP; Syed et al., 2023)의 변형인 **AtP***를 제안.
    • 목적: LLM 행동을 “노드 단위 + 위치별”로 로컬라이즈하는 것.
  • 한계 (이 논문 기준):
    • 템플릿 기반, 완전히 정렬된(fully aligned) 데이터셋에서만 평가됨.
    • 회로(circuit) 자체를 찾는 데 사용되지 않았음 — 즉, “중요한 node/edge를 찾는다” 수준이고, 이 논문처럼 faithfulness–size trade-off를 갖는 서브그래프 전체를 구성하지 않음.

→ 이 논문: AtP*처럼 위치는 보지만,

  • edge 수준으로,
  • 실제 circuit을 구성하고,
  • variable-length + 비정렬 데이터셋까지 다룸.

1-2. Marks et al. 2025 — Sparse Feature Circuits

  • 무엇을 했나?
    • Sparse Feature Circuits framework: SAE 기반 feature를 node로 보고, 여기에 token position을 포함하는 회로를 구성.
    • 마찬가지로 템플릿 기반, fully-aligned 데이터셋에서만 실험.
  • 이 논문이 비판하는 점:
    1. node-level faithfulness만 보고 edge-level은 보지 않음.
      • 하지만 Ge et al. (2024)은 edge-level circuit이 task 회로를 더 잘 포착한다고 보고.
    2. “edge” 정의가 완전히 다름:
      • Sparse Feature Circuits에서 edge는 “노드 효과를 outgoing edges에 분산시키는 추상 객체”
      • 실제 computation graph 상에서 연결돼 있지 않아도 “경로(path)”를 edge라고 부름.
    3. 이 논문은
      • 진짜 연산 그래프 상에서 u→v가 직접적으로 영향을 주면 edge로 간주하는, 더 직관적/구조적 정의 사용.

→ 즉, Sparse Feature Circuits는 feature space에서의 추상 경로, 이 논문은 실제 연산 그래프의 물리적 edge에 집중.


1-3. Ge et al. 2024 — SAEs + Transcoders 기반 회로

  • 무엇을 했나?
    • Sparse Autoencoder(SAE) + Transcoder를 이용한 회로 발견 파이프라인을 제안.
    • 여기서도 token position을 고려하는 구조를 포함.
  • 이 논문과의 차이점:
    • 회로 발견 방법:
      • Ge et al.: SAE/Transcoder 기반
      • 본 논문: PEAP(position-aware EAP) 기반
    • 평가 범위:
      • Ge et al.: **아주 적은 예시(cases)**에 국한, 스코프가 좁음.
      • 이 논문: 3개 task, 각 500 예시, sequence length도 다양, GPT-2 Small + Llama-3-8B 등 서로 다른 규모 모델로 평가.
    • 비정렬 데이터 처리:
      • Ge et al.: 주로 정렬/단순 설정
      • 이 논문: LLM으로 schema를 자동 생성해서 unaligned dataset까지 처리하는 것이 핵심 기여.

2. 기존 automatic circuit discovery (position 무시)

이 논문이 직접 확장하는 핵심 계열은 **“Edge Attribution Patching 계열 자동 회로 발견”**입니다.

2-1. Conmy et al. 2023, Syed et al. 2023, Hanna et al. 2024b

  • Conmy et al. 2023:
    • Direct activation patching + greedy로 자동 회로를 추출.
  • Syed et al. 2023 (EAP):
    • 직접 patching이 너무 비싸기 때문에,
      • gradient 기반 linear approximation (Edge Attribution Patching) 도입.
    • 이 논문이 PEAP에서 바로 확장하는 기반 수식.
  • Hanna et al. 2024b:
    • 회로의 faithfulness를 측정할 때 단순 overlap 대신 실제 성능(soft/hard faithfulness)을 강조하는 평가 프레임워크 제안.

본 논문 관점의 문제점:

  • 모두 token position을 완전히 무시
  • edge 중요도를 position별로 나누지 않고, 전체 위치에 대해 합산cancellation (서로 다른 위치에서 부호가 다른 기여가 상쇄) & → overestimation (많은 위치에서 약간씩 기여하는 edge 과대평가) 문제 발생. Figure 2 / Table 1이 그 사례.

3. 수동(manual) 회로 발견 & position-aware 분석

자동화 이전에, 수동 회로 분석은 이미 position을 매우 중요하게 다루고 있었다는 점도 논문에서 언급합니다.

대표 예시:

  • Wang et al. 2023 — IOI 회로
    • 레이어별 attention 패턴을 보고, IO, S1, S2, End 같은 역할(role)을 정의해 수작업으로 회로 구성.
  • Hanna et al. 2024a — Greater-Than 회로
  • Goldowsky-Dill et al. 2023 — Path patching 기반 local circuit 분석

이들은

  • 위치별 역할 토큰을 직접 정의하고
  • attention 패턴을 눈으로 보고 어느 head가 어느 위치에서 어떤 역할을 하는지 수동으로 추적.

한계 (이 논문 관점):

  1. Scalability 부족 — 사람이 일일이 head/position을 살펴야 함
  2. 편향(bias) 가능 — 인간이 눈에 보이는 strong attention만 보고 회로를 구성
  3. strong attention = 실제 causal 효과인지 보장되지 않음 (Jain & Wallace 2019 비판 인용).

→ 이 논문은

  • 수동 방법이 보여준 “position-aware 회로가 중요하다”는 인사이트를 계승하면서,
  • 자동 + 대규모 + faithfulness 정량 평가까지 확장한 연구로 자신을 위치시킴.

4. 이 논문이 전체 landscape에서 차지하는 위치

정리하면, 관련 연구 대비 이 논문의 포지션은:

  1. AtP*, Sparse Feature Circuits, SAE+Transcoder
    • 이미 position-aware 요소를 도입했으나
    • 템플릿 기반 / fully-aligned / 소규모 예시 / node-level 위주
    • 회로 정의·edge 정의·평가 지표 측면에서 제한적.
  2. EAP 계열 자동 회로 발견
    • 매우 실용적이지만 position 무시, cancellation/overestimation 문제.
  3. 수동 회로 분석(IOI, Greater-Than, Path Patching 등)
    • position을 잘 활용하지만, 자동화·scaling 불가.

👉 이 논문:

  • EAP를 position-aware edge 수준으로 확장(PEAP)
  • variable-length & unaligned dataset까지 처리하기 위해 schema + LLM 기반 자동 생성 도입
  • edge-level faithfulness–size trade-off를 대규모 실험으로 정량 검증
  • 결과적으로,
    • “위치를 고려하는 자동 회로 발견” 분야에서
    • 템플릿/소규모/노드 위주 → 실제 task·모델·데이터셋 수준의 edge-level 회로로 스케일업한 첫 시스템에 가깝다.

아래는 ACL 2025 Position-aware Automatic Circuit Discovery 논문의 방법론(Method) 전체를 정리한 내용입니다.


🔷 방법론(Method)

전체 개요

논문의 방법론은 크게 두 축으로 구성된다:

  1. PEAP (Position-aware Edge Attribution Patching)
    • 기존 EAP를 “위치 의존(position-aware)” & “cross-position attention edge”까지 확장한 기법
    • 목적: token 위치별 edge의 causal contribution을 분리하여 회로를 구성
  2. Schema 기반 Position-aware Circuit Discovery (Variable-length 입력 지원)
    • variable-length, non-templatic dataset에서도 position-aware 회로를 만들 수 있도록
    • 입력을 의미적 span 단위로 재정렬하는 “schema” 개념을 도입
    • LLM 기반 automatic schema generation & application 포함

아래에서는 두 기법을 각각 상세히 설명한다.


1. Position-aware Edge Attribution Patching (PEAP)

기존 EAP(Syed et al., 2023)는:

  • edge e = (uv)(u \rightarrow v)의 indirect effect(IE)를
  • direct causal intervention을 gradient 기반 linear approximation으로 계산:

g(e)(zuzu)vM(x)g(e) \approx (z_u^* – z_u)^\top \nabla_v M(x)

단, 이는 “u와 v가 동일 token 위치에 있을 때만” 정의된다.

즉, cross-position attention edge를 다루지 못한다.

PEAP는 바로 이 한계를 해결한다.


1.1 Transformer 내 edge 정의 확장

Transformers에서 attention head htih^i_t는 다음과 같은 구조적 연결을 갖는다:

  • Query qtiq^i_t (단일 위치 t)
  • Keys k1:tik^i_{1:t}
  • Values v1:tiv^i_{1:t}

즉:

htiis causally connected tohti (tt)h^i_t \quad \text{is causally connected to} \quad h^i_{t’} \ (t’ \le t)

따라서 PEAP에서는 다음 세 가지 cross-position edge 유형을 모두 개별 edge로 취급한다:

  1. Value edge : vthtv_{t’} \rightarrow h_t
  2. Key edge : kthtk_{t’} \rightarrow h_t
  3. Query edge : qthtq_t \rightarrow h_t

이때 각 edge를 패치(patching)하여 causal contribution을 계산한다.

이 과정은 Figure 3에 시각화되어 있다.


1.2 Cross-position patching 수식

(1) Value patching (Eq. 4)

zhti=WOi(softmax(qtiKtidk)[v1i,,vti,,vti])z_{h^i_t}^* = W^i_O ( \mathrm{softmax} ( \frac{q^i_t K^i_t{}^\top}{\sqrt{d_k}} ) [v^i_1,\ldots, v^{i*}_{t’}, \ldots, v^i_t] )

(2) Key patching (Eq. 5)

zhti=WOi(softmax(qti[k1i,,kti,,kti]dk)Vti)z_{h^i_t}^* = W^i_O \left( \mathrm{softmax}\left( \frac{q^i_t [k^i_1,\ldots,k^{i*}_{t’},\ldots,k^i_t]^\top}{\sqrt{d_k}} \right) V^i_t \right)

(3) Query patching (Eq. 6)

zhti=WOi(softmax([q1i,,qti,]Ktidk)Vti)z_{h^i_t}^* = W^i_O \left( \mathrm{softmax}\left( \frac{[q^i_1,\ldots,q^{i*}_t,\ldots] K^i_t{}^\top}{\sqrt{d_k}} \right) V^i_t \right)

각각은 “단일 v/k/q vector를 counterfactual 값으로 교체했을 때 head output이 어떻게 변하는지” 평가하는 과정이다.


1.3 Attribution 계산

cross-position edge e의 importance:

g(e)(zz)zM(x)g(e) \approx (z^* – z)^\top \nabla_{z} M(x)

→ 이로써 **모든 position pair (t′→t)**에 대해 edge-level causal score를 계산 가능.

이는 기존 EAP가 가지는 **cancellation & overestimation 문제(Figure 2)**를 해결한다:

  • 위치별 score를 별개로 관리하므로 cancellation이 없다.
  • 모든 위치에서 약하게 기여하는 edge의 과대평가도 사라진다.

1.4 회로 구성 알고리즘 (Greedy Edge Selection)

논문은 기존 Hanna et al. (2024b)의 greedy 절차를 확장하여 사용한다.

절차 요약:

  1. 모든 edge에 대해 g(e) 계산
  2. edge를 중요도 순으로 정렬
  3. 작은 집합부터 시작하여 점진적으로 edge를 추가
  4. soft/hard faithfulness 기준을 보면서 가장 작은 subgraph를 찾음

출력:

position-aware circuit C, 즉 특정 edge(e, t′→t)가 포함될 수도 있고 제외될 수도 있음.


2. Schema 기반 Circuit Discovery (Variable-length 입력 처리)

PEAP는 position-aware이므로, 예시 간 position alignment가 필요하다.

그러나 실제 데이터(IOI, Winobias 등)는:

  • 길이가 다름
  • 구문 구조가 다름
  • 특정 위치의 토큰이 예시마다 의미가 다름

→ 단순 “position index(t)” 기반 회로 발견은 불가능.

그래서 논문은 Schema라는 새로운 개념을 도입한다.


2.1 Schema 정의: 의미 기반 position abstraction

Schema는 입력 예시를 다음과 같은 semantic span으로 재구성한다:

예: IOI

  • Person-A1
  • Person-A2
  • Verb phrase
  • Person-B
  • Target location (end-of-prompt)

예: Greater-Than

  • Subject
  • Year-start-first-two-digits
  • Year-start-last-two-digits
  • Year-end-prefix
  • Answer slot

Schema는 다음 조건을 만족한다:

  1. 모든 예시에서 같은 순서로 나타남
  2. 각 span은 연속된 토큰 구간
  3. 예시마다 길이는 달라도 역할은 동일

이 스키마 구성의 예시는 Figure 4에 나타난다.


2.2 Schema-level Graph 구성

각 예시마다 원래 computation graph GxG_x가 있다.

Schema S는 k개의 span을 가진다고 하자.

다음과 같이 **abstract computation graph GSG_S**를 만든다:

  • k개의 위치만 존재
  • 각 span에 해당하는 모든 token positions을 하나의 abstract position에 매핑
  • 원래 edge(e)의 score들을 해당 abstract edge(eSe_S)에 sum/avg하여 할당

공식:

gS(e)=1|D|xDefx(e)gx(e)g_S(e) = \frac{1}{|D|}\sum_{x\in D} \sum_{e’ \in f_x(e)} g_x(e’)

여기서 fx(e)f_x(e): 예시 x에서 schema edge e에 대응하는 실제 edge들의 모음 (Eq. 7).


2.3 Schema Circuit → 원래 Circuit으로 되돌리기

abstract circuit CSC_S를 구성하면, 각 예시에 대해 이를 다시 원래 위치로 매핑하여:

Cx={e|eCS, efx(e)}C_x = \{ e \mid e’ \in C_S,\ e \in f_x(e’) \}

→ 즉, abstract circuit이 선택한 span-level edge에 대응하는 모든 실제 token-position edge를 회로에 포함.

Figure 5 참고.

이로써 variable-length 데이터에서도 position-aware 회로를 만들 수 있게 된다.


2.4 Schema 자동 생성 (LLM 기반)

핵심 아이디어:

사람이 schema를 만들지 않아도, LLM이 입력 데이터를 읽고 의미 기반 span을 설계하도록 한다.

절차:

  1. 데이터의 일부 subset을 LLM에게 제공
  2. LLM에게 span 목록을 설계하도록 지시
    • spans must be sequential
    • must cover all tokens
    • must appear in same order across examples
  3. 세 가지 다른 subset으로부터 schema 3개 생성 → LLM이 unify하여 final schema 생성
  4. validity check(>=80%) 실패 시 재생성

논문은 Claude 3.5 Sonnet이 가장 잘 작동한다고 보고한다.


2.5 Saliency 기반 Schema 강화

LLM schema가 model의 실제 causal 구조와 어긋날 수 있으므로,

논문은 token-level saliency mask를 첨부하여 schema 설계를 보조한다.

토큰 saliency:

s(t)=etetM(x)s(t) = \| e_t \odot \nabla_{e_t} M(x) \|

softmax-normalized saliency가 평균보다 큰 위치는 mask=1, 그 외는 mask=0:

m(t)=𝟏[es(t)ies(i)>1n]m(t) = \mathbf{1}\left[ \frac{e^{s(t)}}{\sum_i e^{s(i)}} > \frac{1}{n} \right]

LLM은 이 mask를 토대로 “중요한 위치는 별도의 span으로 나눠야 함”을 학습하게 된다.


3. 방법론 전체 흐름 요약 (End-to-End Pipeline)

아래는 논문의 전체 방법론을 한 번에 정리한 End-to-End 알고리즘이다.

Step 1 — Position-aware edge scoring (PEAP)

  1. 입력 x에 대해 model forward
  2. 각 attention head htih^i_t에서
    • 모든 ttt’\le t에 대해 v/k/q patching
  3. 각 patching에 대해 zzz^* – z 계산
  4. gradient zM(x)\nabla_z M(x) 계산
  5. g(e)=(zz)zM(x)g(e) = (z^* – z)^\top \nabla_z M(x)

Step 2 — Dataset-wise schema alignment

  1. LLM이 schema spans 생성
  2. LLM이 각 예시 x에 schema를 적용 (span 위치 매핑)
  3. token-level saliency로 schema 품질 강화

Step 3 — Abstract graph construction

  1. 모든 예시의 edge score를 schema-level edge에 집계
  2. abstract graph GSG_S 완성

Step 4 — Greedy circuit selection

  1. 가장 높은 gS(e)g_S(e)부터 회로에 추가
  2. faithfulness 평가
  3. 최소 edge subset을 찾음

Step 5 — Circuit evaluation on original examples

  1. 각 예시에 대해 schema-level circuit을 원래 edge로 복원
  2. soft/hard faithfulness 평가

🔷 핵심 요약 (연구 기여 관점)

  • PEAP: 최초의 cross-position edge-aware EAP
  • Schema: variable-length 입력에서도 position-aware circuit discovery 가능
  • LLM-based schema generation: 완전 자동화 가능
  • faithfulness–size trade-off가 non-positional 대비 압도적으로 우수 (Figure 6)


게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다