*** Scalable Circuit Learning for Interpreting Large Language Models (ArXiv 2026)

아래 논문은 CircuitLasso라는 방법을 제안합니다. 핵심은 SAE feature 기반 circuit discovery를 intervention 없이 Lasso sparse regression으로 확장 가능하게 수행하는 것입니다.

1. 문제의식

기존 circuit discovery 방법들, 예를 들어 activation patching, EAP, EAP-IG, causal tracing은 edge나 node의 causal effect를 intervention으로 측정합니다. 문제는 두 가지입니다.

첫째, raw neuron은 polysemantic이라서 circuit을 찾더라도 해석이 어렵습니다. 둘째, SAE feature는 monosemantic해서 해석 가능성이 높지만, 차원이 매우 커서 intervention 기반 방법을 그대로 적용하면 계산량이 폭증합니다.

이 논문은 이를 해결하기 위해 다음과 같이 접근합니다.

“정확한 causal effect를 직접 intervention으로 측정하지 말고, 관측된 activation들 사이의 sparse dependency skeleton을 Lasso로 추정하자.”

2. 방법론: CircuitLasso

2.1 기본 아이디어

모델 내부 component들을

$x = [x_1, x_2, \dots, x_N]$

라고 두고, 이들 사이의 관계를 선형 구조방정식처럼 근사합니다.

$X = A^\top X + \epsilon$

여기서

$X \in \mathbb{R}^{N \times M}$ : M개 prompt에서 얻은 component activation
$A \in \mathbb{R}^{N \times N}$ : weighted adjacency matrix
$A[i,j] \neq 0$ : $x_i \rightarrow x_j$ dependency 존재
$\epsilon$ : LLM의 nonlinear computation을 선형으로 근사하면서 생기는 residual

학습 목적식은 다음과 같습니다.

$\hat{A}=\arg\min_A\|X – A^\top X\|_F^2 + \lambda \|A\|_1$

즉, activation reconstruction을 잘하면서도 sparse한 graph를 찾습니다.

중요한 점은 논문이 이것을 “정확한 causal SEM”이라고 주장하지 않는다는 것입니다. LLM은 deterministic하고 attention, LayerNorm, MLP 등으로 nonlinear하기 때문에 $\epsilon$ 은 exogenous noise가 아니라 linearization error입니다. 따라서 CircuitLasso의 목표는 정확한 causal effect 추정이 아니라 강한 dependency skeleton 추정입니다.

3. Neuron-level Circuit Discovery

raw neuron 또는 attention/MLP output을 component로 사용할 때는 transformer의 계산 순서를 이용합니다.

예를 들어 layer i가 layer j보다 앞서면 $i \rightarrow j$ 만 허용하고, $j \rightarrow i$ 는 금지합니다. 이를 위해 adjacency matrix A를 block upper triangular 형태로 제한합니다.

$\hat{A}=\arg\min_A\|\tilde{H} – A^\top \tilde{H}\|_F^2 + \lambda\|A\|_1$

subject to A being block upper triangular.

이 제약 덕분에 별도의 acyclicity constraint를 풀 필요가 없습니다. 즉, NOTEARS류 continuous causal discovery처럼 DAG constraint를 직접 최적화하지 않고, transformer의 feed-forward order를 이용해 DAG 구조를 강제합니다.

계산 복잡도는 대략

$O\left(\frac{M L(L-1)d^2}{2\sqrt{\epsilon}}\right)$

입니다.

EAP-IG는 prompt마다 forward/backward intervention이 필요하지만, CircuitLasso는 activation collection 이후 sparse regression만 수행하므로 훨씬 빠릅니다.

4. SAE Feature-level Circuit Discovery

논문의 핵심 확장은 SAE feature circuit입니다.

SAE는 neuron activation $h \in \mathbb{R}^d$ 를 sparse feature $z \in \mathbb{R}^D, D \gg d$ 로 변환합니다.

$z = \sigma(W_{\text{enc}}h + b_{\text{enc}})$

$\hat{h} = W_{\text{dec}}z + b_{\text{dec}}$

CircuitLasso는 layer i의 SAE feature $z_i$ 와 layer j의 SAE feature $z_j$ 사이의 dependency를 다음 Lasso 문제로 학습합니다.

$\hat{A}_{i,j}=\arg\min_{A_{i,j}}\|Z_j – A_{i,j}^\top Z_i\|_F^2+\lambda\|A_{i,j}\|_1$

여기서 $A_{i,j} \in \mathbb{R}^{D \times D}$ 입니다.

즉, layer i의 어떤 semantic feature가 layer j의 어떤 semantic feature로 전달되는지를 sparse하게 찾습니다.

또한 downstream target y에 대해서도 feature-to-output 관계를 학습합니다.

$\hat{A}_{i,y}=\arg\min_{A_{i,y}}L_{\text{pred}}(y, A_{i,y}^\top Z_i)+\lambda\|A_{i,y}\|_1$

이를 통해 특정 prediction에 중요한 SAE feature를 찾고, 나중에는 그 feature를 제거하거나 수정하여 bias mitigation이나 domain generalization에 활용합니다.

5. 실험 1: InterpBench에서 Circuit Discovery 성능

설정

비교 대상은 다음입니다.

방법	설명
EAP	Edge Attribution Patching
EAP-IG	Integrated Gradient 기반 EAP
CircuitLasso-linear	제안 방법의 선형 버전
CircuitLasso-nonlinear	비선형 확장 버전

벤치마크는 InterpBench입니다. 16개 synthetic case와 실제 IOI task를 사용합니다.

평가 지표는 다음입니다.

SHD, Structural Hamming Distance: 정답 circuit과 예측 circuit의 graph 차이. 낮을수록 좋음.
Runtime: 실행 시간. 낮을수록 좋음.

결과

평균 SHD는 다음과 같습니다.

방법	평균 SHD
EAP	3.61
EAP-IG	2.98
CircuitLasso-linear	3.16
CircuitLasso-nonlinear	2.84

CircuitLasso-linear는 EAP-IG와 거의 같은 수준의 구조 정확도를 보입니다. CircuitLasso-nonlinear는 SHD가 가장 낮지만 계산 비용이 큽니다.

평균 runtime은 다음과 같습니다.

방법	평균 runtime
EAP	33.7초
EAP-IG	49.1초
CircuitLasso-linear	16.3초

즉, CircuitLasso-linear는

EAP-IG보다 약 3.0배 빠름
EAP보다 약 2.1배 빠름
정확도는 EAP-IG와 통계적으로 비슷함

이라는 결과를 보입니다.

논문의 핵심 주장인 “efficiency at parity of accuracy”, 즉 정확도는 유지하면서 훨씬 빠르다는 주장을 뒷받침합니다.

6. 실험 2: CoLA에서 SAE Feature Circuit 해석

설정

Dataset: CoLA
Model: GPT-2 small
SAE: OpenAI pre-trained SAE
목적: 문법성 판단 task에서 GPT-2 small 내부 SAE feature들이 어떻게 연결되는지 분석

논문은 CoLA가 mechanistic interpretability에서 거의 다뤄지지 않은 task라고 설명합니다.

방법

마지막 layer의 prediction 관련 feature를 $|A_{L,y}|$ 기준으로 고르고, 그 feature의 parent를 이전 layer로 역추적합니다.

즉,

$z_{12} \leftarrow z_{11} \leftarrow z_{10} \leftarrow z_9 \leftarrow z_8$

형태로 feature circuit tree를 구성합니다.

각 feature는 activation이 강한 token들을 보고 사람이 해석 가능한 label을 붙입니다.

예:

-self
himself / itself
hunger / thirst
eat / meals / gourmet
said that
punctuation

관찰 결과

논문은 SAE circuit에서 세 가지 현상을 관찰합니다.

1) Persistence

동일한 semantic concept이 여러 layer에 걸쳐 유지됩니다.

예를 들어 -self feature가 layer 12, 11, 10, 9, 8에 걸쳐 계속 나타납니다. 이는 모델이 특정 의미 개념을 layer를 지나며 유지한다는 것을 보여줍니다.

2) Merging and Dropping

상위 layer feature는 여러 하위 layer feature를 merge하거나 일부 의미를 drop합니다.

예를 들어 어떤 feature는 -self와 be/was 관련 feature를 합쳐 새로운 feature가 되고, 어떤 feature는 -self 중에서도 himself만 유지하고 다른 reflexive form은 버립니다.

이는 SAE circuit이 단순한 activation flow가 아니라 semantic composition/decomposition을 보여줄 수 있음을 의미합니다.

3) Cause-effect and Spurious Correlation

일부 feature path는 인간이 보기에도 인과적으로 타당합니다.

예:

$\text{hunger/thirst} \rightarrow \text{ate/eat}$

하지만 일부 path는 computation order 제약 때문에 인간 관점에서는 anti-causal처럼 보일 수도 있습니다.

또한 -self feature와 hunger/thirst feature 사이처럼 dataset co-occurrence 때문에 생긴 spurious correlation도 발견됩니다.

이 점은 중요합니다. CircuitLasso는 causal intervention 없이 observational regression을 사용하기 때문에, 진짜 causal relation과 spurious dependency를 모두 포착할 수 있습니다. 따라서 결과 해석 시 “causal effect”가 아니라 “strong dependency skeleton”으로 보는 것이 맞습니다.

7. Faithfulness / Completeness 평가

CoLA에서 learned SAE circuit의 품질을 평가하기 위해 Marks et al. 방식의 faithfulness와 completeness를 사용합니다.

Faithfulness: 선택한 circuit만 남겼을 때 원래 모델 behavior를 얼마나 유지하는가
Completeness: circuit을 제거했을 때 behavior가 얼마나 사라지는가

결과적으로 CircuitLasso는 intervention-based SHIFT와 비슷한 수준의 faithfulness/completeness를 보였습니다.

추가로 CircuitLasso는 edge coefficient를 직접 학습하므로 edge ablation도 가능합니다. SHIFT는 주로 node ablation 중심이지만, CircuitLasso는 “어떤 SAE feature node가 중요한가”뿐 아니라 “어떤 feature-to-feature edge가 중요한가”도 평가할 수 있습니다.

8. 실험 3: Bias-in-Bios Domain Generalization

설정

Dataset은 Bias-in-Bios입니다.

목표는 biography에서 profession을 예측하는 것입니다. 문제는 training set에 gender-profession spurious correlation이 있다는 점입니다.

모델은 다음 세 가지입니다.

Pythia-70M
Gemma-2-2B
Gemma-2-9B

비교 방법은 다음입니다.

방법	설명
ORIGINAL	원래 classifier
CBP	기존 debiasing 방법
SHIFT	SAE feature intervention 기반 방법
SHIFT-retrain	SHIFT 후 classifier 재학습
CircuitLasso	CircuitLasso로 gender-correlated feature 제거
CircuitLasso-retrain	제거 후 classifier 재학습
ORACLE	balanced set으로 학습한 upper bound

방법

CircuitLasso는 target prediction에 중요한 SAE feature를 $|A_{i,y}|$ 로 rank합니다. 이후 사람이 gender-correlated feature를 식별하고 zero-out합니다.

그 다음 두 가지 방식으로 평가합니다.

CircuitLasso: feature 제거 후 기존 classifier 사용
CircuitLasso-retrain: feature 제거 후 classifier 재학습

Runtime 결과

방법	Pythia-70M	Gemma-2-2B	Gemma-2-9B
SHIFT	257.6s	371.2s	908.4s
CircuitLasso	36.5s	47.2s	107.4s

CircuitLasso는 SHIFT보다 훨씬 빠릅니다. 특히 모델이 커질수록 차이가 커집니다.

Accuracy 결과

대표 결과는 다음과 같습니다.

모델	CircuitLasso-retrain Profession Acc.	SHIFT-retrain Profession Acc.
Pythia-70M	94.2	93.1
Gemma-2-2B	95.1	94.2
Gemma-2-9B	96.9	96.0

Worst-group accuracy도 경쟁력이 있습니다.

모델	CircuitLasso-retrain Worst-group	SHIFT-retrain Worst-group
Pythia-70M	88.7	89.0
Gemma-2-2B	92.9	92.4
Gemma-2-9B	91.5	90.3

Gender predictability는 50%에 가까울수록 gender leakage가 적다는 뜻인데, CircuitLasso 계열은 대체로 50% 근처를 유지합니다.

즉, CircuitLasso는 SHIFT와 비슷하거나 약간 더 좋은 accuracy를 훨씬 낮은 비용으로 달성합니다.

9. 논문의 핵심 기여

정리하면 이 논문의 기여는 세 가지입니다.

Circuit discovery를 sparse regression 문제로 재정식화
- intervention 없이 observational activation만 사용
- Lasso로 sparse dependency graph 학습
SAE feature circuit으로 확장
- raw neuron보다 해석 가능한 monosemantic feature 수준에서 circuit 추출
- feature persistence, merging, dropping, spurious correlation 등을 분석 가능
효율성 입증
- InterpBench에서 EAP-IG 수준의 SHD를 훨씬 빠르게 달성
- Bias-in-Bios에서 SHIFT보다 훨씬 빠르면서 비슷하거나 더 좋은 성능

10. 한계와 주의점

이 논문에서 가장 중요한 한계는 다음입니다.

CircuitLasso의 edge는 정확한 causal effect가 아닙니다.

논문도 이를 명확히 인정합니다. Lasso coefficient는 nonlinear transformer computation의 sparse linear approximation입니다. 따라서 edge는 다음 의미에 가깝습니다.

“해당 feature가 다른 feature 또는 prediction target을 선형적으로 잘 설명하는 강한 dependency”

즉, EAP나 activation patching처럼 실제 intervention을 통해 “이 edge를 바꾸면 output이 얼마나 바뀌는가”를 직접 측정한 것은 아닙니다.

따라서 CircuitLasso는 다음 용도에 적합합니다.

대규모 SAE feature space에서 빠른 circuit 후보 탐색
population-level circuit skeleton 추출
feature-level semantic propagation 분석
downstream editing/debiasing 후보 feature 선정

반면 다음 용도에는 추가 검증이 필요합니다.

per-prompt exact causal attribution
edge별 정량적 causal effect 추정
intervention으로 검증된 mechanistic claim

11. 총평

이 논문은 SAE feature circuit discovery의 scalability 문제를 정면으로 다룬 논문입니다. EAP/EAP-IG 계열이 causal faithfulness 측면에서는 강하지만 SAE feature 차원에서는 비용이 너무 크다는 문제가 있는데, CircuitLasso는 이를 sparse regression surrogate로 우회합니다.

가장 좋은 활용 방식은 다음과 같습니다.

CircuitLasso로 대규모 SAE feature circuit 후보를 빠르게 찾고,
중요한 subgraph만 EAP-IG나 activation patching으로 causal 검증한다.

따라서 이 논문은 SAE 기반 mechanistic interpretability를 대규모 모델과 대규모 feature space로 확장하기 위한 실용적 방법론으로 볼 수 있습니다.