NMF 계열은 최근 Mechanistic Interpretability에서도 SAE(Sparse Autoencoder)의 대안 또는 보완 기법으로 많이 주목받고 있습니다. 특히 최근의 SNMF (Sparse NMF, Semi-NMF) 기반 Circuit Discovery 논문들이 나오면서 구분이 중요해졌습니다.

1. NMF (Non-negative Matrix Factorization)

기본 아이디어

주어진 데이터 행렬 $X \in \mathbb{R}^{n\times d}$ 를 두 개의 저차원 행렬로 분해한다.

$X \approx WH$

여기서 $W \in \mathbb{R}^{n\times k}$ , $H \in \mathbb{R}^{k\times d}$ 이며 $W \ge 0,\quad H \ge 0$

즉, 모든 원소가 non-negative이다.

최적화 문제

일반적으로

$\min_{W,H}\|X-WH\|_F^2$

subject to $W\ge0,\quad H\ge0$

의미

각 데이터 벡터 $x_i$ 는 $x_i \approx \sum_{j=1}^{k}W_{ij} H_j$ 로 표현된다.

즉

$H_j$ : latent feature
$W_{ij}$ : feature activation

예시

얼굴 이미지:

$X=\begin{bmatrix}\text{face}_1\\ \text{face}_2\\…\end{bmatrix}$

NMF 결과:

$H=\{\text{눈},\text{코},\text{입},\text{턱}\}$ 처럼 part-based decomposition이 나온다.

왜 해석 가능한가?

PCA는

$x = +a_1 v_1 – a_2 v_2 + …$ 처럼 양/음 방향이 섞인다.

반면 NMF는

$x = a_1 f_1 + a_2 f_2 + …$ 모든 계수가 양수.

즉, “feature의 조합”으로 해석 가능하다.

2. Semi-NMF

NMF의 가장 큰 문제는 $X\ge0$ 이어야 한다는 점이다.

하지만 Transformer activation은

$X \in \mathbb{R}$ 양수/음수가 모두 존재한다.

그래서 나온 것이

Semi-NMF

$X \approx WH$ 인데

$W\ge0$ 만 강제하고, H는 자유롭게 둔다.

즉,

$W \in \mathbb{R}^{n\times k}_{+}$

$H \in \mathbb{R}^{k\times d}$

최적화

$\min_{W\ge0,H}\|X-WH\|_F^2$

의미

activation coefficient는 양수

feature vector는 양/음 허용

Transformer activation에 적합.

3. Sparse NMF (SNMF)

최근 interpretability 논문에서 가장 많이 사용하는 버전.

기존 NMF $X \approx WH$ 는 dense하다.

예를 들어,

$W_i=[0.3,0.5,0.2,0.1,0.4]$

모든 feature가 조금씩 활성화된다.

해석하기 어렵다.

Sparse NMF는 W 또는 H에 sparsity를 추가한다.

목적함수

가장 흔한 형태

$\min_{W,H}\|X-WH\|_F^2+\lambda \|W\|_1$

subject to $W,H\ge0$

또는

$\min\|X-WH\|_F^2+\lambda_W\|W\|_1+\lambda_H\|H\|_1$

효과

$W_i=[0,0,0.9,0,0]$

처럼 된다.

즉, 하나의 데이터가 몇 개의 feature만 사용.

4. SAE와의 관계

SAE는 $x \rightarrow z$ , $z \text{ sparse}$ 를 학습한다.

목적함수

$\|x-\hat{x}\|^2+\lambda \|z\|_1$

SNMF는 $X\approx WH$ , $W \text{ sparse}$

비슷해 보인다.

실제로 최근 논문들은 Sparse NMF ≈ Linear SAE 라고 본다.

5. 최근 Mechanistic Interpretability에서의 사용

예를 들어 최근

Constructing Interpretable Features from Compositional Neuron Groups (2025)에서는

Transformer activation matrix

$A \in \mathbb{R}^{N\times D}$ 에 대해 SNMF 수행

$A \approx WH$

결과

H → feature dictionary
W → feature activation

그리고 feature 간 계층구조 $Feature_A\rightarrow Feature_B$ 를 구성한다.

6. NMF vs Semi-NMF vs Sparse NMF 비교

방법	입력 데이터	Feature	Activation	Sparse
NMF	non-negative	non-negative	non-negative	X
Semi-NMF	signed 가능	signed	non-negative	X
Sparse NMF	non-negative	non-negative	sparse non-negative	O
Sparse Semi-NMF	signed 가능	signed	sparse non-negative	O

Dictionary Learning과의 관계

사실 최근 Mechanistic Interpretability에서 사용하는

SAE (Sparse Autoencoder)
Sparse Coding
Dictionary Learning
Sparse NMF
Sparse Semi-NMF

는 모두 본질적으로는

“데이터를 sparse한 feature들의 조합으로 표현한다”

는 동일한 문제를 서로 다른 제약조건(constraint) 하에서 푸는 방법들입니다.

1. Dictionary Learning의 기본 형태

데이터 $X \in \mathbb{R}^{n\times d}$ 가 있을 때 $X \approx ZA$ 로 분해한다.

여기서 $Z \in \mathbb{R}^{n\times k}$ 는 sparse code, $A \in \mathbb{R}^{k\times d}$ 는 dictionary이다.

최적화는

$\min_{Z,A}\|X-ZA\|_F^2+\lambda \|Z\|_1$

subject to $\|A_i\|_2=1$

정도이다.

Interpretability 관점에서는

$A_i$ 가 feature.

$Z_{ij}$ 가 activation.

2. Sparse Coding = Dictionary Learning

사실상 같은 말이다.

Olshausen & Field (1996)

$x=\sum_i z_i a_i$

$z_i$ 는 sparse.

이것이 현대 SAE의 조상이다.

3. NMF를 Dictionary Learning 관점으로 보기

NMF

$X \approx WH$ 를 쓰면 Dictionary Learning 형태와 완전히 동일하다.

대응 관계

Dictionary Learning	NMF
Dictionary A	H
Sparse code Z	W

즉, $X \approx ZA$ 와 $X \approx WH$ 는 수학적으로 동일.

차이는 제약조건.

4. Dictionary Learning vs NMF

Dictionary Learning:

Z는 sparse, A는 부호 제한 없음

NMF:

$W,H \ge 0$

즉, NMF는 Nonnegative Dictionary Learning이라고 볼 수 있다.

5. Semi-NMF와의 관계

Semi-NMF:

$X \approx WH$ , $W \ge 0$ , $H \in \mathbb{R}$

Dictionary Learning으로 보면 $Z=W$ , $A=H$ 인데 sparse code가 nonnegative라는 추가 제약만 존재한다.

즉, $\text{Semi-NMF}=\text{Nonnegative Sparse Coding}$ 에 가깝다.

6. SAE와의 관계

SAE는

Encoder: $z=f(W_e x)$

Decoder: $\hat{x}=W_d z$

Loss: $\|x-\hat{x}\|^2+\lambda \|z\|_1$

Dictionary Learning으로 보면

decoder weight $W_d$ 가 dictionary.

Feature: $a_i=W_d[i]$

Activation $z_i$ 가 sparse code.

따라서, SAE는 Neural-network parameterization을 사용한 Dictionary Learning

이다.

7. 왜 최근 MI에서 Dictionary Learning이 중요해졌는가?

Transformer activation x는 superposition 상태.

예:

Neuron 1523

$=\text{capital city}+\text{European country}+\text{politics}$

단일 neuron으로 해석 불가능.

Dictionary Learning은

$x=z_1 a_1+z_2 a_2+z_3 a_3$ 로 분해.

feature $a_i$ 를 직접 해석 가능.

이것이

SAE
GemmaScope
Sparse NMF
Anthropic Dictionary Learning

의 핵심 아이디어이다.

8. 최근 MI 관점에서의 위치

최근 연구 흐름을 정리하면

$\text{Neuron}$

↓

$\text{Dictionary Learning}$

↓

$\text{Feature}$

↓

$\text{Circuit}$

이다.

구체적으로

1세대

Knowledge Neurons

단일 neuron 분석

2세대

SAE

$x \rightarrow \text{feature}$

3세대

Sparse NMF / Semi-NMF

$\text{neuron group}\rightarrow\text{feature}$

4세대

Circuit Discovery

EAP, RelP, SNMF Circuit 등

$\text{feature}\rightarrow\text{circuit}$ 추출.

Mechanistic Interpretability 관점의 핵심 비교

방법	Dictionary	Sparse Code	Nonnegative	Encoder
Dictionary Learning	O	O	X	X
Sparse Coding	O	O	X	X
NMF	O	부분적	O	X
Sparse NMF	O	O	O	X
Semi-NMF	O	부분적	activation만 O	X
SAE	O	O	보통 ReLU로 O	O

NMF, Semi-NMF, Sparse NMF, Dictionary learning

1. NMF (Non-negative Matrix Factorization)

기본 아이디어

최적화 문제

의미

예시

왜 해석 가능한가?

2. Semi-NMF

Semi-NMF

의미

3. Sparse NMF (SNMF)

목적함수

효과

4. SAE와의 관계

5. 최근 Mechanistic Interpretability에서의 사용

6. NMF vs Semi-NMF vs Sparse NMF 비교

Dictionary Learning과의 관계

1. Dictionary Learning의 기본 형태

2. Sparse Coding = Dictionary Learning

3. NMF를 Dictionary Learning 관점으로 보기

4. Dictionary Learning vs NMF

5. Semi-NMF와의 관계

6. SAE와의 관계

7. 왜 최근 MI에서 Dictionary Learning이 중요해졌는가?

8. 최근 MI 관점에서의 위치

1세대

2세대

3세대

4세대

Mechanistic Interpretability 관점의 핵심 비교

댓글

답글 남기기 응답 취소