NMF 계열은 최근 Mechanistic Interpretability에서도 SAE(Sparse Autoencoder)의 대안 또는 보완 기법으로 많이 주목받고 있습니다. 특히 최근의 SNMF (Sparse NMF, Semi-NMF) 기반 Circuit Discovery 논문들이 나오면서 구분이 중요해졌습니다.
1. NMF (Non-negative Matrix Factorization)
기본 아이디어
주어진 데이터 행렬 를 두 개의 저차원 행렬로 분해한다.
여기서 , 이며
즉, 모든 원소가 non-negative이다.
최적화 문제
일반적으로
subject to
의미
각 데이터 벡터 는 로 표현된다.
즉
- : latent feature
- : feature activation
예시
얼굴 이미지:
NMF 결과:
처럼 part-based decomposition이 나온다.
왜 해석 가능한가?
PCA는
처럼 양/음 방향이 섞인다.
반면 NMF는
모든 계수가 양수.
즉, “feature의 조합”으로 해석 가능하다.
2. Semi-NMF
NMF의 가장 큰 문제는 이어야 한다는 점이다.
하지만 Transformer activation은
양수/음수가 모두 존재한다.
그래서 나온 것이
Semi-NMF
인데
만 강제하고, H는 자유롭게 둔다.
즉,
최적화
의미
activation coefficient는 양수
feature vector는 양/음 허용
Transformer activation에 적합.
3. Sparse NMF (SNMF)
최근 interpretability 논문에서 가장 많이 사용하는 버전.
기존 NMF 는 dense하다.
예를 들어,
모든 feature가 조금씩 활성화된다.
해석하기 어렵다.
Sparse NMF는 W 또는 H에 sparsity를 추가한다.
목적함수
가장 흔한 형태
subject to
또는
효과
처럼 된다.
즉, 하나의 데이터가 몇 개의 feature만 사용.
4. SAE와의 관계
SAE는 , 를 학습한다.
목적함수
SNMF는 ,
비슷해 보인다.
실제로 최근 논문들은 Sparse NMF ≈ Linear SAE 라고 본다.
5. 최근 Mechanistic Interpretability에서의 사용
예를 들어 최근
Constructing Interpretable Features from Compositional Neuron Groups (2025)에서는
Transformer activation matrix
에 대해 SNMF 수행
결과
- H → feature dictionary
- W → feature activation
그리고 feature 간 계층구조 를 구성한다.
6. NMF vs Semi-NMF vs Sparse NMF 비교
| 방법 | 입력 데이터 | Feature | Activation | Sparse |
|---|---|---|---|---|
| NMF | non-negative | non-negative | non-negative | X |
| Semi-NMF | signed 가능 | signed | non-negative | X |
| Sparse NMF | non-negative | non-negative | sparse non-negative | O |
| Sparse Semi-NMF | signed 가능 | signed | sparse non-negative | O |
Dictionary Learning과의 관계
사실 최근 Mechanistic Interpretability에서 사용하는
- SAE (Sparse Autoencoder)
- Sparse Coding
- Dictionary Learning
- Sparse NMF
- Sparse Semi-NMF
는 모두 본질적으로는
“데이터를 sparse한 feature들의 조합으로 표현한다”
는 동일한 문제를 서로 다른 제약조건(constraint) 하에서 푸는 방법들입니다.
1. Dictionary Learning의 기본 형태
데이터 가 있을 때 로 분해한다.
여기서 는 sparse code, 는 dictionary이다.
최적화는
subject to
정도이다.
Interpretability 관점에서는
가 feature.
가 activation.
2. Sparse Coding = Dictionary Learning
사실상 같은 말이다.
Olshausen & Field (1996)
는 sparse.
이것이 현대 SAE의 조상이다.
3. NMF를 Dictionary Learning 관점으로 보기
NMF
를 쓰면 Dictionary Learning 형태와 완전히 동일하다.
대응 관계
| Dictionary Learning | NMF |
|---|---|
| Dictionary A | H |
| Sparse code Z | W |
즉, 와 는 수학적으로 동일.
차이는 제약조건.
4. Dictionary Learning vs NMF
Dictionary Learning:
Z는 sparse, A는 부호 제한 없음
NMF:
즉, NMF는 Nonnegative Dictionary Learning이라고 볼 수 있다.
5. Semi-NMF와의 관계
Semi-NMF:
, ,
Dictionary Learning으로 보면 , 인데 sparse code가 nonnegative라는 추가 제약만 존재한다.
즉, 에 가깝다.
6. SAE와의 관계
SAE는
Encoder:
Decoder:
Loss:
Dictionary Learning으로 보면
decoder weight 가 dictionary.
Feature:
Activation 가 sparse code.
따라서, SAE는 Neural-network parameterization을 사용한 Dictionary Learning
이다.
7. 왜 최근 MI에서 Dictionary Learning이 중요해졌는가?
Transformer activation x는 superposition 상태.
예:
Neuron 1523
단일 neuron으로 해석 불가능.
Dictionary Learning은
로 분해.
feature 를 직접 해석 가능.
이것이
- SAE
- GemmaScope
- Sparse NMF
- Anthropic Dictionary Learning
의 핵심 아이디어이다.
8. 최근 MI 관점에서의 위치
최근 연구 흐름을 정리하면
↓
↓
↓
이다.
구체적으로
1세대
Knowledge Neurons
단일 neuron 분석
2세대
SAE
3세대
Sparse NMF / Semi-NMF
4세대
Circuit Discovery
EAP, RelP, SNMF Circuit 등
추출.
Mechanistic Interpretability 관점의 핵심 비교
| 방법 | Dictionary | Sparse Code | Nonnegative | Encoder |
|---|---|---|---|---|
| Dictionary Learning | O | O | X | X |
| Sparse Coding | O | O | X | X |
| NMF | O | 부분적 | O | X |
| Sparse NMF | O | O | O | X |
| Semi-NMF | O | 부분적 | activation만 O | X |
| SAE | O | O | 보통 ReLU로 O | O |
답글 남기기