[카테고리:] Dictionary Learning
-
NMF, Semi-NMF, Sparse NMF, Dictionary learning
NMF 계열은 최근 Mechanistic Interpretability에서도 SAE(Sparse Autoencoder)의 대안 또는 보완 기법으로 많이 주목받고 있습니다. 특히 최근의 SNMF (Sparse NMF, Semi-NMF) 기반 Circuit Discovery 논문들이 나오면서 구분이 중요해졌습니다. 1. NMF (Non-negative Matrix Factorization) 기본 아이디어 주어진 데이터 행렬 X∈ℝn×dX \in \mathbb{R}^{n\times d} 를 두 개의 저차원 행렬로 분해한다. X≈WHX \approx WH 여기서 W∈ℝn×kW \in \mathbb{R}^{n\times k},…
-

Dictionary Learning Improves Patch-Free Circuit Discovery (ArXiv 2024)
1. 논문 핵심 이 논문은 Sparse Dictionary Learning/SAE로 얻은 monosemantic feature들 사이의 circuit을 activation patching 없이 발견하는 방법을 제안한다. 대상 모델은 Othello-GPT, 즉 오델로 다음 합법 수 예측을 학습한 6-layer, hidden size 128의 작은 decoder-only Transformer이다. 핵심 주장은 다음이다: residual stream에 write하는 모든 module output, 즉 embedding, attention output, MLP output을 dictionary feature로 분해하면, logit이나…