[카테고리:] Nonnegative Matrix Factorization
-
NMF, Semi-NMF, Sparse NMF, Dictionary learning
NMF 계열은 최근 Mechanistic Interpretability에서도 SAE(Sparse Autoencoder)의 대안 또는 보완 기법으로 많이 주목받고 있습니다. 특히 최근의 SNMF (Sparse NMF, Semi-NMF) 기반 Circuit Discovery 논문들이 나오면서 구분이 중요해졌습니다. 1. NMF (Non-negative Matrix Factorization) 기본 아이디어 주어진 데이터 행렬 X∈ℝn×dX \in \mathbb{R}^{n\times d} 를 두 개의 저차원 행렬로 분해한다. X≈WHX \approx WH 여기서 W∈ℝn×kW \in \mathbb{R}^{n\times k},…
-

*** Constructing Interpretable Features from Compositional Neuron Groups (ArXiv 2025)
이 논문은 최근 SAE(Sparse Autoencoder) 중심의 mechanistic interpretability 연구에 대해 상당히 흥미로운 문제 제기를 합니다. 핵심 질문은: “LLM 내부의 의미(concept)를 표현하는 진짜 단위(unit)는 무엇인가?” 입니다. 기존에는 등이 주로 사용되었는데, 저자들은 “실제로는 여러 neuron들이 조합(composition)되어 하나의 개념을 표현한다” 고 주장하며, MLP activation을 SNMF(Semi-Nonnegative Matrix Factorization)로 분해하여 neuron group 기반 feature를 찾는 방법을 제안합니다. 1. 논문의…