[태그:] Matryoshka SAE
-

** Learning Multi-Level Features with Matryoshka Sparse Autoencoders (ICML 2025)
이 논문은 최근 Sparse Autoencoder(SAE) 연구에서 **가장 중요한 문제인 “dictionary를 크게 만들면 오히려 feature quality가 나빠지는 현상”**을 해결하려는 논문입니다. 1. 연구 배경 기존 SAE는 dictionary size를 크게 만들수록 reconstruction은 좋아집니다. 예를 들어, dictionary를 계속 늘리면 activation reconstruction error는 감소합니다. 하지만 interpretability에서는 문제가 생깁니다. 논문에서는 이를 크게 3가지 pathology로 설명합니다. (1) Feature Splitting 원래 Punctuation 하나의…