[카테고리:] Dictionary Learning

NMF, Semi-NMF, Sparse NMF, Dictionary learning

NMF 계열은 최근 Mechanistic Interpretability에서도 SAE(Sparse Autoencoder)의 대안 또는 보완 기법으로 많이 주목받고 있습니다. 특히 최근의 SNMF (Sparse NMF, Semi-NMF) 기반 Circuit Discovery 논문들이 나오면서 구분이 중요해졌습니다. 1. NMF (Non-negative Matrix Factorization) 기본 아이디어 주어진 데이터 행렬 X∈ℝn×dX \in \mathbb{R}^{n\times d} 를 두 개의 저차원 행렬로 분해한다. X≈WHX \approx WH 여기서 W∈ℝn×kW \in \mathbb{R}^{n\times k},…

6월 25, 2026
Dictionary Learning Improves Patch-Free Circuit Discovery (ArXiv 2024)

1. 논문 핵심 이 논문은 Sparse Dictionary Learning/SAE로 얻은 monosemantic feature들 사이의 circuit을 activation patching 없이 발견하는 방법을 제안한다. 대상 모델은 Othello-GPT, 즉 오델로 다음 합법 수 예측을 학습한 6-layer, hidden size 128의 작은 decoder-only Transformer이다. 핵심 주장은 다음이다: residual stream에 write하는 모든 module output, 즉 embedding, attention output, MLP output을 dictionary feature로 분해하면, logit이나…

6월 24, 2026

WordPress로 제작함

개인정보처리방침

본 사이트는 Google AdSense를 사용하여 광고를 게재합니다.

Google은 쿠키를 사용하여 사용자의 이전 방문 기록을 기반으로 맞춤 광고를 제공합니다.

사용자는 광고 설정에서 맞춤 광고를 해제할 수 있으며,

Google의 개인정보처리방침은 https://policies.google.com/privacy 에서 확인할 수 있습니다.

본 사이트는 댓글 또는 문의 기능을 통해 최소한의 개인정보를 수집할 수 있으며,

수집된 정보는 문의 응답 목적 외에는 사용되지 않습니다.

NMF, Semi-NMF, Sparse NMF, Dictionary learning