[태그:] Sparse Feature Coactivation

  • ** Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models (ArXiv 2025)

    ** Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models (ArXiv 2025)

    이 논문은 **Sparse Autoencoder(SAE)의 feature를 개별적으로 보는 것이 아니라, 여러 layer에서 함께(co-activation) 활성화되는 feature들의 집합(component)**을 찾아 semantic module로 해석하는 논문입니다. 기존의 circuit discovery처럼 복잡한 edge attribution(EAP, ACDC, Transcoder Circuit)을 수행하지 않고도 상당히 의미 있는 semantic module을 발견할 수 있다는 것이 핵심입니다.   1. 연구 배경 Mechanistic Interpretability에서는 크게 두 가지 흐름이 있다. (1) Circuit Discovery…