[태그:] Sparse Feature Coactivation

** Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models (ArXiv 2025)

이 논문은 **Sparse Autoencoder(SAE)의 feature를 개별적으로 보는 것이 아니라, 여러 layer에서 함께(co-activation) 활성화되는 feature들의 집합(component)**을 찾아 semantic module로 해석하는 논문입니다. 기존의 circuit discovery처럼 복잡한 edge attribution(EAP, ACDC, Transcoder Circuit)을 수행하지 않고도 상당히 의미 있는 semantic module을 발견할 수 있다는 것이 핵심입니다. 1. 연구 배경 Mechanistic Interpretability에서는 크게 두 가지 흐름이 있다. (1) Circuit Discovery…

6월 26, 2026

WordPress로 제작함

개인정보처리방침

본 사이트는 Google AdSense를 사용하여 광고를 게재합니다.

Google은 쿠키를 사용하여 사용자의 이전 방문 기록을 기반으로 맞춤 광고를 제공합니다.

사용자는 광고 설정에서 맞춤 광고를 해제할 수 있으며,

Google의 개인정보처리방침은 https://policies.google.com/privacy 에서 확인할 수 있습니다.

본 사이트는 댓글 또는 문의 기능을 통해 최소한의 개인정보를 수집할 수 있으며,

수집된 정보는 문의 응답 목적 외에는 사용되지 않습니다.

** Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models (ArXiv 2025)