[태그:] Transformer Circuits
-

* A Mathematical Framework for Transformer Circuits (Transformer Circuits 2021)
이 논문은 오늘날 Mechanistic Interpretability 분야의 출발점 중 하나로 평가받습니다. 특히 이후의 등의 연구들이 사실상 이 논문의 수학적 프레임워크 위에서 발전되었습니다. 1. 논문의 핵심 질문 Transformer 내부를 회로(circuit)처럼 해석할 수 있는가? 기존 Transformer 수식: Q=XWQQ=XW_Q K=XWKK=XW_K V=XWVV=XW_V A=softmax(QKT)A=\text{softmax}(QK^T) Y=AVWOY=AVW_O 은 학습과 구현에는 편하지만, “이 head가 실제로 무엇을 하는가?” 를 이해하기 어렵습니다. 저자들은 Transformer를 “token…