[태그:] Weight Patching

  • *** Weight Patching: Toward Source-Level Mechanistic Localization in LLMs (ArXiv 2026)

    *** Weight Patching: Toward Source-Level Mechanistic Localization in LLMs (ArXiv 2026)

    이 논문의 핵심 아이디어는 다음 한 문장으로 요약할 수 있습니다. 기존 Mechanistic Interpretability가 “어디에서 신호가 보이는가?”(activation)를 찾았다면, 이 논문은 “그 능력이 실제로 어느 파라미터에 저장되어 있는가?”(weight)를 찾으려 한다.   1. 왜 새로운 방법이 필요한가? 기존 Circuit Discovery 계열: 등은 모두 activation 공간에서 동작한다. 예를 들어: Activation Patching을 하면 → Head C가 중요하다고 판단 하지만 실제로는…