[태그:] Weight Patching

*** Weight Patching: Toward Source-Level Mechanistic Localization in LLMs (ArXiv 2026)

이 논문의 핵심 아이디어는 다음 한 문장으로 요약할 수 있습니다. 기존 Mechanistic Interpretability가 “어디에서 신호가 보이는가?”(activation)를 찾았다면, 이 논문은 “그 능력이 실제로 어느 파라미터에 저장되어 있는가?”(weight)를 찾으려 한다. 1. 왜 새로운 방법이 필요한가? 기존 Circuit Discovery 계열: 등은 모두 activation 공간에서 동작한다. 예를 들어: Activation Patching을 하면 → Head C가 중요하다고 판단 하지만 실제로는…

6월 19, 2026

WordPress로 제작함

개인정보처리방침

본 사이트는 Google AdSense를 사용하여 광고를 게재합니다.

Google은 쿠키를 사용하여 사용자의 이전 방문 기록을 기반으로 맞춤 광고를 제공합니다.

사용자는 광고 설정에서 맞춤 광고를 해제할 수 있으며,

Google의 개인정보처리방침은 https://policies.google.com/privacy 에서 확인할 수 있습니다.

본 사이트는 댓글 또는 문의 기능을 통해 최소한의 개인정보를 수집할 수 있으며,

수집된 정보는 문의 응답 목적 외에는 사용되지 않습니다.

*** Weight Patching: Toward Source-Level Mechanistic Localization in LLMs (ArXiv 2026)