[태그:] Relevance Patching

*** RelP: Faithful and Efficient Circuit Discovery in Language Models via Relevance Patching (ArXiv 2025)

논문 개요 이 논문은 기존 Activation Patching과 Attribution Patching의 장단점을 결합하려는 논문입니다. 핵심 아이디어는 다음과 같습니다. Attribution Patching의 gradient 항을 Layer-wise Relevance Propagation, 즉 LRP 기반 propagation coefficient로 대체하면, Activation Patching에 더 가깝게 causal effect를 근사하면서도 계산 비용은 거의 그대로 유지할 수 있다. 논문에서 제안하는 방법 이름은 Relevance Patching, RelP입니다. 저자들은 RelP가 Activation Patching보다 훨씬…

6월 21, 2026

WordPress로 제작함

개인정보처리방침

본 사이트는 Google AdSense를 사용하여 광고를 게재합니다.

Google은 쿠키를 사용하여 사용자의 이전 방문 기록을 기반으로 맞춤 광고를 제공합니다.

사용자는 광고 설정에서 맞춤 광고를 해제할 수 있으며,

Google의 개인정보처리방침은 https://policies.google.com/privacy 에서 확인할 수 있습니다.

본 사이트는 댓글 또는 문의 기능을 통해 최소한의 개인정보를 수집할 수 있으며,

수집된 정보는 문의 응답 목적 외에는 사용되지 않습니다.

*** RelP: Faithful and Efficient Circuit Discovery in Language Models via Relevance Patching (ArXiv 2025)