[태그:] Relevance Patching

  • *** RelP: Faithful and Efficient Circuit Discovery in Language Models via Relevance Patching (ArXiv 2025)

    *** RelP: Faithful and Efficient Circuit Discovery in Language Models via Relevance Patching (ArXiv 2025)

    논문 개요 이 논문은 기존 Activation Patching과 Attribution Patching의 장단점을 결합하려는 논문입니다. 핵심 아이디어는 다음과 같습니다. Attribution Patching의 gradient 항을 Layer-wise Relevance Propagation, 즉 LRP 기반 propagation coefficient로 대체하면, Activation Patching에 더 가깝게 causal effect를 근사하면서도 계산 비용은 거의 그대로 유지할 수 있다. 논문에서 제안하는 방법 이름은 Relevance Patching, RelP입니다. 저자들은 RelP가 Activation Patching보다 훨씬…