* Self-Critique and Refinement for Faithful Natural Language Explanations (EMNLP 2025)

다음 논문은 LLM이 생성하는 자연어 설명(NLE)의 “faithfulness(충실성)”을 어떻게 개선할 것인가를 다룬 매우 중요한 연구입니다. 핵심은 모델이 스스로 자신의 설명을 비판하고 수정할 수 있는가입니다.


1. 문제 정의 (Why this paper?)

핵심 문제: NLE의 “비충실성 (Unfaithfulness)”

  • LLM은 설명을 잘 “만들어내지만”
  • 그 설명이 실제 모델의 내부 reasoning을 반영하지 않는 경우가 많음

예:

  • 모델은 “playing guitar → performing”으로 판단했지만
  • 설명은 “셔츠 입었다” 같은 irrelevant 이유를 제시

즉, plausible explanation ≠ faithful explanation


2. 핵심 아이디어: SR-NLE

Self-Critique + Refinement

논문에서 제안한 프레임워크:

SR-NLE (Self-critique and Refinement for NLE)

핵심 특징:

  • 외부 supervision 없음
  • 추가 학습 없음
  • 모델 하나만 사용
  • iterative refinement

전체 구조 (2단계)

(1) Answer + Initial Explanation

y=M(x),e0=M(x,y)y = M(x), \quad e_0 = M(x, y)


(2) Iterative Refinement (핵심)

각 iteration r에서:

  1. Feedback 생성
  2. Explanation 수정

er=M(x,y,er1,fr)e_r = M(x, y, e_{r-1}, f_r)

–> 반복 → eKe_K (최종 설명)


3. 핵심 설계: Feedback 방식

논문의 핵심 contribution은 feedback 설계입니다.


(1) Natural Language Feedback (NLF)

  • 모델이 직접 설명을 비판

예:

“설명이 부족하다, 더 구체적으로 써라”

장점: 직관적

단점: vague, 비효율적


(2) Important Word Feedback (IWF): 핵심

“모델이 실제로 중요하게 사용한 입력 단어”를 feedback으로 제공

예:

  • 중요한 단어: playing, performing
  • → explanation 수정 유도

IWF 생성 방식 2가지

(a) Prompt-based

  • LLM에게 직접 중요 단어를 물어봄

(b) Attribution-based (핵심 기여)

  • gradient / attention 기반 importance 계산

Attribution 공식 (핵심 수식)

토큰 단위 attribution:

ai,j=|Attribution(xi,yj)|a_{i,j} = |Attribution(x_i, y_j)|

→ output token별 영향


집계:

ai=jai,ja_i = \sum_j a_{i,j}

→ input token 중요도


word-level:

score(w)=iwaiscore(w) = \sum_{i \in w} a_i

–> top-N 단어 → feedback


4. 실험 설정

  • Dataset:
    • ComVE (commonsense)
    • ECQA (QA)
    • e-SNLI (NLI)
  • 모델:
    • LLaMA, Mistral, Qwen, Falcon (≤10B)

평가 metric (중요)

Counterfactual Test

  1. 입력 단어 수정
  2. prediction 바뀌는지 확인
  3. 설명이 그 단어를 포함하는지 확인

Unfaithfulness 정의

Unfaithfulness=NunfaithfulNcounter\text{Unfaithfulness} = \frac{N_{unfaithful}}{N_{counter}}

–> 낮을수록 좋음


5. 주요 결과

핵심 결과

방법Unfaithfulness
Init-NLE54.81%
SC-NLE49.74%
SR-NLE (best)36.02%

–> 약 18.8% 감소 


중요한 관찰

1. IWF >> NLF

  • 중요 단어 기반 피드백이 훨씬 효과적

2. Prompt-based ≈ Attribution-based

  • surprising result
  • → LLM 자체도 중요한 단어 잘 찾음

Iteration 효과

  • 1st round에서 가장 큰 개선
  • 이후 diminishing return

–> optimal: 2~3 rounds


Faithfulness transition (page 8 그림)

논문 그림4.
  • Unfaithful → Faithful 전환이 훨씬 많음
  • Faithful → Unfaithful는 거의 없음

–> refinement가 안정적


6. 핵심 인사이트

Insight 1: LLM은 “자기 설명을 고칠 수 있다”

  • 단, 적절한 feedback이 필요

Insight 2: “어떤 token이 중요한가”가 핵심

–> explanation quality 문제 ≠ language 문제

–> 실제로는 feature attribution 문제


Insight 3: Explanation length ≠ quality

  • 길어지면 좋아지긴 하지만
  • 중요한 것은 relevant word 포함 여부

7. 기존 연구와 차별점

방식특징
기존fine-tuning / architecture 변경
G-TEXgraph 기반 모델 수정
Cross-Refine다른 모델 사용
SR-NLEself-contained, training-free

–> lightweight + scalable


8. 한계

  1. post-hoc NLE만 대상
  2. counterfactual metric 하나만 사용
  3. attribution 품질 의존
  4. small model만 실험

핵심 한 줄 요약

LLM은 자신의 설명이 틀렸다는 것을 알 수 있으며,

“중요 단어 기반 feedback”을 주면 더 faithful한 설명으로 스스로 개선할 수 있다.


다음은 이 논문의 **방법론(Method)**을 핵심 구성 요소와 수식 중심으로 정리한 것입니다.


Method: SR-NLE (Self-Critique and Refinement for NLE)

1. Problem Formulation

입력 x, 모델 M:

  • 예측: y=M(pans⊕︎x)y = M(p_{ans} \oplus x)
  • 초기 설명: e0=M(pexp⊕︎x⊕︎y)e_0 = M(p_{exp} \oplus x \oplus y)

이후 iterative refinement 수행:

er=M(pref⊕︎x⊕︎y⊕︎er1⊕︎fr)e_r = M(p_{ref} \oplus x \oplus y \oplus e_{r-1} \oplus f_r)


2. Iterative Refinement Loop

각 step r=1,,Kr = 1, \dots, K:

(A) Feedback 생성

(1) Natural Language Feedback (NLF)

frnl=M(pfb⊕︎x⊕︎y⊕︎er1)f_r^{nl} = M(p_{fb} \oplus x \oplus y \oplus e_{r-1})

  • 자유 텍스트 형태 critique

(2) Important Word Feedback (IWF)

핵심 구조:

S=SCORE(x,y),I=SELECT(S,N),fiw=FORMAT(I)S = \text{SCORE}(x, y), \quad I = \text{SELECT}(S, N), \quad f^{iw} = \text{FORMAT}(I) 

  • S: input word importance score
  • I: top-N 중요한 단어 집합

(B) Refinement

er=M(pref⊕︎x⊕︎y⊕︎er1⊕︎fr)e_r = M(p_{ref} \oplus x \oplus y \oplus e_{r-1} \oplus f_r)

  • feedback을 conditioning으로 explanation 업데이트

3. IWF: Attribution-Based Scoring (핵심 기술)

(1) Token-level attribution

출력 token yjy_j 기준:

ai,j=|Attribution(xi,yj|context<j)|a_{i,j} = \left| \text{Attribution}(x_i, y_j \mid context_{<j}) \right| 

  • 절댓값 사용:
    • sign cancel 방지
    • magnitude 중심 중요도 측정

(2) Target-level aggregation

ai=j=1|y|ai,ja_i = \sum_{j=1}^{|y|} a_{i,j} 

  • 전체 answer span에 대한 영향 누적

(3) Word-level aggregation

score(w)=iindices(w)ai\text{score}(w) = \sum_{i \in \text{indices}(w)} a_i 

  • subword → word 매핑

4. SCORE 함수 구현

(A) Prompt-based

S=M(pfb⊕︎x⊕︎y)S = M(p_{fb} \oplus x \oplus y) 

  • LLM이 직접 중요 단어 예측

(B) Attribution-based

두 가지 구현:

  • Integrated Gradients (IG)
  • Attention weights

5. Full Algorithm (요약)

Input: x
1. y ← M(x)
2. e0 ← M(x, y)

for r = 1 ... K:
    fr ← Feedback(x, y, e_{r-1})
    er ← M(x, y, e_{r-1}, fr)

return eK

6. Design 특징 (Method 관점 핵심)

✔ Single-model closed loop

  • feedback + refinement 모두 동일 모델

✔ Training-free

  • fine-tuning 없음
  • purely in-context

✔ Feedback modularity

  • NLF ↔ IWF 교체 가능

✔ Attribution → language bridging

  • feature importance → textual feedback 변환

Method 핵심 요약

SR-NLE는

(1) explanation 생성 → (2) 중요 정보 기반 feedback → (3) iterative refinement

의 closed-loop 구조이며,

특히 input attribution을 feedback으로 변환하는 것이 핵심 메커니즘이다.



게시됨

카테고리

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다