[태그:] ITI

*** Inference-Time Intervention: Eliciting Truthful Answers from a Language Model」 (NeurIPS 2023)

1. 문제의식: 모델은 “알지만 말하지 않는다” 이 논문의 출발점은 Generation–Discrimination Gap (G-D gap) 입니다. LLaMA-7B + TruthfulQA에서: 👉 모델 내부에는 ‘진실 여부’ 정보가 존재하지만, decoding 과정에서 그것이 제대로 반영되지 않는다는 강한 증거를 제시합니다 2. 핵심 아이디어: Inference-Time Intervention (ITI) 한 줄 요약 “진실과 강하게 상관된 attention head의 activation을, inference 중에 살짝 밀어준다.” 중요한 점 3. 방법론 핵심 구조 3.1…

1월 13, 2026

*** Inference-Time Intervention: Eliciting Truthful Answers from a Language Model」 (NeurIPS 2023)