[태그:] Circuit Encoder

** Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits (ArXiv 2025)

이 논문은 “LLM이 자신의 답이 틀렸다는 것을 스스로 예측할 수 있는가?”라는 질문을 다룹니다. 핵심 아이디어는 텍스트나 외부 judge 모델이 아니라 LLM 내부 activation(숨겨진 상태와 attention)에서 직접 오류 신호를 읽어내는 것입니다. 아래에서 연구 문제 → 핵심 아이디어 → 방법론(Gnosis) → 실험 결과 → 연구적 의미 순서로 정리합니다. 1. 연구 문제 (Problem) LLM의 대표적인 문제: 하지만 LLM은…

3월 16, 2026

** Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits (ArXiv 2025)