[태그:] Steering off Course

  • ** Steering off Course: Reliability Challenges in Steering Language Models (ACL 2025)

    ** Steering off Course: Reliability Challenges in Steering Language Models (ACL 2025)

    다음은 ACL 2025 논문 “Steering off Course: Reliability Challenges in Steering Language Models”의 핵심 내용 요약입니다. 1. 연구 배경 및 동기 LM Steering의 등장 문제의식 2. 연구 목표와 실험 구성 목표 주요 실험 세팅 실험 요소 설명 모델 패밀리 LLaMA, Qwen, OLMo, Pythia, Mistral 등 평가 데이터셋 TruthfulQA, FACTOR (사실성 평가) ICL(Task Vector) 11개의 언어 및 사실성…