[태그:] instruction vector

  • ** Improving Instruction-Following in Language Models Through Activation Steering (ICLR 2025)

    ** Improving Instruction-Following in Language Models Through Activation Steering (ICLR 2025)

    연구 문제 LLM들은 지식을 잘 알고 있음에도 사용자가 제시한 세부 지시(instruction)를 완전히 준수하지 못한다는 문제가 존재합니다.예) 연구 질문: LLM 내부에는 “지시를 따르도록 만드는 방향성(벡터)”이 존재하며, 이를 활성화 스티어링으로 조정해 inference 시 지시 준수도를 높일 수 있을까? 핵심 아이디어: Activation Steering 기반 Instruction Vector 논문은 아래와 같은 방식으로 지시를 인코딩하는 벡터(steering vector) 를 구성합니다. ① 같은 질문 + 지시 없음…