[카테고리:] LLM

* TTRL: Test-Time Reinforcement Learning (NeurIPS 2025)

논문 **“TTRL: Test-Time Reinforcement Learning” (NeurIPS 2025)**는 라벨이 없는 test 데이터에서 RL을 수행하여 LLM을 test-time에 self-evolve 시키는 방법을 제안합니다 . 아래에서 핵심 아이디어, 수식, 실험 결과, 그리고 왜 작동하는지까지 체계적으로 정리하겠습니다. 1. 문제 설정: Test-Time RL 기존 RL 기반 reasoning 모델 (예: GRPO, PPO 기반 수학 RL)은 ground-truth label이 있는 데이터를 사용합니다. 그러나 TTRL은 다음과…

2월 11, 2026
** Retrieval Head Mechanistically Explains Long-Context Factuality (ICLR 2024)

아래는 「Retrieval Head Mechanistically Explains Long-Context Factuality」(ICLR 2024) 논문의 핵심을 문제의식 → 방법론 → 주요 발견 → 실험적 근거 → 시사점 순서로 정리한 설명입니다. 1. 문제의식 장문 컨텍스트(수만~십만 토큰)에서 LLM이 어떻게 필요한 정보를 정확히 찾아(faithful retrieval) 출력하는지 내부 메커니즘은 불분명했다. 특히 Needle-in-a-Haystack 유형에서 사실성이 유지되는 이유를 어떤 내부 구성요소가 담당하는가가 핵심 질문이다. 2. 핵심 가설…

2월 10, 2026
*** Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization (ACL 2025)

논문 “Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization” (ACL 2025 Long Paper) 은 RAG 기반 LLM의 신뢰도 문제, 특히 문맥적 정합성(contextual faithfulness) 을 향상시키는 새로운 방법을 제안한 연구입니다 . 1. 연구 배경 2. 주요 아이디어: RHIO 프레임워크 RHIO = Retrieval Heads-Induced Optimization “retrieval head를 마스킹하여 비충실(unfaithful)한 샘플을 인위적으로 만들고, 이를 이용해…

2월 10, 2026
*** Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings (ACL 2025)

논문 **“Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings” (ACL 2025)**는 대형 언어 모델(LLM)의 In-Context Learning (ICL) 능력을 **입력-레이블 매핑(input-label mappings)**의 관점에서 분석하고, 해당 메커니즘을 해석하며, 향상시키는 방법을 제안합니다. 1. 연구 질문 LLM의 ICL 성능을 분석하기 위해 다음 세 가지 질문을 다룹니다: 2. 주요 기여 (1) 입력-레이블 매핑의 발견 (2) PC Patching 기법 (3) 매핑…

2월 7, 2026
** Small Changes, Big Impact: How Manipulating a Few Neurons Can Drastically Alter LLM Aggression (ACL 2025)

이 논문 “Small Changes, Big Impact: How Manipulating a Few Neurons Can Drastically Alter LLM Aggression” (ACL 2025) 은 대형 언어 모델(LLM) 내부의 “공격성(neural aggression)”을 제어하는 특정 뉴런이 존재하며, 이들을 조작하는 것만으로도 모델의 공격성이 급격히 변할 수 있음을 실험적으로 증명한 연구입니다 . 아래는 핵심 내용을 정리한 설명입니다. 🧩 1. 연구 목적과 문제의식 🔍 2. 연구…

2월 5, 2026
*** Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models (ACL 2024)

이 논문 **「Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models」 (ACL 2024)**은 대형 언어 모델(LLM)의 다국어 능력이 **특정한 언어 전용 뉴런(language-specific neurons)**에 의해 어떻게 형성되는지를 정량적으로 규명한 연구입니다 . 🧩 연구 배경 및 문제의식 대형 언어 모델(GPT-4, PaLM-2 등)은 주로 영어 데이터로 학습되었음에도 불구하고 여러 언어로 높은 수준의 이해 및 생성 능력을…

2월 5, 2026
*** Position-aware Automatic Circuit Discovery (ACL 2025)

아래는 ACL 2025 논문 “Position-aware Automatic Circuit Discovery (PEAP)” 전체 내용을 기반으로 한 논문 설명입니다. 📌 Position-aware Automatic Circuit Discovery — 논문 전체 설명 1. 논문 문제의식 (Why?) 기존 자동 circuit discovery 기법(EAP, direct patching 등)은 “position-invariant” 가정을 한다. 즉, 이로 인해 이 문제를 해결하기 위해 저자들은 **“Position-aware Edge Attribution Patching (PEAP)”**을 제안한다. 2. 제안…

2월 4, 2026
*** Persona Vectors: Monitoring and Controlling Character Traits in Language Models (arXiv 2025)

논문 **“Persona Vectors: Monitoring and Controlling Character Traits in Language Models” (Chen et al., 2025)**는 대형 언어 모델(LLM)의 성격 특성(personality traits)을 모니터링하고 제어하기 위한 새로운 방법인 Persona Vector를 제안합니다. 이 방법은 모델의 내부 활성화 공간에서 특정 성격 특성을 나타내는 **선형 방향(linear directions)**을 자동으로 추출하여, LLM의 의도하지 않은 성격 변화(예: 악의성, 아첨, 환각)를 감지하고 제어할 수…

2월 4, 2026
Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect (EMNLP 2025)

이 논문 “Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect” (EMNLP 2025) 은 LLM 내부 표현에서 시제(tense) 와 상(aspect) 이 어떻게 구조적으로 표현되고, 이를 multi-token 생성 과정에서 조절(steering) 할 수 있는지를 체계적으로 분석한 연구입니다 . 아래는 핵심 내용을 정리한 해설입니다. 🧩 연구 배경 기존의 LLM 해석 연구는 주로 에 초점을…

2월 4, 2026
Are Sixteen Heads Really Better than One? (NeurIPS 2019)

이 논문은 **Transformer의 multi-head attention(MHA)가 정말로 많은 head를 필요로 하는가?**라는 매우 직관적인 질문을 실증적으로 파고든 고전적인 분석 논문입니다. 아래에서 문제의식 → 방법론 → 실험 결과 → 핵심 해석 → 이후 연구에 미친 영향 순서로 정리해 드릴게요. (논문: Are Sixteen Heads Really Better than One?, NeurIPS 2019) 1. 문제의식 (Motivation) Transformer에서 multi-head attention은 다음과 같은 이유로…

2월 1, 2026
*** LayerNavigator: Finding Promising Intervention Layers for Efficient Activation Steering in Large Language Models (NeurIPS 2025)

아래는 **NeurIPS 2025 논문 “LayerNavigator: Finding Promising Intervention Layers for Efficient Activation Steering in Large Language Models”**에 대한 핵심 중심 설명입니다. 1. 문제의식 (Why this paper?) Activation Steering은 👉 하지만 가장 큰 난제는 다음입니다: “어느 layer에 steering vector를 넣어야 하는가?” ➡️ Layer selection을 원리적으로, 싸고, 안정적으로 할 수 있는 방법이 필요 2. 핵심 아이디어: LayerNavigator…

2월 1, 2026
*** Attribution Patching Outperforms Automated Circuit Discovery (BlackboxNLP 2024)

아래는 **BlackboxNLP 2024 논문 〈Attribution Patching Outperforms Automated Circuit Discovery〉**의 핵심 내용을 구조적으로 정리한 상세 설명입니다. 1. 논문의 문제의식 (Introduction) 메커니스틱 인터프리터빌리티의 핵심 목표는 LLM 내부에서 특정 작업(Task)을 수행하는 서브네트워크(circuit)를 자동으로 찾아내는 것이다. 기존 자동화된 방법의 대표는 **ACDC (Automated Circuit Discovery)**로, 각 *edge(노드 간의 activation flow)*가 해당 작업에 얼마나 기여하는지 activation patching을 반복적으로 수행해 측정한다.…

1월 26, 2026
* Finding Transformer Circuits with Edge Pruning (NeurIPS 2024)

아래는 논문 **“Finding Transformer Circuits with Edge Pruning (NeurIPS 2024)”**의 핵심 내용을 직관적으로, 기존 ACDC/EAP과의 차이를 중심으로, 수식·개념까지 포함해 정리한 설명입니다. 🔍 1. 연구 배경: 왜 Edge Pruning인가? Transformer의 동작을 해석하려면 모델 내부에서 특정 기능을 수행하는 회로(circuit) 를 찾아야 한다. 기존 자동 회로 추출 방식에는 두 가지 대표적 접근이 있다: (1) ACDC (2023) (2) EAP…

1월 25, 2026
* Knowledge Circuits in Pretrained Transformers (NeurIPS 2024)

다음은 NeurIPS 2024에 발표된 “Knowledge Circuits in Pretrained Transformers” 논문의 주요 내용 요약입니다. 이 논문은 LLM 내부의 지식 저장 메커니즘을 **회로(circuit)**의 관점에서 새롭게 분석한 연구입니다. 1. 연구 배경 2. Knowledge Circuit의 정의 3. 연구 방법론 (1) Knowledge Circuit 탐색 (2) 모델 및 데이터 4. 주요 실험 결과 (1) Knowledge Circuit의 성능 Knowledge Type Original (Hit@10)…

1월 25, 2026
*** Towards Automated Circuit Discovery for Mechanistic Interpretability (NeurIPS 2023)

아래는 **“Towards Automated Circuit Discovery for Mechanistic Interpretability (NeurIPS 2023)”**의 핵심 내용을 정리한 설명입니다. 📌 논문의 목적 Transformer 기반 LLM은 뛰어난 성능에도 불구하고 내부 동작이 블랙박스처럼 보입니다. 메커니스틱 인터프리터빌리티 연구는 내부 컴포넌트(Attention Head, MLP 등)가 구체적으로 어떤 알고리즘을 수행하는지 밝히려고 하지만, 현재는 사람이 일일이 수작업으로 분석하는 방식이라 확장성이 떨어집니다. 이 논문은 그 과정을 체계화하고 특히…

1월 25, 2026
** Enhancing LLM Steering through Sparse Autoencoder-based Vector Refininement (Arxiv 2025)

아래에서는 「Enhancing LLM Steering through Sparse Autoencoder-based Vector Refininement (SAE-RSV)」 논문의 관련연구, 방법론, 실험 결과를 핵심만 구조적으로 정리해 설명합니다. 1. 관련연구 (Related Work) (1) Steering / Difference-in-Means 계열 (2) Sparse Autoencoder(SAE) 기반 Steering (3) 본 논문의 포지션 2. 방법론 (Methodology) 논문은 **SAE-RSV (Sparse Autoencoder-based Refinement of Steering Vector)**라는 2-단계 정제 프레임워크를 제안합니다. (1) 기본 Steering…

1월 16, 2026
* Latent Inter-User Difference Modeling for LLM Personalization (EMNLP 2025)

아래에서는 **EMNLP 2025 논문 “Latent Inter-User Difference Modeling for LLM Personalization”**을 중심으로 관련 연구, 방법론, 실험 결과를 연구 흐름 관점에서 정리해 설명합니다. (설명은 논문 전체 내용을 종합한 요약입니다) 1. 관련 연구 (Related Work) (1) LLM 개인화의 주류: Memory-Retrieval Paradigm (2) Inter-User Difference를 명시적으로 다룬 연구 (3) Latent-Space Personalization –> 이 논문의 핵심 포지션 “Inter-user difference는…

1월 16, 2026
** Personalized Text Generation with Contrastive Activation Steering (ACL 2025)

아래에서는 ACL 2025 논문 Personalized Text Generation with Contrastive Activation Steering(Zhang et al., 2025)을 기준으로 관련 연구, 방법론, 실험 결과를 구조적으로 정리해 설명합니다. 설명은 논문 본문(Sections 1, 3, 4, 5)과 표·그림(Table 1–3, Figure 1–5 등)을 종합한 것입니다. 1. 관련 연구 (Related Work) 1.1 Personalized Text Generation 기존 개인화 텍스트 생성 연구는 크게 두 계열로 나뉩니다.…

1월 16, 2026
* LLMs + Persona-Plug = Personalized LLMs (ACL 2025)

아래에서는 **ACL 2025 논문 「LLMs + Persona-Plug = Personalized LLMs」**의 관련 연구, 방법론, 실험 결과를 논문의 구조와 저자들의 주장에 맞춰 체계적으로 정리합니다. 설명은 왜 기존 접근이 한계가 있었는지 → 무엇을 새로 제안했는지 → 실험으로 무엇이 검증되었는지의 흐름으로 구성했습니다. 1. 관련 연구 (Related Work) 논문은 LLM 개인화(personalization) 접근을 크게 두 계열로 정리합니다. 1.1 Fine-tuned Personalized LLMs…

1월 16, 2026
* Beyond Linear Steering: Unified Multi-Attribute Control for Language Models (EMNLP 2025 Findings)

논문 “Beyond Linear Steering: Unified Multi-Attribute Control for Language Models” (EMNLP 2025 Findings) 은 LLM의 복수 속성(behavioral attribute) 제어를 위한 새로운 비선형 스티어링 방법인 K-Steering 을 제안한 연구입니다. 아래에 주요 내용을 정리했습니다. 1. 연구 배경 기존의 Activation Steering (예: CAA, ITI, RepE 등)은 LLM의 은닉 표현(activation)을 선형 벡터로 조작하여 특정 속성(예: 공격성, 공손함, 진실성 등)을 제어하지만, 예: “공손하면서 유머러스한 톤”처럼 복합적인 조합은 단순…

1월 16, 2026
** LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models (arXiv 2025)

아래는 **arXiv 2025 논문 *“LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models”***에 대한 설명입니다. 설명은 배경 → 방법론 → 시스템 설계 → 시각화 및 결과 → 기여와 한계 순으로 정리했습니다. 1. 연구 배경과 문제의식 Logit Lens는 중간 layer의 hidden state를 최종 LM head로 바로 투사하여, “이 layer에서 이미 어떤 토큰을 예측하고 있는가?”를 관찰하는 대표적인 mechanistic interpretability 기법입니다.…

1월 14, 2026
** DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models (ICLR 2024)

다음은 ICLR 2024 논문 “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models”에 대한 체계적인 설명입니다. 1. 문제의식 (Why DoLa?) 대규모 언어모델(LLM)은 유창하지만 **사실과 다른 내용(hallucination)**을 자주 생성합니다.기존 대응 방식들은 다음과 같은 한계를 가집니다. 👉 이 논문의 핵심 질문은 다음입니다. “이미 학습된 하나의 LLM 내부 구조만 활용해서, 추론 시점(inference-time)에 사실성을 높일 수 없을까?” 2. 핵심…

1월 14, 2026
** Steering off Course: Reliability Challenges in Steering Language Models (ACL 2025)

다음은 ACL 2025 논문 “Steering off Course: Reliability Challenges in Steering Language Models”의 핵심 내용 요약입니다. 1. 연구 배경 및 동기 LM Steering의 등장 문제의식 2. 연구 목표와 실험 구성 목표 주요 실험 세팅 실험 요소 설명 모델 패밀리 LLaMA, Qwen, OLMo, Pythia, Mistral 등 평가 데이터셋 TruthfulQA, FACTOR (사실성 평가) ICL(Task Vector) 11개의 언어 및 사실성…

1월 14, 2026
** Word Embeddings Are Steers for Language Models (ACL 2024)

다음은 ACL 2024 논문 **”Word Embeddings Are Steers for Language Models”**의 주요 내용을 정리한 설명입니다. 1. 연구 배경 대규모 언어모델(LLM)은 학습 과정에서 자동으로 word embedding을 학습합니다.기존 연구들은 주로 단어 수준에서의 의미적 관계(유사도, 유추 관계 등)에 집중했지만,이 논문은 word embedding이 모델의 생성 스타일(generation style)을 조정하는 역할을 한다는 새로운 시각을 제시합니다. 여기서 연구자들은 **출력 단어 임베딩 공간(output embedding space)**이…

1월 14, 2026