아래는 ACL/EMNLP/NAACL/COLING/NeurIPS/ICLR 학회의 unlearning 논문들의 방법론을 “비슷한 계열끼리 묶어서” 정리한 것입니다.
1) Forget/Retain 세트를 두고 “미세조정(FT)”로 지우는 계열
핵심 아이디어:
- Forget set 에 대해서는 모델이 해당 정보를 못 내도록(혹은 잘못 내도록) 만들고
- Retain set 에 대해서는 원래 성능을 유지하도록 정규화/증류/보존 loss를 함께 건다.
- “삭제 후의 모델”을 (재학습 없이) 근사하는 가장 표준적인 패러다임.
1-A. Gradient ascent / gradient difference 기반
- Yao et al., ACL 2024는 LLM unlearning을 “여러 기존 기법” 관점에서 정리하면서, 실무적으로는 forget에는 ascent(=손실 증가), retain에는 **descent(=손실 감소)**를 섞는 식이 효율적이며 하이퍼파라미터 안정성도 좋아진다고 정리합니다.
- Machine Unlearning of Pre-trained Large Language Models (ACL 2024)
- **Mekala et al., COLING 2025 (AltPO 비교선)**도 TOFU류 설정에서 FT/GradAsc/GradDiff 등을 베이스라인으로 두고, “지우기 과정의 불안정성”을 지적합니다.
- Alternate Preference Optimization for Unlearning Factual … (COLING 2025)
이 계열은 구현이 단순하지만, (i) 과잉 삭제로 일반 성능 붕괴, (ii) 부분 삭제로 leakage, (iii) ‘지운 것 같은데 재학습/재노출에 취약’ 문제가 반복됩니다.
1-B. Retention을 “증류/보존”으로 강하게 잡는 계열
- OBLIVIATE (EMNLP 2025):
- 타깃 토큰 추출 → retain set 구성 → LoRA 기반 FT를 하되, **3-파트 loss(마스킹/증류/월드팩트 보존)**를 결합해 “지울 것 + 유지할 것”을 분리해서 최적화합니다.
- OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models (EMNLP 2025)
- ICLR 2025 ‘A Closer Look…’ 역시 기존 방법들의 평가/목표 불충분을 지적하고,
- untargeted에서는 최대 엔트로피(ME) 같은 목표로 “애매하게 만들기”,
- targeted에서는 answer preservation(AP) 같은 보존 정규화를 더하는 쪽을 제안합니다.
- A Closer Look at Machine Unlearning for Large Language Models (ICLR 2025)
2) “Preference / Refusal 학습”으로 답변 정책을 바꿔서 지우는 계열
핵심 아이디어: 모델 내부 지식 자체를 완전히 제거하기보다는,
- “그 지식을 말하지 않도록(refuse/abstain)”
- 또는 “모른다고 하도록(‘I don’t know’)” 정책을 학습시켜 출력 분포를 재형성합니다.
2-A. Preference Optimization 변형 (TOFU류에서 특히 많이 등장)
- AltPO (COLING 2025): 기존 NPO/IdkPO 등 preference 기반 unlearning이 학습 과정에서 흔들리는 문제를 보고, 선호 최적화를 교대로(Alternate) 적용해 안정적인 unlearning trajectory를 유도합니다.
- Alternate Preference Optimization for Unlearning Factual … (COLING 2025)
2-B. “Learning to Refuse” (privacy risk 완화)
- Learning to Refuse (COLING 2025): 프라이버시 위험을 줄이기 위해 “민감 질의에 대해 거부하도록” 학습하는 쪽(엄밀히 지식 삭제보다는 출력 억제).
- Learning to Refuse: Towards Mitigating Privacy Risks in … (COLING 2025)
이 계열은 실제 서비스 관점에서 쓸모가 큰데, “진짜 삭제”보다는 정책 억제라서 white-box/특수 프롬프트/재노출에서 지식이 다시 드러날 수 있습니다(=suppression vs deletion).
3) 파라미터를 안 건드리는 “Inference-time(프롬프트/컨텍스트) unlearning”
핵심 아이디어: 모델 가중치는 그대로 두고, 입력 쪽을 조작해서 “지워진 것처럼 행동”하게 만든다.
3-A. Soft Prompt(가상 토큰)로 unlearning 상태 유도
- SPUL (NAACL 2025): 특정 forget 대상에 대해, 학습 가능한 soft prompt 토큰을 붙여 inference에서 unlearning을 유도(파라미터 업데이트 없이), forgetting loss + utility 보존 loss를 함께 설계합니다.
- Soft Prompting for Unlearning in Large Language Models (SPUL) (NAACL 2025)
3-B. Prompt embedding corruption (ECO; NeurIPS 2024)
- ECO prompts (NeurIPS 2024):
- 오프라인에서 프롬프트 임베딩에 넣을 corruption을 (zeroth-order로) 학습
- 온라인에서는 분류기로 “forget 관련 질의”를 탐지해 그때만 corruption을 주입
- 결과적으로 “처음부터 그 데이터를 안 본 모델” 출력에 가깝게 만들려는 접근입니다.
- Large Language Model Unlearning via Embedding-Corrupted Prompts (ECO Prompts) (NeurIPS 2024)
이 계열은 배포 후 적용이 쉽고 비용이 낮다는 장점이 있지만, “질의 탐지” 품질과 “공격자가 탐지를 우회”하는 경우가 약점이 됩니다.
4) “특정 모달/특정 예시”에 대한 국소적 unlearning (특히 멀티모달)
- SIU (NeurIPS 2024; MLLM):
- “개념을 대표하는 단일 이미지”만으로 몇 step FT하여 시각 인식 개념을 잊게 만들고,
- 다면적 타깃 구성 + Dual Masked KL + CE 같은 결합 loss로 “forget과 utility”를 동시에 맞추려 합니다.
- Efficient Machine Unlearning in Multimodal Large Language Models (NeurIPS 2024)
5) Federated/Feature-level unlearning (클라이언트/특징 삭제)
- Ferrari (NeurIPS 2024):
- “feature sensitivity(입력 feature perturbation에 대한 출력 민감도)”를 최소화하는 방향으로,
- **특정 feature(민감/백도어/편향)**를 연합학습 모델에서 선택적으로 제거하는 프레임워크.
- Ferrari: Federated Feature Unlearning … (NeurIPS 2024)
6) “방법 제안”보다는 ‘근본 한계/평가/공격’을 다루는 계열
이건 어떤 unlearning을 쓰든 반드시 같이 봐야 하는 축입니다.
6-A. 재학습/재획득(relearning) 문제 제기
- Large Language Models Relearn Removed Concepts (Findings ACL 2024): “지웠다”는 개념이 빠르게 복구될 수 있음(신경 가소성/재학습 관점).
6-B. Poisoning 관점에서 unlearning이 실패할 수 있음을 입증
- Machine Unlearning Fails to Remove Data Poisoning Attacks (ICLR 2025): 기존 실용 unlearning이 poisoning 효과 제거에는 실패할 수 있고, poisoning 기반 평가가 필요하다고 주장.
6-C. 공격(재구성)으로 “정말 삭제됐는지” 검증
- Reconstruction Attacks on Machine Unlearning (NeurIPS 2024): 간단한 모델조차 삭제된 샘플의 특징을 재구성할 수 있음을 보여 “삭제 검증”의 중요성을 부각.
6-D. “정의/목표가 application마다 다르다” + 대표 알고리즘(SCRUB)
- Towards Unbounded Machine Unlearning (NeurIPS 2023): bias removal / confusion 해결 / privacy(RTB) 등 목표별 forget metric이 달라야 하며, 이를 종합적으로 다루면서 SCRUB를 제안.
6-E. 평가 프로토콜 자체 재검토
- Rethinking Evaluation Methods for Machine Unlearning (Findings EMNLP 2024): 기존 unlearning 평가가 “지웠다”를 과대평가할 수 있음을 지적하고, 평가 설계를 재검토합니다.
한 줄 결론:
- (A) FT 기반 (forget vs retain 최적화): 가장 표준 — OBLIVIATE, (Yao survey가 다루는 다수 베이스라인)
- (B) Preference/Refusal 기반: 출력 정책 억제 — AltPO, Learning to Refuse
- (C) Inference-time 입력 조작: 배포 친화 — SPUL(soft prompt), ECO(embedding corruption)
- (D) 특수 설정: 멀티모달 단일 예시(SIU), federated feature 삭제(Ferrari)
- (E) 검증/한계/공격/평가: relearning, poisoning 실패, reconstruction attack, 평가 재설계, unbounded(SCRUB)
뉴런 수준(neuron-level) 또는 **SAE(희소 오토인코더) 특징 수준(feature level)**에서 unlearning(망각/삭제)하는 연구도 존재합니다. 이들은 일반적인 sample 단위 삭제보다 내부 표현/피처 차원을 직접 조작•제어하는 접근법입니다.
1. 뉴런 수준(neuron-level) unlearning
Learn to Forget: Machine Unlearning via Neuron Masking
(비교적 초창기 – 2021)
- 뉴런 단위로 **마스킹(masking)**을 통해 특정 데이터의 영향력을 제거하려는 접근법입니다.
- 여기서 중요한 뉴런을 찾아 활성화를 억제함으로써, 모델이 그 데이터에 대한 정보를 기억하지 못하게 합니다.
- 즉, 뉴런 자체를 직접 건드려서 내부 표현 차원에서 잊도록 유도합니다.
논문의 핵심 포인트
- forgetting rate 라는 새로운 지표를 도입하여 “실제 잊힘” 정도를 평가
- 뉴런 마스킹 기반 삭제는 기존 엔드-투-엔드 재학습(retrain)보다 효율적이라는 결과를 보였습니다.
2. SAE(희소 오토인코더) feature level unlearning
이 계열은 **SAE(스파스 오토인코더)**를 활용해 모델의 내부 표현 공간을 해석하고, *특정 개념/특징(feature)*을 기반으로 unlearning을 수행합니다.
(ICCV 2025) SAUCE: Selective Concept Unlearning in Vision-Language Models via SAE
- **SAE를 사용하여 의미적으로 중요한 특징(feature)**을 추출
- 그런 다음 해당 특징만 선택적으로 억제 또는 제거 → 정교한 개념 단위 망각 구현
- VLM(비전-언어 모델)에서 오브젝트 또는 장면 개념을 선택적으로 잊는 데 성공했습니다.
(EMNLP 2025) Model Unlearning via SAE Guided Subspace Projection (SSPU)
- SAE를 통해 중요 특징 공간(subspace)을 먼저 학습
- 그 공간만을 조정하도록 subspace-guided projection 방식으로 망각
- 단순 파라미터 수정보다 내부 표현(feature) 수준에서 더 정밀한 unlearning 가능 → 유틸리티 유지에도 도움이 된다는 결과를 보였습니다.
3. 관련 근래 연구 추세 (뉴런/표현 수준)
Representation-level unlearning
- 단순히 logits 또는 최종 출력만 조정하는 것이 아니라, 중간 레이어/representation 자체를 변경해 “진짜로 잊는 것”을 연구하는 흐름도 등장합니다.
- 예: 최근 발표 논문 Erase at the Core에서는 중간 표현 전체를 unlearning하도록 다층 대비(unlearning + supervised loss)를 결합한 방법을 제안합니다(아직 정식 학회 수록 전 프리프린트).
- Erase at the Core: Representation Unlearning for Machine Unlearning (arXiv 2026)
요약: neuron/feature 수준 unlearning 논문
| 분류 | 대표 접근법 | 수행 방식 | 참고 |
|---|---|---|---|
| 뉴런 수준 (Neuron-level) | Neuron Masking | 뉴런 활성화 억제 → 영향 제거 | Learn to Forget |
| SAE 피처 수준 | SAUCE | SAE feature 기반 선택적 개념 제거 | SAUCE (ICCV 2025) |
| SSPU | SAE-guided subspace projection | (EMNLP 2025) | |
| 표현/내부 레이어 수준 | Representation Unlearning | 중간 representation unlearning | Erase at the Core |
“Steering(표현/활성 방향 조작)”을 핵심 메커니즘으로 써서 unlearning(망각/삭제)을 수행하거나, **unlearning의 취약점을 steering으로 ‘복구/추출’**하는 논문들이 꽤 있습니다. 크게 3갈래로 묶입니다.
1) Representation/Activation “방향(Dir/Subspace)”을 조작해서 잊게 하는 unlearning
(A) 중간표현을 “랜덤 목표”로 오도(misdirection)하는 계열 = steering-based unlearning의 정석
- RMU(Representation Misdirection for Unlearning): forget 샘플의 중간 레이어 표현을 랜덤 타깃 방향/표현으로 ‘끌고’(steer), retain은 유지해서 “기억 회수 자체를 어렵게” 만드는 류. 이 접근이 널리 인용되면서 “steer forget representations”라는 문구 자체가 정착했습니다.
- 핵심은 “forget set에서 특정 레이어 representation을 특정 목표(랜덤)로 유도” → 결과적으로 토큰 확신도(confidence) 저하 및 무의미/오답 생성으로 forget 효과 달성(이론 분석 포함).
- On Effects of Steering Latent Representation for Large Language Model Unlearning (AAAI 2025)
(B) forget 방향을 분리하고 정교하게 제거(orthogonal projection 등)
- “Precision Unlearning via Directional Control / Directional control” 류(EMNLP Findings 2025): forget 관련 방향 u_D를 추정한 뒤, 활성(또는 표현)을 그 방향의 직교 여공간으로 투영해서 forget 성분만 제거하는 식의 “방향 제어”가 등장합니다.
- 한마디로 “steering vector를 ‘지우는 필터’처럼 쓰는 unlearning” 입니다.
- Lock on Target! Precision Unlearning via Directional Control (EMNLP Findings 2025)
2) 파라미터 업데이트 없이 ‘입력/프롬프트 쪽’에서 steering로 test-time unlearning
(A) Soft Prompt로 “unlearned mode”를 유도
- SPUL(NAACL 2025): 학습 가능한 soft prompt 토큰을 prepend해서, 특정 forget 대상 질의에서만 모델이 “잊은 것처럼” 출력하도록 유도합니다(파라미터는 고정).
- 기술적으로는 “prompt embedding을 통해 activation을 원하는 방향으로 밀어” 출력 분포를 바꾸는 steering의 일종으로 볼 수 있습니다.
- Soft Prompting for Unlearning in Large Language Models (NAACL 2025)
(B) Embedding corruption / activation steering로 test-time에서 동적 지우기
- 멀티모달 쪽에서 특히 activation steering 기반 test-time unlearning이 명시적으로 등장합니다(예: MLLMEraser).
- “삭제 방향(erasure direction)”을 구성해서, 입력에 따라 동적으로 해당 방향을 주입/보정해 지우는 방식.
- MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering (arXiv 2025)
3) (중요) Steering이 unlearning을 “깨는 공격”으로도 쓰임
- Extracting Unlearned Information from LLMs with Activation Steering (2024): unlearning된 모델에서조차, activation steering으로 **삭제된 정보를 정확히 ‘회수’**할 수 있음을 보입니다. 즉 steering은 unlearning 기법이기도 하지만 unlearning 취약점 공격이기도 합니다.
정리: “Steering 기반 unlearning”의 공통 구조(수식 관점)
대부분 다음 중 하나로 귀결됩니다.
- 표현 오도형(RMU류)
- 방향 제거형(직교 투영 등)
- 프롬프트/입력 기반(soft prompt/embedding 조작)
연구적으로 “steering unlearning”에서 가장 중요한 포인트
- 삭제(deletion) vs 억제(suppression): steering 기반(특히 test-time)은 억제에 가까운 경우가 많아, 공격/우회 프롬프트에 취약할 수 있습니다. (위의 activation steering “회수 공격”이 그 예)
- 반대로 방향 분리 + 투영(orthogonal decomposition) 계열은 “삭제 성분을 subspace로 격리”하려는 시도라서, 향후 SAE feature-level과 결합하기 좋습니다.
최근 LLM Unlearning 연구에서 사용되는 데이터셋은 크게 벤치마크/평가용 데이터, 합성(시뮬레이션) 데이터, 그리고 실제 지식 기반 (real-world knowledge) 데이터로 나눌 수 있습니다. 주요 예시는 다음과 같습니다:
1. 대표적인 Unlearning 벤치마크 데이터셋
1) TOFU (Task-oriented Forgetting Unlearning Format)
- 특정 정보(예: 허구의 저자 정보)를 기반으로 만들어진 Q&A 세트
- 각 저자마다 20개의 질의-응답 포맷으로 구성된 forget set
- 총 약 4,000개 Q&A 쌍으로 구성되며 format 확장(MCQA, cloze 등)도 연구에 사용됨
–> 모델이 특정 사실/정보를 잊었는지 평가하는 데 쓰이는 대표적 benchmark
2) MUSE (Machine Unlearning Six-Way Evaluation)
- 6가지 평가 측면을 갖춘 unlearning 벤치마크
- verbatim memorization, knowledge memorization, privacy leakage, utility preservation 등
- Harry Potter 책, 뉴스 기사 등 다양한 컨텐츠를 unlearning 대상 데이터로 설정
–> unlearning efficacy와 현실적 제약을 한꺼번에 평가
3) RWKU (Real-World Knowledge Unlearning)
- 유명 인물 200명에 대한 실제 지식을 forget set으로 구성
- retain set과 forget set으로 성능 평가를 동시에 수행
- 여러 membership inference, 공격 probing 등을 포함한 평가 지표 제공
–> “실제 기억(knowledge)” 기반으로 unlearning 성능을 측정
2. 합성/시뮬레이션 기반 데이터셋
4) Synthetic Textbook / Synthetic datasets
- 고정된 task/explanatory data를 합성해 unlearning용 데이터 생성
- 연구에서 실제 LLM이 해당 지식을 먼저 습득하게 한 뒤 unlearning 수행하는 데 사용됨
–> 수작업 제거 없이 scalable한 unlearning 실험 가능
5) Paired TOFU / Swapped WMDP (Benchmark 변형)
- 기존 TOFU, WMDP 등을 변형한 benchmark variant
- Unlearning 비교/스트레스 테스트용으로 활용됨
–> 다양한 perturbation/format 영향 분석 목적
3. 기타 관련 데이터셋/사용처
6) 사전학습 데이터 일부
- 일부 연구는 사전학습 코퍼스(예: The Pile, TDEC)의 부분 데이터 subset을 forget set으로 활용함
- Pile 전체가 아닌 특정 문서/섹션을 ignore하고 unlearning을 평가
–> 실제 큰 데이터셋에서 부분 삭제 상황을 재현
4. 이미지/멀티모달 고려 예시 (참고용)
- Unlearning bench(기억 삭제) 개념은 Vision 분야에서도 다뤄지고 있어, UNLEARNCANVAS 같은 이미지 도메인의 수동 dataset도 존재함 (주로 Vision unlearning 연구)
정리: 데이터셋 분류
| 유형 | 대표 데이터셋 | 목적 |
|---|---|---|
| Q&A 기반 unlearning 평가 | TOFU, Paired TOFU | 특정 지식 삭제 테스트 |
| 종합 평가 벤치마크 | MUSE | 다양한 unlearning 속성 평가 |
| 실제 지식 제거 | RWKU | real-world knowledge unlearning |
| 합성/시뮬레이션 | Synthetic Textbook | 자동/규모 확장 실험 |
| 사전학습 기반 subset | The Pile 일부 | 실제 학습 corpus 부분 삭제 재현 |
참고 포인트
✔ 대부분 unlearning 연구는 **forget set(지워야 할 정보)**과 **retain set(유지할 정보)**을 명시적으로 구성하고, 이를 활용해 잊고 유지하는 trade-off를 평가합니다.
✔ 벤치마크 중심으로 발전 중이라, 단순 Q&A 기반부터 privacy/보안/real-world 지식 등의 다양한 측면을 담은 benchmark가 최신 연구에서 제안되고 있습니다.
✔ 일부 데이터셋은 HuggingFace 등에 공개되어 있어 실험 재현/비교가 비교적 용이합니다.
답글 남기기