아래는 ACL/EMNLP/NAACL/COLING/NeurIPS/ICLR 학회의 unlearning 논문들의 방법론을 “비슷한 계열끼리 묶어서” 정리한 것입니다.

1) Forget/Retain 세트를 두고 “미세조정(FT)”로 지우는 계열

핵심 아이디어:

Forget set $D_f$ 에 대해서는 모델이 해당 정보를 못 내도록(혹은 잘못 내도록) 만들고
Retain set $D_r$ 에 대해서는 원래 성능을 유지하도록 정규화/증류/보존 loss를 함께 건다.
“삭제 후의 모델”을 (재학습 없이) 근사하는 가장 표준적인 패러다임.

1-A. Gradient ascent / gradient difference 기반

Yao et al., ACL 2024는 LLM unlearning을 “여러 기존 기법” 관점에서 정리하면서, 실무적으로는 forget에는 ascent(=손실 증가), retain에는 **descent(=손실 감소)**를 섞는 식이 효율적이며 하이퍼파라미터 안정성도 좋아진다고 정리합니다.
- Machine Unlearning of Pre-trained Large Language Models (ACL 2024)
**Mekala et al., COLING 2025 (AltPO 비교선)**도 TOFU류 설정에서 FT/GradAsc/GradDiff 등을 베이스라인으로 두고, “지우기 과정의 불안정성”을 지적합니다.
- Alternate Preference Optimization for Unlearning Factual … (COLING 2025)

이 계열은 구현이 단순하지만, (i) 과잉 삭제로 일반 성능 붕괴, (ii) 부분 삭제로 leakage, (iii) ‘지운 것 같은데 재학습/재노출에 취약’ 문제가 반복됩니다.

1-B. Retention을 “증류/보존”으로 강하게 잡는 계열

OBLIVIATE (EMNLP 2025):
- 타깃 토큰 추출 → retain set 구성 → LoRA 기반 FT를 하되, **3-파트 loss(마스킹/증류/월드팩트 보존)**를 결합해 “지울 것 + 유지할 것”을 분리해서 최적화합니다.
- OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models (EMNLP 2025)
ICLR 2025 ‘A Closer Look…’ 역시 기존 방법들의 평가/목표 불충분을 지적하고,
- untargeted에서는 최대 엔트로피(ME) 같은 목표로 “애매하게 만들기”,
- targeted에서는 answer preservation(AP) 같은 보존 정규화를 더하는 쪽을 제안합니다.
- A Closer Look at Machine Unlearning for Large Language Models (ICLR 2025)

2) “Preference / Refusal 학습”으로 답변 정책을 바꿔서 지우는 계열

핵심 아이디어: 모델 내부 지식 자체를 완전히 제거하기보다는,

“그 지식을 말하지 않도록(refuse/abstain)”
또는 “모른다고 하도록(‘I don’t know’)” 정책을 학습시켜 출력 분포를 재형성합니다.

2-A. Preference Optimization 변형 (TOFU류에서 특히 많이 등장)

AltPO (COLING 2025): 기존 NPO/IdkPO 등 preference 기반 unlearning이 학습 과정에서 흔들리는 문제를 보고, 선호 최적화를 교대로(Alternate) 적용해 안정적인 unlearning trajectory를 유도합니다.
- Alternate Preference Optimization for Unlearning Factual … (COLING 2025)

2-B. “Learning to Refuse” (privacy risk 완화)

Learning to Refuse (COLING 2025): 프라이버시 위험을 줄이기 위해 “민감 질의에 대해 거부하도록” 학습하는 쪽(엄밀히 지식 삭제보다는 출력 억제).
- Learning to Refuse: Towards Mitigating Privacy Risks in … (COLING 2025)

이 계열은 실제 서비스 관점에서 쓸모가 큰데, “진짜 삭제”보다는 정책 억제라서 white-box/특수 프롬프트/재노출에서 지식이 다시 드러날 수 있습니다(=suppression vs deletion).

3) 파라미터를 안 건드리는 “Inference-time(프롬프트/컨텍스트) unlearning”

핵심 아이디어: 모델 가중치는 그대로 두고, 입력 쪽을 조작해서 “지워진 것처럼 행동”하게 만든다.

3-A. Soft Prompt(가상 토큰)로 unlearning 상태 유도

SPUL (NAACL 2025): 특정 forget 대상에 대해, 학습 가능한 soft prompt 토큰을 붙여 inference에서 unlearning을 유도(파라미터 업데이트 없이), forgetting loss + utility 보존 loss를 함께 설계합니다.
- Soft Prompting for Unlearning in Large Language Models (SPUL) (NAACL 2025)

3-B. Prompt embedding corruption (ECO; NeurIPS 2024)

ECO prompts (NeurIPS 2024):
- 오프라인에서 프롬프트 임베딩에 넣을 corruption을 (zeroth-order로) 학습
- 온라인에서는 분류기로 “forget 관련 질의”를 탐지해 그때만 corruption을 주입
- 결과적으로 “처음부터 그 데이터를 안 본 모델” 출력에 가깝게 만들려는 접근입니다.
- Large Language Model Unlearning via Embedding-Corrupted Prompts (ECO Prompts) (NeurIPS 2024)

이 계열은 배포 후 적용이 쉽고 비용이 낮다는 장점이 있지만, “질의 탐지” 품질과 “공격자가 탐지를 우회”하는 경우가 약점이 됩니다.

4) “특정 모달/특정 예시”에 대한 국소적 unlearning (특히 멀티모달)

SIU (NeurIPS 2024; MLLM):
- “개념을 대표하는 단일 이미지”만으로 몇 step FT하여 시각 인식 개념을 잊게 만들고,
- 다면적 타깃 구성 + Dual Masked KL + CE 같은 결합 loss로 “forget과 utility”를 동시에 맞추려 합니다.
- Efficient Machine Unlearning in Multimodal Large Language Models (NeurIPS 2024)

5) Federated/Feature-level unlearning (클라이언트/특징 삭제)

Ferrari (NeurIPS 2024):
- “feature sensitivity(입력 feature perturbation에 대한 출력 민감도)”를 최소화하는 방향으로,
- **특정 feature(민감/백도어/편향)**를 연합학습 모델에서 선택적으로 제거하는 프레임워크.
- Ferrari: Federated Feature Unlearning … (NeurIPS 2024)

6) “방법 제안”보다는 ‘근본 한계/평가/공격’을 다루는 계열

이건 어떤 unlearning을 쓰든 반드시 같이 봐야 하는 축입니다.

6-A. 재학습/재획득(relearning) 문제 제기

Large Language Models Relearn Removed Concepts (Findings ACL 2024): “지웠다”는 개념이 빠르게 복구될 수 있음(신경 가소성/재학습 관점).

6-B. Poisoning 관점에서 unlearning이 실패할 수 있음을 입증

Machine Unlearning Fails to Remove Data Poisoning Attacks (ICLR 2025): 기존 실용 unlearning이 poisoning 효과 제거에는 실패할 수 있고, poisoning 기반 평가가 필요하다고 주장.

6-C. 공격(재구성)으로 “정말 삭제됐는지” 검증

Reconstruction Attacks on Machine Unlearning (NeurIPS 2024): 간단한 모델조차 삭제된 샘플의 특징을 재구성할 수 있음을 보여 “삭제 검증”의 중요성을 부각.

6-D. “정의/목표가 application마다 다르다” + 대표 알고리즘(SCRUB)

Towards Unbounded Machine Unlearning (NeurIPS 2023): bias removal / confusion 해결 / privacy(RTB) 등 목표별 forget metric이 달라야 하며, 이를 종합적으로 다루면서 SCRUB를 제안.

6-E. 평가 프로토콜 자체 재검토

Rethinking Evaluation Methods for Machine Unlearning (Findings EMNLP 2024): 기존 unlearning 평가가 “지웠다”를 과대평가할 수 있음을 지적하고, 평가 설계를 재검토합니다.

한 줄 결론:

(A) FT 기반 (forget vs retain 최적화): 가장 표준 — OBLIVIATE, (Yao survey가 다루는 다수 베이스라인)
(B) Preference/Refusal 기반: 출력 정책 억제 — AltPO, Learning to Refuse
(C) Inference-time 입력 조작: 배포 친화 — SPUL(soft prompt), ECO(embedding corruption)
(D) 특수 설정: 멀티모달 단일 예시(SIU), federated feature 삭제(Ferrari)
(E) 검증/한계/공격/평가: relearning, poisoning 실패, reconstruction attack, 평가 재설계, unbounded(SCRUB)

뉴런 수준(neuron-level) 또는 **SAE(희소 오토인코더) 특징 수준(feature level)**에서 unlearning(망각/삭제)하는 연구도 존재합니다. 이들은 일반적인 sample 단위 삭제보다 내부 표현/피처 차원을 직접 조작•제어하는 접근법입니다.

1. 뉴런 수준(neuron-level) unlearning

Learn to Forget: Machine Unlearning via Neuron Masking

(비교적 초창기 – 2021)

뉴런 단위로 **마스킹(masking)**을 통해 특정 데이터의 영향력을 제거하려는 접근법입니다.
여기서 중요한 뉴런을 찾아 활성화를 억제함으로써, 모델이 그 데이터에 대한 정보를 기억하지 못하게 합니다.
즉, 뉴런 자체를 직접 건드려서 내부 표현 차원에서 잊도록 유도합니다.

논문의 핵심 포인트

forgetting rate 라는 새로운 지표를 도입하여 “실제 잊힘” 정도를 평가
뉴런 마스킹 기반 삭제는 기존 엔드-투-엔드 재학습(retrain)보다 효율적이라는 결과를 보였습니다.

2. SAE(희소 오토인코더) feature level unlearning

이 계열은 **SAE(스파스 오토인코더)**를 활용해 모델의 내부 표현 공간을 해석하고, *특정 개념/특징(feature)*을 기반으로 unlearning을 수행합니다.

(ICCV 2025) SAUCE: Selective Concept Unlearning in Vision-Language Models via SAE

**SAE를 사용하여 의미적으로 중요한 특징(feature)**을 추출
그런 다음 해당 특징만 선택적으로 억제 또는 제거 → 정교한 개념 단위 망각 구현
VLM(비전-언어 모델)에서 오브젝트 또는 장면 개념을 선택적으로 잊는 데 성공했습니다.

(EMNLP 2025) Model Unlearning via SAE Guided Subspace Projection (SSPU)

SAE를 통해 중요 특징 공간(subspace)을 먼저 학습
그 공간만을 조정하도록 subspace-guided projection 방식으로 망각
단순 파라미터 수정보다 내부 표현(feature) 수준에서 더 정밀한 unlearning 가능 → 유틸리티 유지에도 도움이 된다는 결과를 보였습니다.

3. 관련 근래 연구 추세 (뉴런/표현 수준)

Representation-level unlearning

단순히 logits 또는 최종 출력만 조정하는 것이 아니라, 중간 레이어/representation 자체를 변경해 “진짜로 잊는 것”을 연구하는 흐름도 등장합니다.
예: 최근 발표 논문 Erase at the Core에서는 중간 표현 전체를 unlearning하도록 다층 대비(unlearning + supervised loss)를 결합한 방법을 제안합니다(아직 정식 학회 수록 전 프리프린트).
- Erase at the Core: Representation Unlearning for Machine Unlearning (arXiv 2026)

요약: neuron/feature 수준 unlearning 논문

분류	대표 접근법	수행 방식	참고
뉴런 수준 (Neuron-level)	Neuron Masking	뉴런 활성화 억제 → 영향 제거	Learn to Forget
SAE 피처 수준	SAUCE	SAE feature 기반 선택적 개념 제거	SAUCE (ICCV 2025)
	SSPU	SAE-guided subspace projection	(EMNLP 2025)
표현/내부 레이어 수준	Representation Unlearning	중간 representation unlearning	Erase at the Core

“Steering(표현/활성 방향 조작)”을 핵심 메커니즘으로 써서 unlearning(망각/삭제)을 수행하거나, **unlearning의 취약점을 steering으로 ‘복구/추출’**하는 논문들이 꽤 있습니다. 크게 3갈래로 묶입니다.

1) Representation/Activation “방향(Dir/Subspace)”을 조작해서 잊게 하는 unlearning

(A) 중간표현을 “랜덤 목표”로 오도(misdirection)하는 계열 = steering-based unlearning의 정석

RMU(Representation Misdirection for Unlearning): forget 샘플의 중간 레이어 표현을 랜덤 타깃 방향/표현으로 ‘끌고’(steer), retain은 유지해서 “기억 회수 자체를 어렵게” 만드는 류. 이 접근이 널리 인용되면서 “steer forget representations”라는 문구 자체가 정착했습니다.
- 핵심은 “forget set에서 특정 레이어 representation을 특정 목표(랜덤)로 유도” → 결과적으로 토큰 확신도(confidence) 저하 및 무의미/오답 생성으로 forget 효과 달성(이론 분석 포함).
- On Effects of Steering Latent Representation for Large Language Model Unlearning (AAAI 2025)

(B) forget 방향을 분리하고 정교하게 제거(orthogonal projection 등)

“Precision Unlearning via Directional Control / Directional control” 류(EMNLP Findings 2025): forget 관련 방향 u_D를 추정한 뒤, 활성(또는 표현)을 그 방향의 직교 여공간으로 투영해서 forget 성분만 제거하는 식의 “방향 제어”가 등장합니다.
- 한마디로 “steering vector를 ‘지우는 필터’처럼 쓰는 unlearning” 입니다.
- Lock on Target! Precision Unlearning via Directional Control (EMNLP Findings 2025)

2) 파라미터 업데이트 없이 ‘입력/프롬프트 쪽’에서 steering로 test-time unlearning

(A) Soft Prompt로 “unlearned mode”를 유도

SPUL(NAACL 2025): 학습 가능한 soft prompt 토큰을 prepend해서, 특정 forget 대상 질의에서만 모델이 “잊은 것처럼” 출력하도록 유도합니다(파라미터는 고정).
- 기술적으로는 “prompt embedding을 통해 activation을 원하는 방향으로 밀어” 출력 분포를 바꾸는 steering의 일종으로 볼 수 있습니다.
- Soft Prompting for Unlearning in Large Language Models (NAACL 2025)

(B) Embedding corruption / activation steering로 test-time에서 동적 지우기

멀티모달 쪽에서 특히 activation steering 기반 test-time unlearning이 명시적으로 등장합니다(예: MLLMEraser).
- “삭제 방향(erasure direction)”을 구성해서, 입력에 따라 동적으로 해당 방향을 주입/보정해 지우는 방식.
- MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering (arXiv 2025)

3) (중요) Steering이 unlearning을 “깨는 공격”으로도 쓰임

Extracting Unlearned Information from LLMs with Activation Steering (2024): unlearning된 모델에서조차, activation steering으로 **삭제된 정보를 정확히 ‘회수’**할 수 있음을 보입니다. 즉 steering은 unlearning 기법이기도 하지만 unlearning 취약점 공격이기도 합니다.

정리: “Steering 기반 unlearning”의 공통 구조(수식 관점)

대부분 다음 중 하나로 귀결됩니다.

표현 오도형(RMU류) $h^{(l)}(x_f)\ \leftarrow\ \text{steer}(h^{(l)}(x_f),\ \text{random target})$
방향 제거형(직교 투영 등) $h^{(l)} \leftarrow (I-u u^\top)\,h^{(l)}$
프롬프트/입력 기반(soft prompt/embedding 조작) $\text{embed}(x)\leftarrow [p;\ \text{embed}(x)] \quad\text{or}\quad \text{embed}(x)+\Delta$

연구적으로 “steering unlearning”에서 가장 중요한 포인트

삭제(deletion) vs 억제(suppression): steering 기반(특히 test-time)은 억제에 가까운 경우가 많아, 공격/우회 프롬프트에 취약할 수 있습니다. (위의 activation steering “회수 공격”이 그 예)
반대로 방향 분리 + 투영(orthogonal decomposition) 계열은 “삭제 성분을 subspace로 격리”하려는 시도라서, 향후 SAE feature-level과 결합하기 좋습니다.

최근 LLM Unlearning 연구에서 사용되는 데이터셋은 크게 벤치마크/평가용 데이터, 합성(시뮬레이션) 데이터, 그리고 실제 지식 기반 (real-world knowledge) 데이터로 나눌 수 있습니다. 주요 예시는 다음과 같습니다:

1. 대표적인 Unlearning 벤치마크 데이터셋

1) TOFU (Task-oriented Forgetting Unlearning Format)

특정 정보(예: 허구의 저자 정보)를 기반으로 만들어진 Q&A 세트
각 저자마다 20개의 질의-응답 포맷으로 구성된 forget set
총 약 4,000개 Q&A 쌍으로 구성되며 format 확장(MCQA, cloze 등)도 연구에 사용됨

–> 모델이 특정 사실/정보를 잊었는지 평가하는 데 쓰이는 대표적 benchmark

2) MUSE (Machine Unlearning Six-Way Evaluation)

6가지 평가 측면을 갖춘 unlearning 벤치마크
- verbatim memorization, knowledge memorization, privacy leakage, utility preservation 등
Harry Potter 책, 뉴스 기사 등 다양한 컨텐츠를 unlearning 대상 데이터로 설정

–> unlearning efficacy와 현실적 제약을 한꺼번에 평가

3) RWKU (Real-World Knowledge Unlearning)

유명 인물 200명에 대한 실제 지식을 forget set으로 구성
retain set과 forget set으로 성능 평가를 동시에 수행
여러 membership inference, 공격 probing 등을 포함한 평가 지표 제공

–> “실제 기억(knowledge)” 기반으로 unlearning 성능을 측정

2. 합성/시뮬레이션 기반 데이터셋

4) Synthetic Textbook / Synthetic datasets

고정된 task/explanatory data를 합성해 unlearning용 데이터 생성
연구에서 실제 LLM이 해당 지식을 먼저 습득하게 한 뒤 unlearning 수행하는 데 사용됨

–> 수작업 제거 없이 scalable한 unlearning 실험 가능

5) Paired TOFU / Swapped WMDP (Benchmark 변형)

기존 TOFU, WMDP 등을 변형한 benchmark variant
Unlearning 비교/스트레스 테스트용으로 활용됨

–> 다양한 perturbation/format 영향 분석 목적

3. 기타 관련 데이터셋/사용처

6) 사전학습 데이터 일부

일부 연구는 사전학습 코퍼스(예: The Pile, TDEC)의 부분 데이터 subset을 forget set으로 활용함
- Pile 전체가 아닌 특정 문서/섹션을 ignore하고 unlearning을 평가

–> 실제 큰 데이터셋에서 부분 삭제 상황을 재현

4. 이미지/멀티모달 고려 예시 (참고용)

Unlearning bench(기억 삭제) 개념은 Vision 분야에서도 다뤄지고 있어, UNLEARNCANVAS 같은 이미지 도메인의 수동 dataset도 존재함 (주로 Vision unlearning 연구)

정리: 데이터셋 분류

유형	대표 데이터셋	목적
Q&A 기반 unlearning 평가	TOFU, Paired TOFU	특정 지식 삭제 테스트
종합 평가 벤치마크	MUSE	다양한 unlearning 속성 평가
실제 지식 제거	RWKU	real-world knowledge unlearning
합성/시뮬레이션	Synthetic Textbook	자동/규모 확장 실험
사전학습 기반 subset	The Pile 일부	실제 학습 corpus 부분 삭제 재현

참고 포인트

✔ 대부분 unlearning 연구는 **forget set(지워야 할 정보)**과 **retain set(유지할 정보)**을 명시적으로 구성하고, 이를 활용해 잊고 유지하는 trade-off를 평가합니다.

✔ 벤치마크 중심으로 발전 중이라, 단순 Q&A 기반부터 privacy/보안/real-world 지식 등의 다양한 측면을 담은 benchmark가 최신 연구에서 제안되고 있습니다.

✔ 일부 데이터셋은 HuggingFace 등에 공개되어 있어 실험 재현/비교가 비교적 용이합니다.

** LLM Unlearning