* Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors (NeurIPS 2023)

본 논문은 대규모 사전학습 모델을 재학습 없이, 수천 번 순차적으로(edit sequentially) 수정하는 방법을 제안합니다. 핵심은 모델 가중치를 건드리지 않고, 특정 레이어에 discrete key-value adaptor (codebook) 를 추가하여 “국소적 수정(spot-fix)”을 수행하는 것입니다  .


1. 문제 배경: 왜 Lifelong Model Editing이 필요한가?

배포된 LLM은 시간이 지나면서:

  • 지식이 낡음 (factual decay)
  • hallucination 발생
  • 사회적 규범/라벨 기준 변화
  • 사용자 요구 변화

와 같은 문제가 발생합니다  .

그러나:

  • 재학습(retraining)은 매우 비쌈 (수백~수천 GPU-day)
  • 기존 model editing 기법은 연속 편집(sequential editing) 시 성능이 급격히 붕괴

→ 따라서 문제는:

수백~수천 번 순차적으로 edit하면서도 기존 성능을 유지할 수 있는가?

이를 Lifelong Model Editing 문제로 정식화합니다  .


2. 문제 정의 (Problem Formulation)

기본 모델:

f0(x)(frozen pretrained model)f_0(x) \quad \text{(frozen pretrained model)}

배포 중 입력 스트림:

x1,x2,x_1, x_2, \dots

각 시점에서 오류 발생:

y^t=f(xt)yt\hat{y}_t = f(x_t) \ne y_t

편집 후 요구 조건:

  1. Edit Success (ES): f(xt)=ytf(x_t) = y_t
  2. Edit Retention (ERR): 과거 edit 유지
  3. Test Retention (TRR): 기존 학습 데이터 성능 유지 

제약 조건:

  • pretraining 데이터 접근 불가
  • semantically equivalent input 없음
  • 단일 edit 입력만 사용 가능

3. 핵심 제안: GRACE

GRACE = General Retrieval Adaptors for Continual Editing

핵심 아이디어

모델 가중치는 절대 수정하지 않고,

특정 레이어 l 에:

Key-Value Codebook Adaptor 추가


3.1 GRACE 구조

각 레이어 adaptor는 다음을 포함:

구성요소설명
Keys (K)layer l-1 activation
Values (V)수정된 representation
ϵ (radius)유사도 허용 범위

수식적으로:

hl={GRACE(hl1)if minid(hl1,Ki)<ϵifl(hl1)otherwiseh_l = \begin{cases} \text{GRACE}(h_{l-1}) & \text{if } \min_i d(h_{l-1}, K_i) < \epsilon_i \\ f_l(h_{l-1}) & \text{otherwise} \end{cases} 

즉:

  • latent space에서 가장 가까운 key 검색
  • ϵ-ball 안이면 value로 교체
  • 아니면 원래 모델 그대로 통과

3.2 Codebook Update 전략

새로운 edit 발생 시:

Case 1: 기존 key와 멀다

→ 새 key-value 추가

Case 2: 가까운데 label 동일

→ ϵ 확장 (generalization 강화)

Case 3: 가까운데 label 다름

→ 기존 ϵ 줄이고 split

Algorithm 1에 정리되어 있음  .


4. 실험 설정

3가지 시나리오

TaskModelDataset
QA EditingT5-smallzsRE
Label ShiftBERTSCOTUS
HallucinationGPT2-XLSelfCheckGPT

상세 구성은 Appendix에 기술  .


5. 주요 결과

5.1 기존 방법 대비 성능

GRACE는:

  • 7개 baseline 대비 최고 TRR-ERR 균형
  • 수천 번 edit 후에도 성능 유지
  • hallucination 수정에서도 SOTA 

예:

  • T5에서 1000 edits → 단 137 keys 사용
  • GPT hallucination → 1392 edits 수행

5.2 Generalization vs Memorization

ϵ_init 조절 실험 결과:

  • 큰 ϵ → 더 일반화
  • 작은 ϵ → 더 안전하지만 key 증가

중간 layer (block 2,4)가 가장 잘 작동  .


5.3 Parameter Efficiency

각 edit 당 필요한 파라미터:

|hl1|+|hl|+1|h_{l-1}| + |h_l| + 1

  • key는 학습하지 않음
  • 매우 적은 learnable parameter 사용 

5.4 Inference Cost

  • 약 1.3× slowdown
  • codebook 커져도 큰 증가 없음 

6. 기존 모델 편집 방법과 비교

방법한계
Finetuningcatastrophic forgetting
EWClong-term retention 약함
MENDpretraining data 필요
ROMEmultiple edits 취약
SERAClarge auxiliary data 필요

GRACE는:

✔ weight untouched

✔ no external data

✔ sequential editing 가능

✔ plug-and-play adaptor


7. 한계

논문에서 언급한 제한점  :

  • inference 느려짐
  • multi-layer editing 미연구
  • edit implication propagation 없음
  • 악용 가능성 존재

8. 이 논문의 핵심 기여

  1. Lifelong Model Editing 문제 정의
  2. Discrete key-value adaptor 기반 editing
  3. 수천 번 sequential edit 최초 달성
  4. 실제 hallucination / label shift 시나리오 실험

9. 연구적 관점에서의 의미

이 논문은:

“Editing = weight update” 패러다임에서

“Editing = latent-space memory insertion” 패러다임으로 전환

입니다.

이는:

  • Retrieval-Augmented Editing
  • Memory-augmented LLM
  • Latent Space Partitioning

연구와 직접 연결됩니다.


Methodology

본 논문의 방법론은 가중치를 수정하지 않고, 특정 레이어의 latent representation을 국소적으로 재정의하여 순차적(edit-after-edit) 수정을 가능하게 하는 것입니다. 핵심은 Discrete Key-Value Codebook Adaptor입니다  .


1. 문제 설정 (Formal Setup)

사전학습된 모델:

f0(x)f_0(x)

  • 파라미터는 고정(frozen)

배포 중 입력 스트림:

x1,x2,x_1, x_2, \dots

오류 발생 시:

y^t=f(xt)yt\hat{y}_t = f(x_t) \neq y_t

목표:

  1. Edit Success: f(xt)=ytf(x_t) = y_t
  2. Edit Retention (ERR): 이전 edit 유지
  3. Test Retention (TRR): 기존 데이터 성능 유지 

제약:

  • pretraining 데이터 없음
  • semantically-equivalent 데이터 없음
  • 단일 edit 입력만 사용

2. GRACE의 핵심 구조

기본 아이디어

특정 레이어 l에 Adaptor를 삽입:

hl=fl(hl1)h_l = f_l(h_{l-1})

을 다음으로 대체:

hl={GRACE(hl1)if retrieval activatedfl(hl1)otherwiseh_l = \begin{cases} \text{GRACE}(h_{l-1}) & \text{if retrieval activated} \\ f_l(h_{l-1}) & \text{otherwise} \end{cases} 

즉,

  • latent space에서 비슷한 과거 edit를 찾으면
  • 그에 대응하는 수정 representation으로 교체

3. Codebook 구성

각 GRACE Adaptor는 다음 3요소로 구성됩니다  :

구성의미
Keys KiK_ilayer l-1 activation 저장
Values ViV_i수정된 representation (학습됨)
ϵiϵ_i (radius)influence 범위

4. Retrieval & Deferral Mechanism

거리 함수:

d(hl1,Ki)d(h_{l-1}, K_i)

최근접 key:

i=argminid(hl1,Ki)i^* = \arg\min_i d(h_{l-1}, K_i)

Activation 조건:

minid(hl1,Ki)<ϵi\min_i d(h_{l-1}, K_i) < \epsilon_{i^*}

조건 만족 시:

hl=Vih_l = V_{i^*}

아니면:

hl=fl(hl1)h_l = f_l(h_{l-1})

→ 이를 Deferral mechanism이라 부름  .


5. Edit 발생 시 Codebook 업데이트

새로운 edit (xt,yt)(x_t, y_t) 도착:

Step 1: query 계산

hl1=fl1(xt)h_{l-1} = f_{l-1}(x_t)

Step 2: 최근접 key 탐색

dmin=minid(hl1,Ki)d_{\min} = \min_i d(h_{l-1}, K_i)


Case A️: 멀리 있음

dmin>ϵi+ϵinitd_{\min} > \epsilon_i + \epsilon_{\text{init}}

→ 새 entry 추가:

(hl1,vnew,ϵinit)(h_{l-1}, v_{\text{new}}, \epsilon_{\text{init}})


Case B️: 가까움 & 같은 label

→ 기존 ϵ 확장:

ϵiϵi+ϵinit\epsilon_i \leftarrow \epsilon_i + \epsilon_{\text{init}}


Case C️: 가까움 & 다른 label

→ split:

ϵi=dmin2\epsilon_i = \frac{d_{\min}}{2}

ϵnew=dmin2\epsilon_{\text{new}} = \frac{d_{\min}}{2}

Algorithm 1에 정식화  .


6. Value 학습 방식

새 value v는 다음 loss로 학습:

=Finetuning Loss(f(xt;v),yt)\mathcal{L} = \text{Finetuning Loss}(f(x_t; v), y_t)

  • 100 step gradient descent
  • 모델 가중치는 고정
  • 오직 v만 학습 

즉,

Editing = representation replacement learning


7. Transformer에서의 적용 세부

Classification 모델 (BERT, T5)

  • value를 모든 토큰에 broadcast
  • representation을 강하게 제어

Autoregressive 모델 (GPT)

  • 마지막 token만 교체
  • 이후 생성에 영향 

8. 중요한 설계 선택

ϵ_init

  • 클수록 generalization ↑
  • interference ↑
  • codebook 작아짐

Layer 선택

Appendix에서 특정 layer 선택이 중요함을 실험적으로 확인  .


9. 이 방법의 본질

기존 편집:

weight update 기반

GRACE:

latent-space partition 기반

즉,

  • 모델 파라미터는 global
  • GRACE는 local memory patch

10. 계산 비용

각 edit 당 필요한 파라미터:

|hl1|+|hl|+1|h_{l-1}| + |h_l| + 1

  • key는 frozen
  • value만 학습 

방법론 요약

GRACE는:

  1. 특정 layer 선택
  2. latent activation을 key로 저장
  3. 수정 representation을 value로 학습
  4. ϵ-ball 기반 retrieval 적용
  5. weight 수정 없이 sequential edit 가능

실험 결과 (Experimental Results)

본 논문의 실험은 **“수백~수천 번의 순차적 편집 이후에도 성능이 유지되는가?”**라는 질문에 정면으로 답합니다. 결론부터 말하면, GRACE는 기존 모든 편집/continual learning 방법 대비 가장 안정적인 TRR–ERR 균형을 달성합니다  .


1. 실험 설정 요약

평가 모델 & 태스크

TaskModel목적
QA EditingT5-small (60M)factual error 수정
Label ShiftBERT-base (110M)시간에 따른 라벨 변화
HallucinationGPT2-XL (1.5B)문장 단위 hallucination 수정

각 실험은 hundreds–thousands of sequential edits로 구성됨  .


비교 방법 (Baselines)

  • Finetuning (FT)
  • FT + EWC
  • FT + Periodic Retraining
  • MEND
  • Defer (SERAC-style)
  • ROME (GPT only)
  • Memory Network (soft attention)

평가 지표

지표의미
ES (Edit Success)현재 edit 성공 여부
ERR (Edit Retention Rate)과거 edit 유지
TRR (Test Retention Rate)원래 성능 유지
ARR(Hallucination) 이미 정확했던 문장 유지
Runtimeedit 1회당 시간

메인 결과 (Table 2 핵심 요약)

전체적인 결론

GRACE는 모든 태스크에서 TRR과 ERR을 동시에 가장 잘 유지하는 유일한 방법이다.


(1) zsRE – T5 QA Editing (1000 edits)

MethodTRR ↑ERR ↑Avg
FT0.560.820.69
FT+EWC0.510.820.66
FT+Retrain0.270.990.63
MEND0.250.270.26
Defer0.720.310.52
Memory0.250.270.26
GRACE0.690.960.82

–> 최고 평균 성능, catastrophic forgetting 없음  .


(2) SCOTUS – BERT Label Shift (≈400 edits)

MethodTRR ↑ERR ↑Avg
FT0.520.520.52
FT+EWC0.670.500.58
FT+Retrain0.670.830.75
MEND0.190.270.23
Defer0.330.410.37
Memory0.210.200.21
GRACE0.810.820.82

–> 라벨 시프트 상황에서도 안정적인 유지  .


(3) Hallucination – GPT2-XL (1392 edits)

MethodTRR (PPL↓)ERR (PPL↓)ARR (PPL↓)
FT28.14107.8
FT+Retrain35.3195.8
Defer133.310.04
ROME30.28103.814.02
Memory25.4779.3010.07
GRACE15.847.1410.00

–> hallucination은 고치면서, 원래 잘하던 문장은 유지  .


3. 시간에 따른 성능 변화 (Figure 3)

관찰 결과

  • Finetuning 계열
    • 초반 ES ↑
    • 빠르게 TRR 붕괴
  • ROME / Memory
    • 초반에는 괜찮음
    • edit 수 증가 시 성능 하락
  • GRACE
    • ES, ERR, TRR 모두 안정적으로 유지
    • 1000+ edit 이후에도 성능 유지  .

4. Generalization vs Memorization 분석 (Figure 4)

설정

  • zsRE에서 3000 sequential edits
  • unseen paraphrase holdout 평가

핵심 관찰

  1. 중간 layer (Block 2, 4)
    • 높은 TRR & ERR
    • Holdout generalization 우수
  2. ϵ_init 효과
    • 작은 ϵ → memorization ↑, key 폭증
    • 큰 ϵ → generalization ↑, codebook 감소
  3. Codebook size 안정화
    • 초반 증가 후 plateau 형성  .

5. Codebook 효율성

Task#Edits#KeysEdits / Key
zsRE10001377.3
SCOTUS3812521.5
Hallucination13921341~1

–> edit label 다양성에 따라 자동으로 적응  .


6. Inference Time (Figure 6)

  • GRACE 적용 후 inference ≈ 1.32× 느림
  • codebook 커져도 추가 증가 없음
  • 벡터화된 nearest-neighbor search 덕분  .

7. 실험 결과 핵심 요약

GRACE는

  • 수천 번 edit 이후에도
  • 기존 지식(TRR)과 수정 지식(ERR)을
  • 동시에 유지하는 유일한 방법이다.

기존 방법들의 실패 원인

  • weight update → global interference
  • soft memory → 누적 drift
  • retraining → catastrophic forgetting

GRACE의 성공 요인

  • latent-space local intervention
  • discrete retrieval
  • ϵ-ball 기반 영향 제어


게시됨

카테고리

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다