Detecting Pretraining Data from Large Language Models (ICLR 2024)


1. 문제 제기: Pretraining Data Detection

LLM은 어떤 데이터로 학습되었는지 공개되지 않는 경우가 많음.

이로 인해 다음과 같은 문제가 발생:

  • 저작권 침해 가능성 (Books3 등)
  • 개인정보 포함 여부 불명확
  • 벤치마크 contamination 문제
  • machine unlearning 검증 어려움

따라서 논문은 다음 질문을 다룸:

Black-box LLM에 대해, 주어진 텍스트가 pretraining 데이터에 포함되었는지 판별할 수 있는가?

이는 Membership Inference Attack (MIA)의 pretraining 버전 문제이다.


2. 기존 MIA와의 차이점 (핵심 난점)

논문은 기존 fine-tuning MIA와 달리 pretraining detection이 어려운 이유를 정리한다.

(1) Pretraining 데이터 분포를 모름

기존 MIA는:

  • shadow model을 훈련
  • 비슷한 데이터 분포로 calibration

하지만 pretraining의 경우:

  • 데이터 분포 D 접근 불가
  • 수조 token → shadow model 훈련 불가능

reference model 사용 불가


(2) Detection difficulty 이론적 분석

Detection 난이도는 다음에 의존:

  • 데이터셋 크기 ↑ → detection 어려움
  • learning rate ↓ → detection 어려움
  • example occurrence ↓ → detection 어려움

이론적 근거:

  • Hardt et al. (SGD stability)
  • total variation distance bound

즉, pretraining은:

  • huge dataset
  • low epoch (1 pass)
  • 낮은 memorization

→ fine-tuning보다 detection이 더 어려움


3. WIKIMIA: Dynamic Benchmark

논문의 첫 번째 기여는 benchmark 구축.

핵심 아이디어

Wikipedia timestamp 활용:

구분구성
Member2016년 이전 Wikipedia 이벤트
Non-member2023년 이후 Wikipedia 이벤트

왜 가능한가?

  • 2023 이후 이벤트는 pretraining에 절대 포함 불가
  • 자동 수집 가능
  • 지속 업데이트 가능 (dynamic)

추가 설정

(1) Paraphrase setting

  • ChatGPT로 paraphrase 생성
  • verbatim이 아닌 경우 detection 가능한지 실험

(2) Length bucket

  • 32, 64, 128, 256 token
  • 길이에 따라 detection 난이도 달라짐

결과:

길이가 길수록 detection 쉬움


4. 핵심 기법: MIN-K% PROB

이 논문의 가장 중요한 기여.


핵심 가설

“Seen example은 매우 낮은 확률 token(outlier)이 적다.”

반대로:

“Unseen example은 몇 개의 매우 낮은 확률 token을 포함할 가능성이 높다.”


수식

문장 x=x1,...,xNx = x_1, …, x_N

각 token log-likelihood:

logp(xi|x<i)\log p(x_i | x_{<i})

  1. 가장 낮은 확률 token 상위 k% 선택
  2. 그 평균 log-likelihood 계산

MIN-K% PROB(x)=1ExiMin-K%(x)logp(xi|x<i)\text{MIN-K\% PROB}(x) = \frac{1}{E} \sum_{x_i \in \text{Min-K\%(x)}} \log p(x_i | x_{<i})

thresholding으로 membership 판별


특징

  • reference model 필요 없음
  • 추가 training 필요 없음
  • black-box probability만 사용
  • 매우 단순

논문 Figure 1이 이를 시각적으로 설명 


5. 실험 결과

WIKIMIA 결과

평균 AUC:

MethodAvg AUC
PPL0.67
Smaller Ref0.66
Neighbor0.65
MIN-K% PROB0.72

→ baseline 대비 +7.4% 향상


모델 크기 영향

모델이 클수록 detection 쉬움

Larger model → more memorization


텍스트 길이 영향

길수록 detection 쉬움

더 많은 memorized signal 포함


6. Case Study 1: Copyrighted Book Detection

GPT-3 (text-davinci-003) 대상으로 실험.

결과:

  • Books3 저작권 도서에서
  • AUC = 0.88
  • 90% 책이 contamination rate > 50%

이는:

GPT-3가 Books3 저작권 도서를 학습했을 가능성에 대한 강한 증거


7. Case Study 2: Downstream Contamination

LLaMA 7B에 downstream 데이터 삽입 후 실험

MethodAvg AUC
PPL0.84
MIN-K% PROB0.86

또한 실험적으로 확인:

  • occurrence ↑ → detection 쉬움
  • learning rate ↑ → detection 쉬움
  • dataset size ↑
    • outlier contamination: detection 쉬워짐
    • in-distribution contamination: 어려워짐

8. 이 논문의 학술적 의미

기존 연구

  • Fine-tuning data MIA 중심
  • Reference model 기반

본 논문

  • Pretraining MIA 문제 최초 체계적 연구
  • Reference-free 방법 제안
  • Dynamic benchmark 구축

9. 한계점

  1. 완전한 확정 증거는 아님 (통계적 추정)
  2. Black-box probability 접근 필요
  3. 매우 in-distribution 데이터는 detection 어려움
  4. k% 하이퍼파라미터 고정

10. 핵심 Takeaway

이 논문은 다음을 보여줌:

LLM은 reference model 없이도 pretraining membership detection이 가능하다.

그리고 상당한 수준으로 탐지할 수 있다.

그리고 더 중요한 점:

모델이 클수록, 더 잘 기억한다.


다음은 논문의 **Related Work (Section 7)**을 중심으로 한 정리입니다. 


1. Membership Inference Attacks (MIA) — 일반적 배경

정의

Membership Inference Attack (Shokri et al., 2017):

임의의 샘플이 모델의 학습 데이터에 포함되었는지를 판별하는 공격

초기 연구 영역

  • Tabular data
  • Computer vision

주요 접근:

  • confidence score 기반
  • loss 기반 (Yeom et al., 2018)
  • shadow model 기반 calibration

2. NLP에서의 MIA 연구

최근 NLP 영역으로 확장되었으나, 대부분은 fine-tuning 데이터 탐지에 집중됨.

주요 연구 흐름

Fine-tuning Data Detection

  • Song & Shmatikov (2019)
  • Shejwalkar et al. (2021)
  • Mahloujifar et al. (2021)
  • Mireshghallah et al. (2022)

특징:

  • target model과 동일 구조의 shadow model 학습
  • target loss calibration
  • reference model 필요

3. Perplexity 기반 탐지

Yeom et al. (2018)

  • Loss thresholding 방식
  • PPL 낮으면 member 가능성 ↑

Carlini et al. (2021)

  • training data extraction 연구
  • zlib entropy 비교
  • smaller reference model 비교

이 논문에서 baseline으로 사용됨.


4. Neighborhood / Curvature 기반 방법

Mattern et al. (2023)

  • probability curvature 기반 membership detection
  • DetectGPT와 유사

아이디어:

모델이 학습한 데이터 주변은 local curvature가 다름


5. Privacy Auditing & Differential Privacy

MIA는 단순 공격이 아니라:

  • privacy risk quantification
  • DP-SGD 검증
  • federated learning 취약성 분석

관련 연구:

  • Jayaraman & Evans (2019)
  • Nasr et al. (2021, 2023)
  • Jagielski et al. (2020)

6. Pretraining Data Detection의 공백

논문이 강조하는 핵심:

기존 연구는 거의 모두 fine-tuning 데이터 탐지에 초점.

Pretraining의 경우:

  • 데이터 분포 접근 불가
  • shadow model 훈련 불가
  • dataset 규모 압도적
  • single epoch training

→ 기존 방법 적용 불가능


7. Data Contamination 연구

LLM contamination 관련:

  • Magar & Schwartz (2022)
  • Narayanan (2023)
  • Sainz et al. (2023)

주로:

  • benchmark leakage
  • memorization 사례 보고

하지만:

  • 체계적 membership detection framework 부재

8. Memorization 연구

Detection difficulty 분석과 관련:

  • Hardt et al. (SGD stability)
  • Bassily et al. (2020)
  • Feldman (2020) — long-tail memorization
  • Zhang et al. (2021) — counterfactual memorization

본 논문은 이 이론을 detection difficulty 분석에 활용.


9. 이 논문의 위치

기존 연구 대비:

구분기존 연구본 논문
대상Fine-tuningPretraining
Reference model필요불필요
Benchmark없음WIKIMIA 제안
Real-world 적용제한적Book detection, contamination

10. 핵심 차별성

  1. 최초의 pretraining MIA benchmark
  2. 최초의 reference-free pretraining detection method
  3. Detection difficulty에 대한 이론+실험 분석
  4. Copyright auditing 실증

11. 연구적 시사점 (심화 관점)

이 Related Work는 다음 큰 연구 축과 연결됨:

  • LLM Privacy Risk Quantification
  • Data Provenance Verification
  • Memorization vs Generalization 분석
  • Machine Unlearning 검증

다음은 논문의 **방법론(Methodology)**을 문제정의 → 벤치마크 설계 → 탐지 알고리즘 → 이론적 분석의 순서로 정리한 내용입니다. 


1) 문제 정의: Pretraining Data Detection as MIA

설정

  • 언어모델 fθf_\theta
  • (비공개) pretraining 데이터 D={zi}i=1n𝒟D = \{z_i\}_{i=1}^n \sim \mathcal{D}
  • 임의 텍스트 x

목표는 black-box 접근(토큰 확률만 질의 가능) 하에서

h(x,fθ){0,1}h(x, f_\theta) \rightarrow \{0,1\}

으로 x가 pretraining에 포함되었는지(member) 판별하는 것.

제약

  • 𝒟\mathcal{D} 접근 불가
  • shadow/reference model 훈련 불가
  • 단일 pass 대규모 pretraining → fine-tuning MIA보다 난이도 높음

2) WIKIMIA: 동적 벤치마크 설계

핵심 아이디어: Timestamp 기반 Gold Label

  • Non-member: 모델 학습 이후(예: 2023년 이후) 생성된 Wikipedia 이벤트 페이지
  • Member: 2016년 이전 Wikipedia 이벤트 페이지(다수 LLM이 Wikipedia dump 포함)

구성 절차

  1. Wikipedia API로 이벤트 카테고리 수집
  2. 생성일 기준 필터링(>2023: non-member, <2017: member)
  3. 의미 없는 목록형 페이지 제거
  4. 길이 bucket(32/64/128/256)별 평가
  5. Paraphrase setting(LLM으로 의미 보존 변형)

장점

  • 정확성(시간적 인과성 보장)
  • 범용성(여러 LLM에 적용)
  • 동적 업데이트 가능

3) 핵심 알고리즘: MIN-K% PROB

가설

Unseen 텍스트는 극저확률(outlier) 토큰을 소수 포함할 가능성이 높고,

Seen 텍스트는 그러한 토큰이 상대적으로 적다.

즉, **“가장 낮은 확률 토큰들만 평균”**하면 member/non-member가 더 잘 분리된다.


수식 정의

문장 x=(x1,,xN)x = (x_1, \dots, x_N)

토큰 로그우도:

i=logp(xi|x<i)\ell_i = \log p(x_i \mid x_{<i})

  1. 확률이 가장 낮은 토큰 상위 k%:Min-K%(x)=arg bottom-k%{i}k\% 선택: \text{Min-K\%}(x) = \text{arg bottom-}k\% \{\ell_i\}
  2. 해당 토큰들의 평균 로그우도: MIN-K% PROB(x)=1ExiMin-K%(x)i\text{MIN-K\% PROB}(x) = \frac{1}{E} \sum_{x_i \in \text{Min-K\%}(x)} \ell_i
  3. 임계값 ϵ\epsilon으로 membership 판정: member if MIN-K% PROB(x)ϵ\text{member if } \text{MIN-K\% PROB}(x) \ge \epsilon
  • **k=20%**가 검증셋에서 최적(모든 실험에 고정)
  • AUC 보고 → 임계값 튜닝 불필요

왜 효과적인가? (직관)

  • 일반 PPL은 평균 → 정보 희석
  • MIN-K%는 tail(저확률 구간)만 집계
  • memorization은 특정 희귀/고유 표현에서 신호가 큼
  • 따라서 tail 평균이 더 민감한 통계량

4) 베이스라인 비교 (Sentence-level 확률 기반)

  • LOSS/PPL: 전체 평균 loss
  • Zlib entropy 비교
  • Lowercased PPL 비교
  • Smaller reference model 비교
  • Neighbor/Curvature(DetectGPT 계열)

→ MIN-K% PROB는 reference-free이며 평균 AUC 0.72로 최고 성능.


5) 이론적 분석: Detection Difficulty

관점

Member zDz \in D vs Non-member yDy \notin D

판별 난이도는

TV(fθ(z),fθ(y))\text{TV}(f_\theta(z), f_\theta(y))

(총변동거리)에 의존.

SGD stability 이론(Hardt et al., Bassily et al.)에 따르면,

TV bound는 대략적으로:

  • 데이터셋 크기 n 에 반비례
  • 학습률 η\eta 에 비례
  • 해당 샘플의 등장 빈도에 비례

실험적 검증

  • 학습률 ↑ → 탐지 쉬움
  • 샘플 등장빈도 ↑ → 탐지 쉬움
  • 데이터 크기 ↑
    • outlier contamination: 더 잘 탐지(롱테일 암기 강화)
    • in-distribution contamination: 더 어려움

6) Case Study 설계

(A) 저작권 도서 탐지 (GPT-3)

  • Books3 발췌 512-token snippet
  • validation으로 threshold 결정
  • contamination rate 산출
  • AUC 0.88

(B) Downstream contamination

  • LLaMA-7B에 downstream 예시 삽입(0.1%)
  • AUC로 탐지 성능 측정
  • occurrence/learning rate/데이터 크기 ablation

7) 방법론의 특성 요약

속성내용
접근Black-box (token prob만 필요)
추가 학습불필요
Reference model불필요
복잡도O(N log N) (토큰 정렬)
핵심 통계Tail 평균 로그우도

8) 방법론적 한계

  • 완전 in-distribution 데이터는 분리 어려움
  • paraphrase 강도가 강할수록 성능 저하
  • 확률 접근 불가 API 모델에는 적용 어려움
  • k% 고정값의 일반화 한계

9) 이 방법의 수학적 재해석 (고급 관점)

MIN-K% PROB는 사실상:

Conditional tail expectation of log-likelihood

즉,

𝔼[i|iqk]\mathbb{E}[\ell_i \mid \ell_i \le q_k]

이는 risk measure 관점에서 CVaR(Conditional Value at Risk)와 유사.

→ memorization은 tail-risk 감소 현상으로 해석 가능.


다음은 논문의 **실험 결과(Experiments & Results)**를 정리한 내용입니다. 


1. WIKIMIA 메인 결과

실험 설정

  • 모델:
    • Pythia-2.8B
    • GPT-NeoX-20B
    • LLaMA-30B
    • LLaMA-65B
    • OPT-66B
  • 설정:
    • Original (verbatim)
    • Paraphrase
  • Metric:
    • AUC
    • TPR@5%FPR

AUC 결과 (Table 1)

MethodAvg AUC
Neighbor0.65
PPL (LOSS)0.67
Zlib0.65
Smaller Ref0.66
MIN-K% PROB0.72

→ 기존 최강 baseline(PPL) 대비 +7.4% 향상


관찰 1: 모델 크기 영향

Figure 2a 결과:

  • 7B → 13B → 30B → 65B
  • 모델이 커질수록 AUC 상승

해석:

Larger models memorize more → membership detection easier


관찰 2: 텍스트 길이 영향

Figure 2b 결과:

  • 32 → 64 → 128 → 256 token
  • 길수록 AUC 증가

해석:

긴 텍스트는 memorized signal이 더 많이 포함됨


2. Copyrighted Book Detection (Case Study 1)

설정

  • 대상 모델: GPT-3 (text-davinci-003)
  • Validation:
    • 50 memorized book
    • 50 2023년 신간
  • Test:
    • Books3 100권
    • 각 책 100개 snippet (512 token)

결과

Validation AUC:

MethodAUC
PPL0.84
Zlib0.81
Neighbor0.75
MIN-K% PROB0.88

Contamination Rate

  • 상위 20권 중 거의 100% contamination
  • 전체 100권 중 약 90%가 50% 이상 contamination rate

의미:

GPT-3가 Books3 저작권 도서를 학습했을 가능성에 대한 강한 통계적 증거


3. Downstream Dataset Contamination (Case Study 2)

설정

  • LLaMA-7B
  • RedPajama corpus + downstream 데이터 삽입 (0.1%)
  • Task:
    • BoolQ
    • CommonsenseQA
    • IMDB
    • TruthfulQA

AUC 결과 (Table 3)

MethodAvg AUC
Neighbor0.66
Zlib0.68
PPL0.84
MIN-K% PROB0.86

TPR@5%FPR (Appendix Table 6)

  • MIN-K% PROB가 baseline 대비 약 +12.2% 향상

4. Ablation Study

4.1 Dataset Size

두 경우로 나뉨:

(A) Outlier contamination

  • downstream 예시처럼 tail sample
  • dataset size ↑ → detection 쉬워짐

이유:

Long-tail memorization 강화


(B) In-distribution contamination

  • News 2023 예시
  • dataset size ↑ → detection 어려워짐

이론적 기대와 일치


4.2 Data Occurrence

  • Poisson 분포로 등장 횟수 조절
  • occurrence ↑ → AUC ↑

→ 반복 등장 = memorization 증가


4.3 Learning Rate

LRAvg AUC
1e-5낮음
1e-4크게 증가

해석:

높은 learning rate → memorization 강화 → detection 쉬움


5. 종합 해석

(1) Reference-free인데도 strong 성능

Shadow model 없이도 의미 있는 detection 가능

(2) Detection은 memorization proxy

모델 크기, LR, frequency와 직접적 상관

(3) Outlier vs In-distribution 차이 명확

Long-tail memorization이 중요한 요인


6. 실험의 연구적 함의

  • Large LLM은 실제로 상당한 memorization 보임
  • Membership detection은 완전히 불가능하지 않음
  • Copyright auditing 가능성 시사
  • Unlearning 검증에도 활용 가능


게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다