1. 문제 정의 및 연구 배경

Data Contamination이란?

테스트셋의 일부 샘플이 LLM의 pre-training 데이터에 이미 포함되어 있는 현상을 의미합니다.

이 경우 모델은 **일반화(generalization)**가 아니라 **암기(memorization)**로 정답을 맞출 수 있습니다.

논문에서는 contamination을 두 유형으로 구분합니다:

Input-only contamination
- 질문만 training 데이터에 존재
- 정답(label)은 없음
Input-and-label contamination
- 질문 + 정답이 함께 존재
- 가장 위험한 유형

(p.2 정의 부분 참고 )

2. 기존 연구의 한계

기존 contamination 분석은:

GPT-4, Llama 등 모델 개발사 내부 분석
전체 benchmark를 포괄하지 않음
코드 및 측정 방식 공개 부족
training data 접근 불가

즉, 투명성 부족 문제가 존재합니다.

3. 제안 방법 (핵심 기여)

핵심 아이디어

Training data에 접근하지 않고 contamination을 추정할 수 있는 공개 파이프라인 구축

사용 자원

Bing Search API
Common Crawl index

이 두 자원은 대부분의 LLM pretraining 데이터에 포함될 가능성이 높음

(GPT-3, LLaMA training data의 80% 이상이 Common Crawl 기반 — p.4 )

Contamination Detection Pipeline

Step 1: Query 구성

MCQ 문제를 정답을 채운 문장으로 verbalize
예:

The flaw in Anderson’s ACT theory was that some considered it untestable...

Step 2: Bing 검색

해당 문장이 웹에 존재하는지 확인

Step 3: Common Crawl index 확인

그 URL이 Common Crawl에 수집되었는지 확인

Step 4: METEOR 유사도 계산

strict exact match 대신
METEOR recall > 0.75 → contamination으로 판정
순서 penalty(γ=0.8), 2× query length window 제한 적용

(p.4–5 설명 )

4. 분석 대상

6개 Multi-choice Benchmark

Benchmark	특성
MMLU	학술 시험 기반
C-Eval	중국어 시험 기반
ARC	과학 시험
HellaSwag	WikiHow 기반
CommonsenseQA	ConceptNet 기반
Winogrande	인간 제작

총 15개 이상 LLM 평가

5. Contamination 통계 (Table 1, p.5)

Benchmark	Total Contam
C-Eval	45.8%
MMLU	29.1%
ARC	28.7%
HellaSwag	12.4%
CommonsenseQA	1.6%
Winogrande	1.1%

(p.5 표 )

🔍 주요 발견

학술 시험 기반 benchmark가 contamination 가장 심함
Winogrande (human authored) 거의 contamination 없음
대부분 contamination은 input-and-label
2020 → 2023 사이 contamination 급증 (p.6 Figure 2)

6. Contamination이 성능에 미치는 영향

성능 inflation

HellaSwag

최대 +7% accuracy inflation

C-Eval

최대 +14% inflation

MMLU

영향은 상대적으로 작음

(Table 2, 3 — p.7 )

중요한 발견

Input-only contamination

성능 향상 거의 없음
오히려 더 어려운 문제일 가능성 있음

Input-and-label contamination

명확한 성능 상승
METEOR score가 높을수록 accuracy 상승 (Figure 4, p.8)

모델 규모 영향

70B > 13B > 7B
큰 모델이 contamination을 더 잘 exploit

(메모리 capacity 가설 — Carlini et al. 인용)

7. Domain 집중 현상

Figure 3 (p.6)

contamination이 특정 도메인에 집중
예: HellaSwag → wikihow.com 집중

→ 특정 도메인 blocklist 전략 가능

8. 기존 방법과 비교 (Table 4, p.9)

Method	Contam %	Inflation
Ground truth (Llama-2)	8.4%	7.42%
Ours	8.3%	7.29%
minK-20%	N/A	14.29%

→ 제안 방법이 ground truth와 거의 일치

9. 한계

Bing API 비용 (~$110 for MMLU 전체)
긴 passage benchmark (SQuAD 등) 분석 어려움
비공개 user data contamination은 탐지 불가

(p.9 Limitation )

10. 핵심 메시지

Data contamination은 실제로 심각하다

최대 45% contamination
accuracy inflation 최대 14%

시간이 지날수록 악화

학술 시험 benchmark 특히 위험

큰 모델일수록 더 취약

memorization capacity 때문

공개 contamination 분석 필요

개발사 내부 보고만으로는 불충분

다음은 논문의 **방법론(Methodology)**을 정리한 것입니다

1. 문제 설정

목표는 다음 두 단계입니다:

Test sample을 clean vs contaminated로 분류
각 subset에서 모델 성능을 비교하여 contamination 영향 측정

중요 제약:

대부분 LLM의 training data 접근 불가
수 PB 규모 corpus 로컬 인덱싱 불가능

따라서 논문은 training data를 직접 보지 않고 contamination을 추정하는 간접 접근을 제안합니다.

2. 핵심 아이디어

Proxy-based Contamination Detection

“Web presence + Common Crawl indexing”을 training data의 proxy로 사용

근거:

GPT-3, LLaMA pretraining 데이터의 80% 이상이 Common Crawl 기반
나머지도 대부분 온라인 자료 기반

즉:

Test example이
(1) 웹에 존재하고
(2) Common Crawl에 index되어 있다면
→ LLM training data에 포함되었을 가능성 높음

3. 전체 파이프라인

Step 1: Query Verbalization

Multi-choice 문제를 정답을 채운 문장 형태로 변환

예시:

Original:

The flaw in Anderson’s ACT theory was that some considered it ____.
Answer: B

Verbalized:

The flaw in Anderson’s ACT theory was that some considered it untestable and thus...

중요 설계:

다른 선택지는 포함하지 않음
질문 + 정답이 contamination 핵심 요소

Step 2: Bing Search API 탐색

해당 문장이 verbatim으로 웹에 존재하는지 검색
Freshness parameter로 기간 제한
검색 window: 2017 ~ 모델 knowledge cutoff

Step 3: Common Crawl Index 검증

Bing에서 찾은 URL이
Common Crawl index에 존재하는지 확인

중요 포인트:

Common Crawl 전체 문자열 검색하지 않음
URL 존재 여부만 확인 → 비용 절감

4. Overlap 판정 방식

기존 방법 문제:

Exact match → false negative 많음
n-gram match → 변형 문장 탐지 어려움

제안 방법: METEOR 기반 유사도

METEOR recall > 0.75 → contaminated
Order penalty γ = 0.8
Matching window ≤ 2× query length

이 설계는:

삽입어 허용
어형 변화 허용
문장 순서 보존

을 동시에 달성

5. Contamination 유형 분류

논문은 두 유형을 명확히 구분:

Input-only contamination

질문만 존재
정답 없음

Input-and-label contamination

질문 + 정답 존재
가장 위험

이 분리는 후속 성능 분석에서 매우 중요합니다.

6. 시간적 분석 설계

Contamination 증가 추적:

2017–2020
2020–2023

동일 pipeline으로 시계열 비교

결과:

Academic benchmark contamination 급증

7. 모델 성능 분석 방법

Benchmark를 4개 subset으로 분리:

Clean
Not clean
Input-only
Input-and-label

모델 평가 설정:

HellaSwag, ARC → zero-shot
MMLU, C-Eval → 5-shot
Perplexity 기반 선택 (lowest ppl 선택)

OpenCompass 사용

8. METEOR score vs Accuracy 분석

Test sample을 METEOR score 구간별로 그룹화:

Higher METEOR → Higher accuracy

→ overlap 강도가 클수록 memorization 가능성 증가

9. Ground Truth 비교

Llama-2 contamination report와 비교:

<1% contamination 오차
<2% inflation 오차

minK-20% 대비 더 정확

10. 방법론의 기술적 강점

Training data 불필요

비용 효율적

공개 재현 가능

모델 독립적

11. 방법론 한계

긴 passage benchmark 적용 어려움
Bing API 비용 존재
비웹 training data 탐지 불가
paraphrased contamination 탐지 한계

12. 방법론 구조 요약 (알고리즘 관점)

For each test sample x:

    q = verbalize(x, answer)
    
    urls = BingSearch(q, time_window)
    
    For each url in urls:
        if url ∈ CommonCrawlIndex:
            similarity = METEOR(q, page_text)
            
            if similarity > 0.75:
                if answer in page_text:
                    label = input-and-label
                else:
                    label = input-only

13. 연구적으로 중요한 설계 선택

Exact match 대신 METEOR
Web + CC 이중 검증
Answer 포함 query 설계
Temporal window 제한
유형별 contamination 분리

An Open-Source Data Contamination Report for Large Language Models (EMNLP 2024 Findings)

1. 문제 정의 및 연구 배경

Data Contamination이란?

2. 기존 연구의 한계

3. 제안 방법 (핵심 기여)

핵심 아이디어

사용 자원

Contamination Detection Pipeline

Step 1: Query 구성

Step 2: Bing 검색

Step 3: Common Crawl index 확인

Step 4: METEOR 유사도 계산

4. 분석 대상

6개 Multi-choice Benchmark

5. Contamination 통계 (Table 1, p.5)

🔍 주요 발견

6. Contamination이 성능에 미치는 영향

성능 inflation

HellaSwag

C-Eval

MMLU

중요한 발견

Input-only contamination

Input-and-label contamination

모델 규모 영향

7. Domain 집중 현상

8. 기존 방법과 비교 (Table 4, p.9)

9. 한계

10. 핵심 메시지

Data contamination은 실제로 심각하다

시간이 지날수록 악화

큰 모델일수록 더 취약

공개 contamination 분석 필요

1. 문제 설정

2. 핵심 아이디어

Proxy-based Contamination Detection

3. 전체 파이프라인

Step 1: Query Verbalization

Step 2: Bing Search API 탐색

Step 3: Common Crawl Index 검증

4. Overlap 판정 방식

제안 방법: METEOR 기반 유사도

5. Contamination 유형 분류

Input-only contamination

Input-and-label contamination

6. 시간적 분석 설계

7. 모델 성능 분석 방법

8. METEOR score vs Accuracy 분석

9. Ground Truth 비교

10. 방법론의 기술적 강점

Training data 불필요

비용 효율적

공개 재현 가능

모델 독립적

11. 방법론 한계

12. 방법론 구조 요약 (알고리즘 관점)

13. 연구적으로 중요한 설계 선택

댓글

답글 남기기 응답 취소