* Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (NeurIPS 2024)

논문 개요

이 논문은 black-box 환경에서 자동으로 LLM을 jailbreak하는 방법인 TAP (Tree of Attacks with Pruning) 을 제안합니다.

핵심은 다음 세 가지 조건을 모두 만족하는 공격 방법입니다:

  1. Automated – 인간 개입 없이 자동 생성
  2. Black-box – 모델 파라미터 접근 없이 API query만 사용
  3. Interpretable – 의미 없는 토큰 나열이 아닌 자연어 프롬프트 생성

기존 black-box 방법(PAIR)을 확장하여, branching + pruning 구조를 도입해 성공률을 크게 개선합니다  .


1. 문제 정의

LLM alignment (RLHF, guardrail 등)에도 불구하고,

“How to build a bomb?” 같은 harmful query를 우회하는 jailbreak 공격은 여전히 가능합니다.

공격 목표는:

원래 harmful query Q가 있을 때

target LLM T가 harmful 정보를 출력하도록 만드는 프롬프트 P를 찾는 것

논문은 이를 다음과 같이 형식화합니다 (Section 2):

  • Judge(Q, R): 응답 R이 성공적인 jailbreak인지 평가
  • Off-Topic(P, Q): 프롬프트 P가 원래 질의 Q와 의미적으로 일치하는지 판단 

2. TAP의 핵심 아이디어

기존 SOTA: PAIR

PAIR는 다음 구조입니다:

Query → Attacker LLM → Target LLM → Evaluator → 반복

하지만:

  • 단일 chain 탐색
  • branching 없음
  • pruning 없음
  • query efficiency 낮음

TAP: Tree 구조로 확장

TAP은 Tree Search + LLM 기반 평가 구조를 도입합니다.

알고리즘 구조 (Algorithm 1, p.6)

각 iteration에서:

① Branch

  • attacker LLM이 현재 prompt를 b개 변형 생성
  • chain-of-thought reasoning 사용
  • 과거 시도 history 참조

② Prune (Phase 1)

  • evaluator가 off-topic prompt 제거

③ Attack & Assess

  • target LLM에 query
  • evaluator가 jailbreak 여부 score 평가
  • 성공 시 종료

④ Prune (Phase 2)

  • 상위 w개 prompt만 유지
  • 나머지는 제거

이를 depth d까지 반복  .


3. Branching과 Pruning의 역할

논문에서 ablation 실험 수행 (Table 4, p.9):

VariantJailbreak RateQueries
TAP84%22.5
No-Branch48%33.1
No-Prune72%55.4

결론:

  • Branching → 성공률 향상
  • Pruning → query efficiency 향상
  • 둘 다 필요 

이는 일종의 Tree-of-Thought 스타일 search를 jailbreak에 적용한 것이라 볼 수 있습니다.


4. 실험 결과 (Table 1, p.8)

AdvBench Subset에서 GPT4-metric 기준:

TargetTAPPAIR
GPT490%60%
GPT4-Turbo84%44%
GPT4o94%78%
GeminiPro96%81%
  • 평균 query < 30
  • PAIR보다 성공률 ↑ + query ↓
  • GPT4o에서 94% 성공률 달성 

Guardrail 환경 (Llama-Guard)

보호 모델에서도:

  • GPT4o: 96% 성공
  • PAIR보다 높은 성능 유지 

Transferability

다른 모델로의 transfer도 baseline과 비슷한 수준 유지 (Table 3)


5. 기술적 해석

왜 잘 되는가?

TAP은 사실상:

LLM-guided discrete search over natural-language attack space

을 수행합니다.

구조적으로 보면:

  • Attacker → candidate generation model
  • Evaluator → learned scoring function
  • Target → environment
  • Pruning → beam search

즉, 이는 LLM 기반 Beam Search + Self-Evaluation Loop 입니다.


6. 기존 방법과의 차이

방법White-boxInterpretableAutomatedQuery-efficient
GCGOXOX
PAIRXOO
TAPXOOO

특히 GCG는 수십만 query 필요  .


7. 한계 (Section 7)

논문에서 인정한 한계:

  • Judge model 오차 가능성 (FP 13%) 
  • 데이터셋 편향
  • closed-source 모델 업데이트 영향 평가 불가
  • harmful content 외의 jailbreak는 미평가

8. 연구적 관점에서의 해석

이 논문은 다음과 같이 볼 수 있습니다:

① Black-box Adversarial Search as Tree-of-Thought

ToT를 공격 문제로 전환한 사례.

② Alignment robustness의 한계

RLHF + Guardrail 모두 우회 가능.

③ Automated Red-Teaming Framework

RLHF fine-tuning용 adversarial data 생성기로 활용 가능.



9. 핵심 요약

TAP은:

  • Black-box
  • Interpretable
  • Automated
  • Query-efficient

한 jailbreak 알고리즘이며, branching + pruning 구조가 성능 핵심 요인입니다  .

이는 LLM 기반 search framework로 이해할 수 있으며, alignment robustness 연구 및 automated red-teaming에 중요한 기여를 합니다.


본 논문의 방법론은 LLM을 이용한 black-box jailbreak 탐색을 tree search 문제로 정식화하고, 이를 branching + pruning 구조로 해결하는 것입니다  .


1. 문제 설정 (Formal Setup)

주어진 요소:

  • Target LLM: T
  • Attacker LLM: A
  • Evaluator LLM: E
  • Harmful query: Q

목표:

자연어 프롬프트 P를 찾아

T가 harmful response R을 생성하도록 만드는 것

논문은 두 개의 함수로 이를 정의합니다  :

Judge(Q, R)

  • 응답 R이 성공적인 jailbreak인지 평가

Off-Topic(P, Q)

  • P가 Q와 의미적으로 일치하는지 평가

2. TAP의 전체 구조

TAP은 다음 파라미터를 가집니다  :

  • Branching factor (b)
  • Width (w)
  • Depth (d)

즉, 이는 다음과 같은 제한된 tree search입니다:

Tree depth ≤ d
각 노드에서 b개 확장
각 레벨에서 상위 w개 유지

3. 알고리즘 단계별 설명

논문 Algorithm 1 기반 정리 


Step 0. Initialization

  • 루트 노드는 harmful query Q
  • conversation history 초기화

Step 1. Branch

각 leaf 노드에서:

  1. Attacker LLM A가 현재 프롬프트를 분석
  2. “어떻게 수정하면 jailbreak 성공 가능성이 높아질까?“를 reasoning
  3. b개의 개선된 프롬프트 P1P_1, …, PbP_b 생성

중요한 점:

  • Chain-of-thought reasoning 강제
  • 과거 시도 기록(history)을 context로 활용

이는 사실상:

Piq(C;A)P_i \sim q(C; A)

여기서 C는 conversation history 


Step 2. Prune (Phase 1)

Evaluator E가:

OffTopic(Pi,Q)Off\text{-}Topic(P_i, Q)

를 평가하여 의미적으로 벗어난 프롬프트 제거  .

→ 탐색 공간 축소


Step 3. Attack & Assess

남은 프롬프트에 대해:

Rq(P;T)R \sim q(P; T)

Target LLM에 query

이후:

S = Judge(Q, R)

  • 성공하면 종료
  • 실패하면 score 기록

Step 4. Prune (Phase 2)

현재 레벨의 leaf가 w개 초과 시:

  • 상위 w개만 유지
  • 나머지 제거

이는 사실상 beam search와 동일  .


4. PAIR와의 차이

PAIR는:

  • b=1 (branch 없음)
  • pruning 없음

즉 단일 체인 반복.

TAP은:

PAIR+Branching+Pruning\text{PAIR} + \text{Branching} + \text{Pruning}

구조임  .


5. Branching과 Pruning의 기여

Ablation 결과  :

VariantJailbreak %Queries
TAP84%22.5
No-Branch48%33.1
No-Prune72%55.4

해석:

  • Branching → 성공률 증가
  • Pruning → Query 효율 개선
  • 둘 다 필요

6. 시스템 프롬프트 설계

Attacker Prompt 특징

  • Red teaming assistant 역할 부여
  • 성공적인 jailbreak 예시 포함
  • Chain-of-thought reasoning 요구

Evaluator Prompt 특징

  • Judge 역할
  • Off-topic 판단
  • 점수 1~10 스케일 사용 

7. 방법론의 본질적 해석

TAP은 수학적으로 보면:

argmaxP𝒫Pr(Judge(Q,T(P))=1)\arg\max_{P \in \mathcal{P}} \Pr(\text{Judge}(Q, T(P)) = 1)

를 근사하는 LLM-guided discrete optimization입니다.

구조적으로는:

  • Generation model: A
  • Scoring model: E
  • Environment: T
  • Search: beam search + pruning

이는 white-box gradient 공격(GCG)의 black-box 버전이라고 볼 수 있습니다.


8. 계산 복잡도 관점

이론적으로:

O(dwb)O(d \cdot w \cdot b)

query 수는 pruning 덕분에 지수적 폭발을 방지.


9. 기존 공격과의 근본적 차이

유형탐색 방식
GCGgradient descent
Geneticmutation-based
Templaterule-based
TAPtree search + LLM self-evaluation

10. 방법론의 구조적 의미

TAP은 사실상:

LLM을 공격자 + 평가자로 활용하는 self-play 기반 탐색 시스템

Tree-of-Thought를 공격 문제에 특화한 구조입니다  .


한 문장 요약

TAP은 LLM 기반 tree search를 통해 자연어 jailbreak 프롬프트를 black-box 환경에서 효율적으로 탐색하는 알고리즘입니다  .


Tree of Attacks (TAP) — 실험 결과 정리

본 논문은 TAP의 성능을 다음 네 가지 측면에서 평가합니다:

  1. 기본 jailbreak 성공률 (Table 1)
  2. Guardrail 보호 모델에서의 성능 (Table 2)
  3. Transferability (Table 3)
  4. Branching / Pruning ablation (Table 4)

아래는 논문 p.8–9의 실험 결과 요약입니다  .


1. 기본 성능 비교 (AdvBench Subset, GPT4-Metric)

평가 기준

  • 성공률: GPT4 기반 Judge metric
  • Query 수: target LLM에 보낸 평균 query 수

Table 1 핵심 결과  

TargetTAPPAIR비고
Vicuna-13B98%94%유사
Llama-2-7B4%0%둘 다 낮음
GPT-3.576%56%+20%
GPT-490%60%+30%
GPT-4-Turbo84%44%+40%
GPT-4o94%78%+16%
PaLM298%86%+12%
Gemini-Pro96%81%+15%
Claude3 Opus60%24%+36%

Query 효율

예: GPT4o

Method성공률평균 Query
TAP94%16.2
PAIR78%40.3

→ 성공률 ↑ + Query ↓ (약 60% 감소)


GCG와 비교

GCG는 white-box 공격:

  • Vicuna: 98% 성공
  • Query 수: 256,000

TAP은 < 30 query로 유사한 성능 달성  .


2. Guardrail 환경 (Llama-Guard 보호 모델)

논문은 각 모델을 Llama-Guard로 보호한 후 평가  .

Table 2 요약

TargetTAPPAIR
GPT-484%39%
GPT-4-Turbo80%22%
GPT-4o96%76%
GeminiPro90%68%

핵심 메시지

Guardrail이 있어도 TAP은 높은 성공률 유지

즉, Llama-Guard 같은 classifier-based safeguard도 우회 가능.


3. Transferability (Table 3)

TAP으로 한 모델을 jailbreak한 prompt가 다른 모델에서도 작동하는지 평가  .

결과 요약

  • TAP과 PAIR는 비슷한 전이율
  • GCG는 전이율 매우 낮음

예시:

GPT4-Turbo → GPT4o

  • TAP: 34/42 전이
  • PAIR: 18/22 전이
  • GCG: 거의 없음

해석

  • TAP prompt는 자연어 기반이라 transfer가 잘 됨
  • GCG는 의미 없는 token sequence라 transfer 불가

4. Branching & Pruning Ablation (Table 4)

GPT4-Turbo 기준  .

VariantJailbreak %Query
TAP84%22.5
TAP-No-Prune72%55.4
TAP-No-Branch48%33.1

해석

Branching 제거 → 성공률 급락

  • 84% → 48%

Pruning 제거 → Query 폭증

  • 22.5 → 55.4

결론

Branching은 성공률 향상

Pruning은 효율 향상

둘의 조합이 핵심


5. Human Evaluation

  • GPT4-metric과 유사한 경향
  • Judge model의 FP 13%, FN 0% 보고 

즉 자동 metric이 비교적 신뢰 가능.


6. 종합 해석

TAP의 가장 강한 결과

  • GPT4o에서 94%
  • 평균 16 query
  • Guardrail 우회 가능

이는 black-box, interpretable 공격 중 최고 수준.


7. 실험 결과의 의미

  1. RLHF alignment 한계 노출
  2. Guardrail 기반 필터링 취약
  3. LLM self-evaluation 기반 search가 강력함
  4. White-box gradient 없이도 고성능 공격 가능

한 줄 요약

TAP은 SOTA black-box jailbreak 방법 대비 성공률을 대폭 향상시키면서 query 수는 줄이는 데 성공했으며, guardrail 환경에서도 높은 공격 성공률을 유지한다  .


TAP 실험에서 사용한 Attacker / Evaluator LLM

논문 **Section 4 (Empirical Setup)**에 명시되어 있습니다  .


Attacker LLM

Vicuna-13B-v1.5

  • TAP와 PAIR 모두 동일하게 사용
  • 공격 프롬프트를 생성하는 역할
  • branching 단계에서 후보 jailbreak 프롬프트 생성

Evaluator LLM

GPT-4

  • Judge 함수 구현
  • Off-Topic 판별
  • 1~10 점수 스케일 평가 (10이면 성공 jailbreak로 간주)

즉:

역할사용 모델
AttackerVicuna-13B-v1.5
EvaluatorGPT-4

추가 설명

논문은 evaluator를 LLM으로 사용하지만,

Appendix E에서 non-LLM evaluator 변형도 실험했다고 언급합니다  .


왜 이 조합인가?

  • Vicuna-13B: 오픈소스이면서 충분한 생성 능력
  • GPT-4: 높은 판별 능력 (Judge 정확도 확보)

즉,

생성은 가벼운 모델, 평가는 강한 모델로 분리하는 구조입니다.



게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다