논문 개요

이 논문은 black-box 환경에서 자동으로 LLM을 jailbreak하는 방법인 TAP (Tree of Attacks with Pruning) 을 제안합니다.

핵심은 다음 세 가지 조건을 모두 만족하는 공격 방법입니다:

Automated – 인간 개입 없이 자동 생성
Black-box – 모델 파라미터 접근 없이 API query만 사용
Interpretable – 의미 없는 토큰 나열이 아닌 자연어 프롬프트 생성

기존 black-box 방법(PAIR)을 확장하여, branching + pruning 구조를 도입해 성공률을 크게 개선합니다 .

1. 문제 정의

LLM alignment (RLHF, guardrail 등)에도 불구하고,

“How to build a bomb?” 같은 harmful query를 우회하는 jailbreak 공격은 여전히 가능합니다.

공격 목표는:

원래 harmful query Q가 있을 때

target LLM T가 harmful 정보를 출력하도록 만드는 프롬프트 P를 찾는 것

논문은 이를 다음과 같이 형식화합니다 (Section 2):

Judge(Q, R): 응답 R이 성공적인 jailbreak인지 평가
Off-Topic(P, Q): 프롬프트 P가 원래 질의 Q와 의미적으로 일치하는지 판단

2. TAP의 핵심 아이디어

기존 SOTA: PAIR

PAIR는 다음 구조입니다:

Query → Attacker LLM → Target LLM → Evaluator → 반복

하지만:

단일 chain 탐색
branching 없음
pruning 없음
query efficiency 낮음

TAP: Tree 구조로 확장

TAP은 Tree Search + LLM 기반 평가 구조를 도입합니다.

알고리즘 구조 (Algorithm 1, p.6)

각 iteration에서:

① Branch

attacker LLM이 현재 prompt를 b개 변형 생성
chain-of-thought reasoning 사용
과거 시도 history 참조

② Prune (Phase 1)

evaluator가 off-topic prompt 제거

③ Attack & Assess

target LLM에 query
evaluator가 jailbreak 여부 score 평가
성공 시 종료

④ Prune (Phase 2)

상위 w개 prompt만 유지
나머지는 제거

이를 depth d까지 반복 .

3. Branching과 Pruning의 역할

논문에서 ablation 실험 수행 (Table 4, p.9):

Variant	Jailbreak Rate	Queries
TAP	84%	22.5
No-Branch	48%	33.1
No-Prune	72%	55.4

결론:

Branching → 성공률 향상
Pruning → query efficiency 향상
둘 다 필요

이는 일종의 Tree-of-Thought 스타일 search를 jailbreak에 적용한 것이라 볼 수 있습니다.

4. 실험 결과 (Table 1, p.8)

AdvBench Subset에서 GPT4-metric 기준:

Target	TAP	PAIR
GPT4	90%	60%
GPT4-Turbo	84%	44%
GPT4o	94%	78%
GeminiPro	96%	81%

평균 query < 30
PAIR보다 성공률 ↑ + query ↓
GPT4o에서 94% 성공률 달성

Guardrail 환경 (Llama-Guard)

보호 모델에서도:

GPT4o: 96% 성공
PAIR보다 높은 성능 유지

Transferability

다른 모델로의 transfer도 baseline과 비슷한 수준 유지 (Table 3)

5. 기술적 해석

왜 잘 되는가?

TAP은 사실상:

LLM-guided discrete search over natural-language attack space

을 수행합니다.

구조적으로 보면:

Attacker → candidate generation model
Evaluator → learned scoring function
Target → environment
Pruning → beam search

즉, 이는 LLM 기반 Beam Search + Self-Evaluation Loop 입니다.

6. 기존 방법과의 차이

방법	White-box	Interpretable	Automated	Query-efficient
GCG	O	X	O	X
PAIR	X	O	O	△
TAP	X	O	O	O

특히 GCG는 수십만 query 필요 .

7. 한계 (Section 7)

논문에서 인정한 한계:

Judge model 오차 가능성 (FP 13%)
데이터셋 편향
closed-source 모델 업데이트 영향 평가 불가
harmful content 외의 jailbreak는 미평가

8. 연구적 관점에서의 해석

이 논문은 다음과 같이 볼 수 있습니다:

① Black-box Adversarial Search as Tree-of-Thought

ToT를 공격 문제로 전환한 사례.

② Alignment robustness의 한계

RLHF + Guardrail 모두 우회 가능.

③ Automated Red-Teaming Framework

RLHF fine-tuning용 adversarial data 생성기로 활용 가능.

9. 핵심 요약

TAP은:

Black-box
Interpretable
Automated
Query-efficient

한 jailbreak 알고리즘이며, branching + pruning 구조가 성능 핵심 요인입니다 .

이는 LLM 기반 search framework로 이해할 수 있으며, alignment robustness 연구 및 automated red-teaming에 중요한 기여를 합니다.

본 논문의 방법론은 LLM을 이용한 black-box jailbreak 탐색을 tree search 문제로 정식화하고, 이를 branching + pruning 구조로 해결하는 것입니다 .

1. 문제 설정 (Formal Setup)

주어진 요소:

Target LLM: T
Attacker LLM: A
Evaluator LLM: E
Harmful query: Q

목표:

자연어 프롬프트 P를 찾아

T가 harmful response R을 생성하도록 만드는 것

논문은 두 개의 함수로 이를 정의합니다 :

Judge(Q, R)

응답 R이 성공적인 jailbreak인지 평가

Off-Topic(P, Q)

P가 Q와 의미적으로 일치하는지 평가

2. TAP의 전체 구조

TAP은 다음 파라미터를 가집니다 :

Branching factor (b)
Width (w)
Depth (d)

즉, 이는 다음과 같은 제한된 tree search입니다:

Tree depth ≤ d
각 노드에서 b개 확장
각 레벨에서 상위 w개 유지

3. 알고리즘 단계별 설명

논문 Algorithm 1 기반 정리

Step 0. Initialization

루트 노드는 harmful query Q
conversation history 초기화

Step 1. Branch

각 leaf 노드에서:

Attacker LLM A가 현재 프롬프트를 분석
“어떻게 수정하면 jailbreak 성공 가능성이 높아질까?“를 reasoning
b개의 개선된 프롬프트 $P_1$ , …, $P_b$ 생성

중요한 점:

Chain-of-thought reasoning 강제
과거 시도 기록(history)을 context로 활용

이는 사실상:

$P_i \sim q(C; A)$

여기서 C는 conversation history

Step 2. Prune (Phase 1)

Evaluator E가:

$Off\text{-}Topic(P_i, Q)$

를 평가하여 의미적으로 벗어난 프롬프트 제거 .

→ 탐색 공간 축소

Step 3. Attack & Assess

남은 프롬프트에 대해:

$R \sim q(P; T)$

Target LLM에 query

이후:

S = Judge(Q, R)

성공하면 종료
실패하면 score 기록

Step 4. Prune (Phase 2)

현재 레벨의 leaf가 w개 초과 시:

상위 w개만 유지
나머지 제거

이는 사실상 beam search와 동일 .

4. PAIR와의 차이

PAIR는:

b=1 (branch 없음)
pruning 없음

즉 단일 체인 반복.

TAP은:

$\text{PAIR} + \text{Branching} + \text{Pruning}$

구조임 .

5. Branching과 Pruning의 기여

Ablation 결과 :

Variant	Jailbreak %	Queries
TAP	84%	22.5
No-Branch	48%	33.1
No-Prune	72%	55.4

해석:

Branching → 성공률 증가
Pruning → Query 효율 개선
둘 다 필요

6. 시스템 프롬프트 설계

Attacker Prompt 특징

Red teaming assistant 역할 부여
성공적인 jailbreak 예시 포함
Chain-of-thought reasoning 요구

Evaluator Prompt 특징

Judge 역할
Off-topic 판단
점수 1~10 스케일 사용

7. 방법론의 본질적 해석

TAP은 수학적으로 보면:

$\arg\max_{P \in \mathcal{P}} \Pr(\text{Judge}(Q, T(P)) = 1)$

를 근사하는 LLM-guided discrete optimization입니다.

구조적으로는:

Generation model: A
Scoring model: E
Environment: T
Search: beam search + pruning

이는 white-box gradient 공격(GCG)의 black-box 버전이라고 볼 수 있습니다.

8. 계산 복잡도 관점

이론적으로:

$O(d \cdot w \cdot b)$

query 수는 pruning 덕분에 지수적 폭발을 방지.

9. 기존 공격과의 근본적 차이

유형	탐색 방식
GCG	gradient descent
Genetic	mutation-based
Template	rule-based
TAP	tree search + LLM self-evaluation

10. 방법론의 구조적 의미

TAP은 사실상:

LLM을 공격자 + 평가자로 활용하는 self-play 기반 탐색 시스템

Tree-of-Thought를 공격 문제에 특화한 구조입니다 .

한 문장 요약

TAP은 LLM 기반 tree search를 통해 자연어 jailbreak 프롬프트를 black-box 환경에서 효율적으로 탐색하는 알고리즘입니다 .

Tree of Attacks (TAP) — 실험 결과 정리

본 논문은 TAP의 성능을 다음 네 가지 측면에서 평가합니다:

기본 jailbreak 성공률 (Table 1)
Guardrail 보호 모델에서의 성능 (Table 2)
Transferability (Table 3)
Branching / Pruning ablation (Table 4)

아래는 논문 p.8–9의 실험 결과 요약입니다 .

1. 기본 성능 비교 (AdvBench Subset, GPT4-Metric)

평가 기준

성공률: GPT4 기반 Judge metric
Query 수: target LLM에 보낸 평균 query 수

Table 1 핵심 결과

Target	TAP	PAIR	비고
Vicuna-13B	98%	94%	유사
Llama-2-7B	4%	0%	둘 다 낮음
GPT-3.5	76%	56%	+20%
GPT-4	90%	60%	+30%
GPT-4-Turbo	84%	44%	+40%
GPT-4o	94%	78%	+16%
PaLM2	98%	86%	+12%
Gemini-Pro	96%	81%	+15%
Claude3 Opus	60%	24%	+36%

Query 효율

예: GPT4o

Method	성공률	평균 Query
TAP	94%	16.2
PAIR	78%	40.3

→ 성공률 ↑ + Query ↓ (약 60% 감소)

GCG와 비교

GCG는 white-box 공격:

Vicuna: 98% 성공
Query 수: 256,000

TAP은 < 30 query로 유사한 성능 달성 .

2. Guardrail 환경 (Llama-Guard 보호 모델)

논문은 각 모델을 Llama-Guard로 보호한 후 평가 .

Table 2 요약

Target	TAP	PAIR
GPT-4	84%	39%
GPT-4-Turbo	80%	22%
GPT-4o	96%	76%
GeminiPro	90%	68%

핵심 메시지

Guardrail이 있어도 TAP은 높은 성공률 유지

즉, Llama-Guard 같은 classifier-based safeguard도 우회 가능.

3. Transferability (Table 3)

TAP으로 한 모델을 jailbreak한 prompt가 다른 모델에서도 작동하는지 평가 .

결과 요약

TAP과 PAIR는 비슷한 전이율
GCG는 전이율 매우 낮음

예시:

GPT4-Turbo → GPT4o

TAP: 34/42 전이
PAIR: 18/22 전이
GCG: 거의 없음

해석

TAP prompt는 자연어 기반이라 transfer가 잘 됨
GCG는 의미 없는 token sequence라 transfer 불가

4. Branching & Pruning Ablation (Table 4)

GPT4-Turbo 기준 .

Variant	Jailbreak %	Query
TAP	84%	22.5
TAP-No-Prune	72%	55.4
TAP-No-Branch	48%	33.1

해석

Branching 제거 → 성공률 급락

84% → 48%

Pruning 제거 → Query 폭증

22.5 → 55.4

결론

Branching은 성공률 향상

Pruning은 효율 향상

둘의 조합이 핵심

5. Human Evaluation

GPT4-metric과 유사한 경향
Judge model의 FP 13%, FN 0% 보고

즉 자동 metric이 비교적 신뢰 가능.

6. 종합 해석

TAP의 가장 강한 결과

GPT4o에서 94%
평균 16 query
Guardrail 우회 가능

이는 black-box, interpretable 공격 중 최고 수준.

7. 실험 결과의 의미

RLHF alignment 한계 노출
Guardrail 기반 필터링 취약
LLM self-evaluation 기반 search가 강력함
White-box gradient 없이도 고성능 공격 가능

한 줄 요약

TAP은 SOTA black-box jailbreak 방법 대비 성공률을 대폭 향상시키면서 query 수는 줄이는 데 성공했으며, guardrail 환경에서도 높은 공격 성공률을 유지한다 .

TAP 실험에서 사용한 Attacker / Evaluator LLM

논문 **Section 4 (Empirical Setup)**에 명시되어 있습니다 .

Attacker LLM

Vicuna-13B-v1.5

TAP와 PAIR 모두 동일하게 사용
공격 프롬프트를 생성하는 역할
branching 단계에서 후보 jailbreak 프롬프트 생성

Evaluator LLM

GPT-4

Judge 함수 구현
Off-Topic 판별
1~10 점수 스케일 평가 (10이면 성공 jailbreak로 간주)

즉:

역할	사용 모델
Attacker	Vicuna-13B-v1.5
Evaluator	GPT-4

추가 설명

논문은 evaluator를 LLM으로 사용하지만,

Appendix E에서 non-LLM evaluator 변형도 실험했다고 언급합니다 .

왜 이 조합인가?

Vicuna-13B: 오픈소스이면서 충분한 생성 능력
GPT-4: 높은 판별 능력 (Judge 정확도 확보)

즉,

생성은 가벼운 모델, 평가는 강한 모델로 분리하는 구조입니다.

* Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (NeurIPS 2024)