[태그:] Tree of Attacks with Pruning

  • * Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (NeurIPS 2024)

    * Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (NeurIPS 2024)

    논문 개요 이 논문은 black-box 환경에서 자동으로 LLM을 jailbreak하는 방법인 TAP (Tree of Attacks with Pruning) 을 제안합니다. 핵심은 다음 세 가지 조건을 모두 만족하는 공격 방법입니다: 기존 black-box 방법(PAIR)을 확장하여, branching + pruning 구조를 도입해 성공률을 크게 개선합니다  . 1. 문제 정의 LLM alignment (RLHF, guardrail 등)에도 불구하고, “How to build a bomb?” 같은…