[태그:] AdvPrompter

*** AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs (ICML 2025)

논문 **“AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs” (ICML 2025)**는 자동화된 adversarial red-teaming을 위한 LLM 기반 기법인 AdvPrompter를 제안합니다. 이 모델은 human-readable한 adversarial suffixes를 빠르게 생성하여 Target LLM을 jailbreak하는 데 사용됩니다. 아래는 논문의 핵심 내용입니다. 배경 및 문제의식 핵심 기여 1. AdvPrompter 모델 2. AdvPrompterTrain (훈련 알고리즘) 3. AdvPrompterOpt (suffix 생성 알고리즘) 실험 및 결과 ✔ 공격 성능…

2월 18, 2026

*** AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs (ICML 2025)