** Bayesian Optimization for Controlled Image Editing via LLMs (ACL 2025 Findings)

본 논문은 BayesGenie라는 프레임워크를 제안합니다. 핵심 아이디어는 다음과 같습니다:

LLM을 “Promptist + Evaluator”로 사용하고,

Bayesian Optimization(BO)을 통해 diffusion 모델의 CFG 파라미터를 자동 최적화하여

mask 없이 정밀한 이미지 편집을 수행한다.


1. 문제 설정

기존 한계

기존 image editing 방법들의 문제점:

  1. Mask 의존성
    • 수동 마스크 입력
    • attention map 기반 segmentation
    • 비전문가에게 어려움
  2. CFG 수동 튜닝 문제
    • image-CFG, text-CFG 값에 따라
      • 과도한 수정
      • 수정 부족
      • semantic drift 발생
  3. Fine-tuning 필요
    • 특정 task에 맞춰 모델 재학습 필요

2. BayesGenie 전체 구조

시스템 개요 (논문 Figure 2, p.4)

구조는 다음 4단계로 구성됩니다:

① LLM → Prompt 생성

  • 원본 이미지 + 수정 요구사항 입력
  • LLM이 상세 editing prompt 생성

② Diffusion 모델 실행

  • InstructPix2Pix 등
  • image_cfg_scale, text_cfg_scale 사용

③ LLM 평가

  • 수정 결과를 LLM이 점수화 (0–100)
  • 과도/부족/요구 충족 여부 평가

④ Bayesian Optimization

  • CFG 파라미터 자동 탐색
  • LLM 점수 최대화

3. 수식적 정의

3.1 CFG 기반 diffusion score (p.4)

score network:

ϵ~θ(zt,cI,cT)=ϵθ(zt,,)+sI(ϵθ(zt,cI,)ϵθ(zt,,))+sT(ϵθ(zt,cI,cT)ϵθ(zt,cI,))\tilde{\epsilon}_\theta(z_t, c_I, c_T) = \epsilon_\theta(z_t, \emptyset, \emptyset) + s_I(\epsilon_\theta(z_t, c_I, \emptyset) – \epsilon_\theta(z_t, \emptyset, \emptyset)) + s_T(\epsilon_\theta(z_t, c_I, c_T) – \epsilon_\theta(z_t, c_I, \emptyset))

  • sIs_I: image CFG
  • sTs_T: text CFG

3.2 최적화 문제

(sI,sT)=argminsI,sTL(Igen(sI,sT))(s_I^*, s_T^*) = \arg\min_{s_I, s_T} L(I_{gen}(s_I, s_T))

여기서

  • L = LLM 평가 점수 기반 objective
  • 실제로는 LLM score 최대화 문제

4. Bayesian Optimization 부분 (핵심)

4.1 Objective

f(s)=f([sI,sT])f(s) = f([s_I, s_T])

  • LLM이 평가한 점수

4.2 Gaussian Process surrogate (p.5)

f(s)GP(μ(s),k(s,s))f(s) \sim GP(\mu(s), k(s, s’))

  • Matérn kernel 사용
  • black-box optimization

4.3 Acquisition: Expected Improvement

EI(s)=𝔼[max(0,f(s)f(s+))]EI(s) = \mathbb{E}[\max(0, f(s) – f(s^+))]


4.4 알고리즘 절차

  1. 초기 CFG 설정
  2. 이미지 생성
  3. LLM 평가
  4. GP 업데이트
  5. EI 최대화 지점 선택
  6. 반복 (20 iterations 사용)

논문 Figure 4 (p.6)에서

  • iteration 증가할수록
  • 위치 mismatch → 점진적으로 정렬되는 과정 시각화

5. LLM 평가 방식 (중요)

기존 CLIP만 사용하면 fine-grained local edit 평가 불가.

논문은 LLM 기반 scoring prompt 사용 (Appendix B, p.11)

평가기준:

  1. 너무 많이 바뀌면 감점
  2. 너무 적게 바뀌면 감점
  3. 요구 충족 시 고득점
  4. 점수는 정규분포처럼 나오도록 유도

이 부분이 실질적으로:

LLM을 differentiable reward model처럼 사용


6. 실험 결과

6.1 비교 모델

  • InstructPix2Pix
  • DALLE-3
  • MagicBrush
  • UltraEdit

6.2 CLIP / GPT Score (Figure 7, p.8)

BayesGenie + UltraEdit:

ModelCLIPGPT Score
InstructPix2Pix0.271223.5
+ BayesGenie0.318078.6
MagicBrush0.307853.7
UltraEdit0.330262.6
+ BayesGenie0.352485.3

→ 기존 모델 위에 plug-in처럼 붙여도 성능 향상


6.3 Human Evaluation

Figure 7(c):

  • DALLE-3: 66 votes
  • InstructPix2Pix: 43 votes
  • Bay-GPT4o: 391 votes

압도적 선호도


7. 비용

  • 512×512 이미지 1회 실행
  • 약 $0.176
  • RTX 4080에서 2.5분

20 iteration이 accuracy/cost trade-off 최적


8. 논문의 핵심 기여 정리

1. Mask-free editing

완전 자연어 기반

2. Training-free

fine-tuning 없음

3. Model-agnostic

InstructPix2Pix, UltraEdit 등과 결합 가능

4. LLM + BO 결합

LLM을 reward model처럼 사용하고

BO로 hyperparameter 자동 탐색


9. 연구적으로 중요한 포인트

이 논문은 단순 image editing이 아니라:

LLM을 black-box reward model로 사용하고

BO로 inference-time hyperparameter 최적화하는 프레임워크

라는 점이 핵심입니다.

이는 다음 연구와 연결됩니다:

  • RL 없이 test-time optimization
  • LLM-as-evaluator 구조
  • LBO (Latent BO)와의 유사성
  • Prompt refinement loop
  • Diffusion parameter control

10. 한계

  1. LLM 평가 편향 가능성
  2. CFG 2차원 공간만 탐색
  3. iteration 비용 존재
  4. gradient-free → sample inefficient 가능성

11. 한 줄 요약

BayesGenie는 LLM을 prompt generator + evaluator로 활용하고,

Bayesian Optimization으로 diffusion CFG 파라미터를 자동 탐색하여

mask 없이 정밀한 이미지 편집을 수행하는 training-free 프레임워크이다.


Methodology: BayesGenie 상세 설명

본 논문의 방법론은 크게 4개의 모듈로 구성됩니다:

  1. LLM 기반 Prompt 생성
  2. Diffusion 기반 이미지 편집 (CFG 조절)
  3. LLM 기반 Scoring
  4. Bayesian Optimization (BO) 기반 파라미터 탐색

핵심은:

LLM을 “Promptist + Reward Model”로 사용하고,

CFG 스케일을 BO로 최적화하는 inference-time test-time optimization 구조


1. 전체 시스템 구조

논문 Figure 2 (p.4) 기준 파이프라인:

Original Image + Modification Requirement
              ↓
          LLM (Prompt 생성)
              ↓
      Diffusion Model (CFG 적용)
              ↓
       Generated Image
              ↓
        LLM (Evaluation)
              ↓
      Bayesian Optimization
              ↑
        CFG parameter update

2. Diffusion 모델 수식 구조

논문은 InstructPix2Pix 계열 diffusion 모델을 사용합니다.

2.1 Score Network

ϵ~θ(zt,cI,cT)=ϵθ(zt,,)+sI(ϵθ(zt,cI,)ϵθ(zt,,))+sT(ϵθ(zt,cI,cT)ϵθ(zt,cI,))\tilde{\epsilon}_\theta(z_t, c_I, c_T) = \epsilon_\theta(z_t, \emptyset, \emptyset) + s_I (\epsilon_\theta(z_t, c_I, \emptyset) – \epsilon_\theta(z_t, \emptyset, \emptyset)) + s_T (\epsilon_\theta(z_t, c_I, c_T) – \epsilon_\theta(z_t, c_I, \emptyset))

의미:

  • sIs_I = image CFG scale
  • sTs_T = text CFG scale
  • cIc_I = original image conditioning
  • cTc_T = text prompt conditioning

즉:

  • sIs_I ↑ → 원본 유지 강화
  • sTs_T ↑ → 텍스트 지시 강화

문제는:

이 두 파라미터를 사람이 수동 조절해야 한다는 점


3. 최적화 문제 정의

논문은 다음과 같이 정의합니다 (p.4):

(sI,sT)=argminsI,sTL(Igen(sI,sT))(s_I^*, s_T^*) = \arg\min_{s_I, s_T} L(I_{gen}(s_I, s_T))

실제로는:

maxf(sI,sT)\max f(s_I, s_T)

여기서 f 는 LLM 평가 점수


4. LLM 기반 Dynamic Prompt Optimization

4.1 초기 Prompt 생성

LLM 입력:

  • 원본 이미지
  • 수정 요구사항

출력:

  • 상세하고 구조화된 editing prompt

예시 (Appendix A, p.11):

“Add some chairs next to the kitchen table, ensuring they match the style…”


4.2 Iterative Prompt Refinement

과정:

  1. 이미지 생성
  2. LLM 평가
  3. LLM이 개선점 제시
  4. Prompt 수정
  5. 재생성

즉, 단순 BO만이 아니라:

Prompt 자체도 LLM feedback 기반으로 refinement됨


5. LLM 기반 Scoring

기존 CLIP 기반 평가는 한계 존재:

  • pixel-level penalization
  • semantic instruction 미반영
  • local edit 평가 불가

5.1 LLM 평가 Prompt (Appendix B, p.11)

LLM에게:

  1. 과도한 수정이면 감점
  2. 수정 부족하면 감점
  3. 요구 충족하면 고득점
  4. 점수는 정규분포 형태로 분포하도록

출력:

The score is: XX
Explanation: ...

즉:

LLM을 0-shot reward model처럼 사용


6. Bayesian Optimization (핵심)

6.1 Objective

f(s)=f([sI,sT])f(s) = f([s_I, s_T])

  • black-box function
  • gradient 없음
  • expensive evaluation (이미지 생성 + LLM 호출)

6.2 Gaussian Process Surrogate

f(s)GP(μ(s),k(s,s))f(s) \sim GP(\mu(s), k(s, s’))

  • Matérn kernel 사용
  • smooth assumption

6.3 Acquisition Function

Expected Improvement:

EI(s)=𝔼[max(0,f(s)f(s+))]EI(s) = \mathbb{E}[\max(0, f(s) – f(s^+))]

여기서:

  • s+s^+ = 현재 최고 점수 위치

6.4 BO 알고리즘 단계

  1. 초기 CFG 설정
  2. 이미지 생성
  3. LLM 평가
  4. GP 업데이트
  5. EI 최대화 지점 선택
  6. 반복

논문에서는 20 iterations 사용

Figure 4 (p.6):

  • iteration 증가할수록
  • object placement 점진적으로 개선

7. 이 방법의 핵심 특성

1. Mask-Free

  • 어떤 영역도 수동 선택하지 않음

2. Training-Free

  • fine-tuning 없음
  • inference-time 최적화

3. Model-Agnostic

  • InstructPix2Pix
  • UltraEdit
  • 다른 diffusion 모델과 결합 가능

8. 이 방법의 본질

이 논문은 사실상 다음과 같은 구조입니다:

LLM 기반 Reward Optimization + Bayesian Hyperparameter Search

구조적으로는:

  • RLHF 없이
  • Gradient 없이
  • BO로 test-time control 수행

9. 알고리즘 요약 (Pseudo-code)

initialize GP
initialize s = [s_I, s_T]

for t in range(T):
    image = diffusion(original, prompt, s)
    score = LLM_evaluate(image)

    GP.update(s, score)

    s = argmax_EI(GP)

return best_image

10. 연구적 의미

이 방법은:

  • RL 대신 BO
  • Reward model 대신 LLM
  • Parameter space는 2D지만 확장 가능

다음과 연결됩니다:

  • LLM-based evaluator optimization
  • Latent BO
  • Test-time alignment
  • Steering without fine-tuning

실험 결과 (Experiments & Results)

본 논문의 실험은 다음을 검증하는 데 초점을 둡니다:

  1. 정밀한 국소 편집(local editing precision)
  2. 원본 보존(original content preservation)
  3. 지시문 충실도(instruction faithfulness)
  4. 모델 범용성(model-agnostic generalizability)

1. 평가 설정

1.1 데이터셋

  • 500개 이상 이미지
  • 세 가지 작업:
    • 객체 추가 (add)
    • 객체 제거 (remove)
    • 객체 수정 (modify)

균형 구성


1.2 비교 모델

  • InstructPix2Pix
  • DALLE-3
  • MagicBrush
  • UltraEdit
    • BayesGenie 결합 버전

1.3 평가 지표

(1) Objective

  • CLIP Score
  • GPT-4o 기반 Instruction Consistency Score

(2) Subjective

  • Human voting

2. 정성적 결과 (Qualitative Results)

2.1 Iteration 효과 (Figure 4, p.6)

Bayesian optimization 반복에 따른 변화:

  • 초기:
    • 위치 오류
    • 배경 mismatch
  • 5~10회:
    • 점진적 alignment
  • 20회:
    • 자연스러운 통합

–> BO가 실제로 CFG 공간을 점진적으로 수렴시킴


2.2 실제 편집 예시 (Figure 5, p.7)

세 가지 유형 모두 성공:

  • Tree에 light 추가
  • Grass 제거
  • Bread → cereal 교체

특징:

  • 원본 구조 유지
  • 최소 수정
  • 스타일 일관성 유지

3. 정량적 결과

3.1 CLIP Score 비교 (Figure 7a, p.8)

ModelCLIP Score
InstructPix2Pix0.2712
MagicBrush0.3078
UltraEdit0.3302
InstructPix2Pix + BayesGenie0.3180
UltraEdit + BayesGenie0.3524

해석:

  • 기존 모델 위에 붙여도 성능 상승
  • UltraEdit + BayesGenie가 최고 점수

3.2 GPT-4o Score (Instruction Alignment)

ModelGPT Score
InstructPix2Pix23.5
MagicBrush53.7
UltraEdit62.6
InstructPix2Pix + BayesGenie78.6
UltraEdit + BayesGenie85.3

중요한 점

  • CLIP보다 GPT Score 차이가 훨씬 큼
  • 의미적 정합성 측면에서 큰 개선

4. Human Evaluation (Figure 7c)

투표 수:

ModelVotes
DALLE-366
InstructPix2Pix43
Bay-GPT4o391

해석

  • DALLE-3:
    • 과도한 수정 경향
  • InstructPix2Pix:
    • 불안정 + 과도 변경
  • BayesGenie:
    • 가장 선호됨
    • “정밀 수정 + 원본 보존” 균형

5. 기존 SOTA와 비교 (Appendix C, p.11)

ModelCLIPGPT
InstructPix2Pix0.271223.5
+ BayesGenie0.318078.6
MagicBrush0.307853.7
UltraEdit0.330262.6
+ BayesGenie0.352485.3

핵심 포인트

BayesGenie는:

  • 기존 모델을 대체하는 구조가 아니라
  • Enhancement module로 작동

6. 비용 및 효율성 (Section 4)

6.1 실행 시간

  • RTX 4080
  • 약 2.5분
  • 20 iterations

6.2 비용 (GPT-4o 사용)

512×512 이미지 1회:

  • $0.176

주 비용:

  • Bayesian loop 중 Prompt token

7. 실험에서 드러난 구조적 특성

7.1 BO 수렴 특성

  • CFG 2차원 공간
  • smooth landscape 가정
  • 20 iteration 이후 수익 체감

7.2 Generalizability

  • GPT-4o
  • Claude 3.5

두 LLM에서 모두 성능 유지


8. 논문의 실험이 보여주는 핵심 메시지

  1. CFG tuning이 성능에 매우 중요
  2. LLM score가 실제 semantic alignment를 잘 반영
  3. BO는 low-dimensional hyperparameter tuning에 적합
  4. Training-free 방식으로도 큰 개선 가능

9. 연구 관점에서 중요한 부분

이 실험은 단순 image editing 성능 비교가 아니라:

“LLM을 reward model처럼 쓰고

inference-time BO로 hyperparameter alignment를 수행하는 것이 효과적이다”

를 실증함


10. 한계

  1. LLM evaluator bias 가능성
  2. CFG 2차원 공간만 탐색
  3. Iteration 비용 존재
  4. Larger diffusion 모델에서 scaling 미검증

한 줄 요약

BayesGenie는 기존 mask-free image editing 모델 위에 plug-in처럼 결합하여

CLIP, GPT, Human 평가에서 모두 유의미한 성능 향상을 달성했다.


댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다