본 논문은 BayesGenie라는 프레임워크를 제안합니다. 핵심 아이디어는 다음과 같습니다:

LLM을 “Promptist + Evaluator”로 사용하고,

Bayesian Optimization(BO)을 통해 diffusion 모델의 CFG 파라미터를 자동 최적화하여

mask 없이 정밀한 이미지 편집을 수행한다.

1. 문제 설정

기존 한계

기존 image editing 방법들의 문제점:

Mask 의존성
- 수동 마스크 입력
- attention map 기반 segmentation
- 비전문가에게 어려움
CFG 수동 튜닝 문제
- image-CFG, text-CFG 값에 따라
  - 과도한 수정
  - 수정 부족
  - semantic drift 발생
Fine-tuning 필요
- 특정 task에 맞춰 모델 재학습 필요

2. BayesGenie 전체 구조

시스템 개요 (논문 Figure 2, p.4)

구조는 다음 4단계로 구성됩니다:

① LLM → Prompt 생성

원본 이미지 + 수정 요구사항 입력
LLM이 상세 editing prompt 생성

② Diffusion 모델 실행

InstructPix2Pix 등
image_cfg_scale, text_cfg_scale 사용

③ LLM 평가

수정 결과를 LLM이 점수화 (0–100)
과도/부족/요구 충족 여부 평가

④ Bayesian Optimization

CFG 파라미터 자동 탐색
LLM 점수 최대화

3. 수식적 정의

3.1 CFG 기반 diffusion score (p.4)

score network:

$\tilde{\epsilon}_\theta(z_t, c_I, c_T) = \epsilon_\theta(z_t, \emptyset, \emptyset) + s_I(\epsilon_\theta(z_t, c_I, \emptyset) – \epsilon_\theta(z_t, \emptyset, \emptyset)) + s_T(\epsilon_\theta(z_t, c_I, c_T) – \epsilon_\theta(z_t, c_I, \emptyset))$

$s_I$ : image CFG
$s_T$ : text CFG

3.2 최적화 문제

$(s_I^*, s_T^*) = \arg\min_{s_I, s_T} L(I_{gen}(s_I, s_T))$

여기서

L = LLM 평가 점수 기반 objective
실제로는 LLM score 최대화 문제

4. Bayesian Optimization 부분 (핵심)

4.1 Objective

$f(s) = f([s_I, s_T])$

LLM이 평가한 점수

4.2 Gaussian Process surrogate (p.5)

$f(s) \sim GP(\mu(s), k(s, s’))$

Matérn kernel 사용
black-box optimization

4.3 Acquisition: Expected Improvement

$EI(s) = \mathbb{E}[\max(0, f(s) – f(s^+))]$

4.4 알고리즘 절차

초기 CFG 설정
이미지 생성
LLM 평가
GP 업데이트
EI 최대화 지점 선택
반복 (20 iterations 사용)

논문 Figure 4 (p.6)에서

iteration 증가할수록
위치 mismatch → 점진적으로 정렬되는 과정 시각화

5. LLM 평가 방식 (중요)

기존 CLIP만 사용하면 fine-grained local edit 평가 불가.

논문은 LLM 기반 scoring prompt 사용 (Appendix B, p.11)

평가기준:

너무 많이 바뀌면 감점
너무 적게 바뀌면 감점
요구 충족 시 고득점
점수는 정규분포처럼 나오도록 유도

이 부분이 실질적으로:

LLM을 differentiable reward model처럼 사용

6. 실험 결과

6.1 비교 모델

InstructPix2Pix
DALLE-3
MagicBrush
UltraEdit

6.2 CLIP / GPT Score (Figure 7, p.8)

BayesGenie + UltraEdit:

Model	CLIP	GPT Score
InstructPix2Pix	0.2712	23.5
+ BayesGenie	0.3180	78.6
MagicBrush	0.3078	53.7
UltraEdit	0.3302	62.6
+ BayesGenie	0.3524	85.3

→ 기존 모델 위에 plug-in처럼 붙여도 성능 향상

6.3 Human Evaluation

Figure 7(c):

DALLE-3: 66 votes
InstructPix2Pix: 43 votes
Bay-GPT4o: 391 votes

압도적 선호도

7. 비용

512×512 이미지 1회 실행
약 $0.176
RTX 4080에서 2.5분

20 iteration이 accuracy/cost trade-off 최적

8. 논문의 핵심 기여 정리

1. Mask-free editing

완전 자연어 기반

2. Training-free

fine-tuning 없음

3. Model-agnostic

InstructPix2Pix, UltraEdit 등과 결합 가능

4. LLM + BO 결합

LLM을 reward model처럼 사용하고

BO로 hyperparameter 자동 탐색

9. 연구적으로 중요한 포인트

이 논문은 단순 image editing이 아니라:

LLM을 black-box reward model로 사용하고

BO로 inference-time hyperparameter 최적화하는 프레임워크

라는 점이 핵심입니다.

이는 다음 연구와 연결됩니다:

RL 없이 test-time optimization
LLM-as-evaluator 구조
LBO (Latent BO)와의 유사성
Prompt refinement loop
Diffusion parameter control

10. 한계

LLM 평가 편향 가능성
CFG 2차원 공간만 탐색
iteration 비용 존재
gradient-free → sample inefficient 가능성

11. 한 줄 요약

BayesGenie는 LLM을 prompt generator + evaluator로 활용하고,

Bayesian Optimization으로 diffusion CFG 파라미터를 자동 탐색하여

mask 없이 정밀한 이미지 편집을 수행하는 training-free 프레임워크이다.

Methodology: BayesGenie 상세 설명

본 논문의 방법론은 크게 4개의 모듈로 구성됩니다:

LLM 기반 Prompt 생성
Diffusion 기반 이미지 편집 (CFG 조절)
LLM 기반 Scoring
Bayesian Optimization (BO) 기반 파라미터 탐색

핵심은:

LLM을 “Promptist + Reward Model”로 사용하고,

CFG 스케일을 BO로 최적화하는 inference-time test-time optimization 구조

1. 전체 시스템 구조

논문 Figure 2 (p.4) 기준 파이프라인:

Original Image + Modification Requirement
              ↓
          LLM (Prompt 생성)
              ↓
      Diffusion Model (CFG 적용)
              ↓
       Generated Image
              ↓
        LLM (Evaluation)
              ↓
      Bayesian Optimization
              ↑
        CFG parameter update

2. Diffusion 모델 수식 구조

논문은 InstructPix2Pix 계열 diffusion 모델을 사용합니다.

2.1 Score Network

$\tilde{\epsilon}_\theta(z_t, c_I, c_T) = \epsilon_\theta(z_t, \emptyset, \emptyset) + s_I (\epsilon_\theta(z_t, c_I, \emptyset) – \epsilon_\theta(z_t, \emptyset, \emptyset)) + s_T (\epsilon_\theta(z_t, c_I, c_T) – \epsilon_\theta(z_t, c_I, \emptyset))$

의미:

$s_I$ = image CFG scale
$s_T$ = text CFG scale
$c_I$ = original image conditioning
$c_T$ = text prompt conditioning

즉:

$s_I$ ↑ → 원본 유지 강화
$s_T$ ↑ → 텍스트 지시 강화

문제는:

이 두 파라미터를 사람이 수동 조절해야 한다는 점

3. 최적화 문제 정의

논문은 다음과 같이 정의합니다 (p.4):

$(s_I^*, s_T^*) = \arg\min_{s_I, s_T} L(I_{gen}(s_I, s_T))$

실제로는:

$\max f(s_I, s_T)$

여기서 f 는 LLM 평가 점수

4. LLM 기반 Dynamic Prompt Optimization

4.1 초기 Prompt 생성

LLM 입력:

원본 이미지
수정 요구사항

출력:

상세하고 구조화된 editing prompt

예시 (Appendix A, p.11):

“Add some chairs next to the kitchen table, ensuring they match the style…”

4.2 Iterative Prompt Refinement

과정:

이미지 생성
LLM 평가
LLM이 개선점 제시
Prompt 수정
재생성

즉, 단순 BO만이 아니라:

Prompt 자체도 LLM feedback 기반으로 refinement됨

5. LLM 기반 Scoring

기존 CLIP 기반 평가는 한계 존재:

pixel-level penalization
semantic instruction 미반영
local edit 평가 불가

5.1 LLM 평가 Prompt (Appendix B, p.11)

LLM에게:

과도한 수정이면 감점
수정 부족하면 감점
요구 충족하면 고득점
점수는 정규분포 형태로 분포하도록

출력:

The score is: XX
Explanation: ...

즉:

LLM을 0-shot reward model처럼 사용

6. Bayesian Optimization (핵심)

6.1 Objective

$f(s) = f([s_I, s_T])$

black-box function
gradient 없음
expensive evaluation (이미지 생성 + LLM 호출)

6.2 Gaussian Process Surrogate

$f(s) \sim GP(\mu(s), k(s, s’))$

Matérn kernel 사용
smooth assumption

6.3 Acquisition Function

Expected Improvement:

$EI(s) = \mathbb{E}[\max(0, f(s) – f(s^+))]$

여기서:

$s^+$ = 현재 최고 점수 위치

6.4 BO 알고리즘 단계

초기 CFG 설정
이미지 생성
LLM 평가
GP 업데이트
EI 최대화 지점 선택
반복

논문에서는 20 iterations 사용

Figure 4 (p.6):

iteration 증가할수록
object placement 점진적으로 개선

7. 이 방법의 핵심 특성

1. Mask-Free

어떤 영역도 수동 선택하지 않음

2. Training-Free

fine-tuning 없음
inference-time 최적화

3. Model-Agnostic

InstructPix2Pix
UltraEdit
다른 diffusion 모델과 결합 가능

8. 이 방법의 본질

이 논문은 사실상 다음과 같은 구조입니다:

LLM 기반 Reward Optimization + Bayesian Hyperparameter Search

구조적으로는:

RLHF 없이
Gradient 없이
BO로 test-time control 수행

9. 알고리즘 요약 (Pseudo-code)

initialize GP
initialize s = [s_I, s_T]

for t in range(T):
    image = diffusion(original, prompt, s)
    score = LLM_evaluate(image)

    GP.update(s, score)

    s = argmax_EI(GP)

return best_image

10. 연구적 의미

이 방법은:

RL 대신 BO
Reward model 대신 LLM
Parameter space는 2D지만 확장 가능

다음과 연결됩니다:

LLM-based evaluator optimization
Latent BO
Test-time alignment
Steering without fine-tuning

실험 결과 (Experiments & Results)

본 논문의 실험은 다음을 검증하는 데 초점을 둡니다:

정밀한 국소 편집(local editing precision)
원본 보존(original content preservation)
지시문 충실도(instruction faithfulness)
모델 범용성(model-agnostic generalizability)

1. 평가 설정

1.1 데이터셋

500개 이상 이미지
세 가지 작업:
- 객체 추가 (add)
- 객체 제거 (remove)
- 객체 수정 (modify)

균형 구성

1.2 비교 모델

InstructPix2Pix
DALLE-3
MagicBrush
UltraEdit
- BayesGenie 결합 버전

1.3 평가 지표

(1) Objective

CLIP Score
GPT-4o 기반 Instruction Consistency Score

(2) Subjective

Human voting

2. 정성적 결과 (Qualitative Results)

2.1 Iteration 효과 (Figure 4, p.6)

Bayesian optimization 반복에 따른 변화:

초기:
- 위치 오류
- 배경 mismatch
5~10회:
- 점진적 alignment
20회:
- 자연스러운 통합

–> BO가 실제로 CFG 공간을 점진적으로 수렴시킴

2.2 실제 편집 예시 (Figure 5, p.7)

세 가지 유형 모두 성공:

Tree에 light 추가
Grass 제거
Bread → cereal 교체

특징:

원본 구조 유지
최소 수정
스타일 일관성 유지

3. 정량적 결과

3.1 CLIP Score 비교 (Figure 7a, p.8)

Model	CLIP Score
InstructPix2Pix	0.2712
MagicBrush	0.3078
UltraEdit	0.3302
InstructPix2Pix + BayesGenie	0.3180
UltraEdit + BayesGenie	0.3524

해석:

기존 모델 위에 붙여도 성능 상승
UltraEdit + BayesGenie가 최고 점수

3.2 GPT-4o Score (Instruction Alignment)

Model	GPT Score
InstructPix2Pix	23.5
MagicBrush	53.7
UltraEdit	62.6
InstructPix2Pix + BayesGenie	78.6
UltraEdit + BayesGenie	85.3

중요한 점

CLIP보다 GPT Score 차이가 훨씬 큼
의미적 정합성 측면에서 큰 개선

4. Human Evaluation (Figure 7c)

투표 수:

Model	Votes
DALLE-3	66
InstructPix2Pix	43
Bay-GPT4o	391

해석

DALLE-3:
- 과도한 수정 경향
InstructPix2Pix:
- 불안정 + 과도 변경
BayesGenie:
- 가장 선호됨
- “정밀 수정 + 원본 보존” 균형

5. 기존 SOTA와 비교 (Appendix C, p.11)

Model	CLIP	GPT
InstructPix2Pix	0.2712	23.5
+ BayesGenie	0.3180	78.6
MagicBrush	0.3078	53.7
UltraEdit	0.3302	62.6
+ BayesGenie	0.3524	85.3

핵심 포인트

BayesGenie는:

기존 모델을 대체하는 구조가 아니라
Enhancement module로 작동

6. 비용 및 효율성 (Section 4)

6.1 실행 시간

RTX 4080
약 2.5분
20 iterations

6.2 비용 (GPT-4o 사용)

512×512 이미지 1회:

약 $0.176

주 비용:

Bayesian loop 중 Prompt token

7. 실험에서 드러난 구조적 특성

7.1 BO 수렴 특성

CFG 2차원 공간
smooth landscape 가정
20 iteration 이후 수익 체감

7.2 Generalizability

GPT-4o
Claude 3.5

두 LLM에서 모두 성능 유지

8. 논문의 실험이 보여주는 핵심 메시지

CFG tuning이 성능에 매우 중요
LLM score가 실제 semantic alignment를 잘 반영
BO는 low-dimensional hyperparameter tuning에 적합
Training-free 방식으로도 큰 개선 가능

9. 연구 관점에서 중요한 부분

이 실험은 단순 image editing 성능 비교가 아니라:

“LLM을 reward model처럼 쓰고

inference-time BO로 hyperparameter alignment를 수행하는 것이 효과적이다”

를 실증함

10. 한계

LLM evaluator bias 가능성
CFG 2차원 공간만 탐색
Iteration 비용 존재
Larger diffusion 모델에서 scaling 미검증

한 줄 요약

BayesGenie는 기존 mask-free image editing 모델 위에 plug-in처럼 결합하여

CLIP, GPT, Human 평가에서 모두 유의미한 성능 향상을 달성했다.

** Bayesian Optimization for Controlled Image Editing via LLMs (ACL 2025 Findings)

1. 문제 설정

기존 한계

2. BayesGenie 전체 구조

시스템 개요 (논문 Figure 2, p.4)

① LLM → Prompt 생성

② Diffusion 모델 실행

③ LLM 평가

④ Bayesian Optimization

3. 수식적 정의

3.1 CFG 기반 diffusion score (p.4)

3.2 최적화 문제

4. Bayesian Optimization 부분 (핵심)

4.1 Objective

4.2 Gaussian Process surrogate (p.5)

4.3 Acquisition: Expected Improvement

4.4 알고리즘 절차

5. LLM 평가 방식 (중요)

6. 실험 결과

6.1 비교 모델

6.2 CLIP / GPT Score (Figure 7, p.8)

6.3 Human Evaluation

7. 비용

8. 논문의 핵심 기여 정리

1. Mask-free editing

2. Training-free

3. Model-agnostic

4. LLM + BO 결합

9. 연구적으로 중요한 포인트

10. 한계

11. 한 줄 요약

Methodology: BayesGenie 상세 설명

1. 전체 시스템 구조

2. Diffusion 모델 수식 구조

2.1 Score Network

의미:

3. 최적화 문제 정의

4. LLM 기반 Dynamic Prompt Optimization

4.1 초기 Prompt 생성

4.2 Iterative Prompt Refinement

5. LLM 기반 Scoring

5.1 LLM 평가 Prompt (Appendix B, p.11)

6. Bayesian Optimization (핵심)

6.1 Objective

6.2 Gaussian Process Surrogate

6.3 Acquisition Function

6.4 BO 알고리즘 단계

7. 이 방법의 핵심 특성

1. Mask-Free

2. Training-Free

3. Model-Agnostic

8. 이 방법의 본질

9. 알고리즘 요약 (Pseudo-code)

10. 연구적 의미

실험 결과 (Experiments & Results)

1. 평가 설정

1.1 데이터셋

1.2 비교 모델

1.3 평가 지표

(1) Objective

(2) Subjective

2. 정성적 결과 (Qualitative Results)

2.1 Iteration 효과 (Figure 4, p.6)

2.2 실제 편집 예시 (Figure 5, p.7)

3. 정량적 결과

3.1 CLIP Score 비교 (Figure 7a, p.8)

해석:

3.2 GPT-4o Score (Instruction Alignment)

중요한 점

4. Human Evaluation (Figure 7c)

해석

5. 기존 SOTA와 비교 (Appendix C, p.11)

핵심 포인트

6. 비용 및 효율성 (Section 4)

6.1 실행 시간

6.2 비용 (GPT-4o 사용)

7. 실험에서 드러난 구조적 특성

7.1 BO 수렴 특성

7.2 Generalizability

8. 논문의 실험이 보여주는 핵심 메시지