syftr: Pareto-Optimal Generative AI (AutoML 2025)

이 논문은 RAG(Retrieval-Augmented Generation) 시스템을 AutoML 관점에서 자동 설계하는 최초의 Multi-Objective Bayesian Optimization 프레임워크라고 볼 수 있습니다.

핵심 목표는:

“주어진 데이터셋에서 정확도(Accuracy)와 비용(Cost)의 Pareto-optimal RAG flow를 자동으로 찾자”입니다.  


1. 문제 정의

기존 RAG 구축 시 다음과 같은 선택들이 존재합니다.

  • Embedding model
  • Retriever
  • Splitter
  • Re-ranker
  • HyDE
  • Prompt template
  • LLM
  • Agent 종류

예를 들어:

Embedding
 ├─ bge-small
 ├─ bge-large
 └─ gte-large

Retriever
 ├─ Dense
 ├─ Sparse
 └─ Hybrid

LLM
 ├─ GPT-4o-mini
 ├─ Gemini Flash
 ├─ Claude Haiku
 └─ o3-mini

이들을 조합하면 수백~수천 개의 RAG flow가 생성됩니다.

논문에서는 총 1023개의 RAG Flow를 탐색 대상으로 정의합니다.  


2. 전체 아이디어

기존 AutoRAG는

Module A 최적화
→ Module B 최적화
→ Module C 최적화

처럼 Greedy 방식입니다.

문제는:

좋은 Retriever
+
좋은 LLM

이 항상 좋은 전체 Flow가 되는 것은 아닙니다.

즉, Module interaction이 존재합니다.

따라서 syftr는 전체 Flow를 하나의 Search Space로 보고 최적화합니다.  


3. Search Space

논문 Figure 3이 핵심입니다.  

논문 그림3.

상위 레벨:

1. RAG
2. ReAct RAG Agent
3. Critique RAG Agent
4. SubQuestion Agent
5. LATS Agent

3.1 Agent 종류

(1) Vanilla RAG

Query
 ↓
Retrieve
 ↓
LLM
 ↓
Answer

(2) ReAct Agent

Reason
 ↓
Act(Retrieve)
 ↓
Reason
 ↓
Act

반복


(3) Critique Agent

Answer
 ↓
Critique
 ↓
Revise

(4) SubQuestion Agent

Question
 ↓
Sub-question decomposition
 ↓
RAG
 ↓
Merge

(5) LATS

Language Agent Tree Search

Tree Search
 + Planning
 + Reflection

가장 복잡한 Agent


4. Search Variable

Appendix A1 기준 탐색 변수들.  

Retriever

Dense
Sparse
Fusion

Hyperparameter

top-k
num-queries
bm25-weight

Splitter

Sentence
Recursive
Token

Hyperparameter

chunk size
chunk overlap

Prompt

Default
Concise
CoT
Few-shot

ReRanker

사용 여부
reranker LLM
top-k

HyDE

사용 여부
HyDE LLM

LLM

Small:

GPT-4o-mini
Gemini Flash
Claude Haiku
o3-mini

Large:

GPT-4o
Gemini Pro
Claude Sonnet
Llama-3.3-70B

등을 탐색합니다.  


5. 핵심 방법론: MO-TPE

논문의 핵심 기여는

Multi-Objective Tree-of-Parzen Estimator

(MO-TPE) 사용입니다.  


5.1 일반 TPE

일반 BO는 f(x)를 직접 모델링합니다.

하지만 TPE는 좋은 영역 l(x), 나쁜 영역 g(x)를 모델링합니다.


관측 결과를 상위 γ% Good set과 나머지 Bad set으로 나눕니다.


Density Estimation

l(x) = p(x | good)

g(x) = p(x | bad)

학습


새 후보는

maximize l(x)/g(x)

로 선택

즉,

좋은 영역에 가까우면서
나쁜 영역에서는 드문

점을 찾습니다.


5.2 왜 TPE인가?

RAG Search Space는

if Agent = ReAct
    max_iter 존재

if Agent = RAG
    max_iter 없음

같은 Conditional Hyperparameter 구조입니다.


GP 기반 BO는 이런 공간이 어렵습니다.

반면 TPE는 Tree Structured Space를 자연스럽게 처리 가능합니다.  


5.3 Multi-objective 확장

최적화 목표:

Accuracy ↑

Cost ↓

단일 objective가 아닙니다.

따라서 MO-TPE를 사용합니다.


Weighted Scalarization

논문은 Ozaki et al.의 MO-TPE를 사용합니다.  

각 objective를

y = w1 Accuracy
  + w2 (-Cost)

형태로 scalarization 합니다.


다양한 weight를 사용하면

Accuracy 중심

Cost 중심

균형형

해를 모두 탐색하게 됩니다.


5.4 Expected Hypervolume Improvement (EHVI)

이 부분이 중요합니다.

Pareto Optimization에서 목표는 Pareto Frontier 확대입니다.


Hypervolume

현재 Pareto Set이 차지하는 면적

HV(P)

를 정의


새 점 x 추가 후

HV(P ∪ {x})

증가량

ΔHV

를 계산


Expected Hypervolume Improvement

EHVI(x) = E[ΔHV]

MO-TPE는 EHVI가 큰 점을 다음 샘플로 선택합니다.  


6. Pareto-Pruner (논문의 가장 독창적인 기여)

저자가 강조하는 핵심 기여입니다.


문제

Flow 하나 평가하려면, 1000개 QA를 모두 돌려야 합니다.

매우 비쌉니다.


예:

100개 QA 평가 후

Accuracy = 20%

Cost = 매우 비쌈

이면 이미 망한 Flow일 수 있습니다.


아이디어

중간 평가 결과만으로 앞으로 잘될 가능성을 추정


Accuracy Confidence Interval

정확도 a에 대해

a ± z√(a(1-a)/N)

사용


Cost Confidence Interval

비용

c ± zσc/√L

사용


Bounding Box

Figure 4.  

          accuracy
             ↑
             │
             │
             p
             ●
             │
             │
─────────────┼────→ cost

upper-left corner

p를 계산

Pruning Rule

만약

p 조차 현재 Pareto frontier 아래라면
절대 Pareto-optimal 될 수 없음 판단

즉시 중단

Early Stop

이는

BO + Multi-objective와 Successive Halving을 결합한 느낌의 방법입니다.

7. Warm Start / Transfer Seeding

BO 시작 전에 초기 Trial을 넣어줍니다.


Static Seed

대표 RAG 설정

GPT4o-mini
+
BGE-small


Random Seed

무작위


Transfer Seed

이전 데이터셋에서 좋았던 Flow 사용


이를 통해 Cold Start 문제를 완화합니다.  


8. 실험 결과

주요 결과

syftr가 찾은 Pareto-optimal Flow는

기본 LlamaIndex 설정 대비

동일 비용

+6% accuracy 향상

또는

동일 정확도

37% cost 감소 달성.  

흥미로운 관찰

1. Agent는 생각보다 자주 Pareto-optimal이 아님

많은 경우

Non-agentic RAG가 Pareto frontier에 존재

이유:

Agent = 비싸고 느림

2. GPT-4o-mini가 매우 강력

여러 데이터셋에서

GPT-4o-mini가 Pareto frontier에 자주 등장

3. HyDE / ReRanking

항상 좋은 것이 아님

데이터셋 의존적


4. FinanceBench

o3-mini가 강세

수치 추론 때문으로 분석


논문의 학술적 의의

이 논문은 RAG 연구라기보다

“Generative AI Pipeline AutoML”

논문입니다.

기존:

AutoML
→ ML Pipeline

NAS
→ Neural Architecture

AutoRAG
→ Greedy Module Search

에서 한 단계 나아가

Agent + RAG + LLM + Prompt

전체를 대상으로

Pareto-optimal search

를 수행했다는 점이 핵심입니다.

특히 연구적으로는:

  1. Hierarchical RAG Search Space 정의
  2. MO-TPE 기반 Pareto Search
  3. Pareto-Pruner를 이용한 Early Stopping
  4. Agentic / Non-agentic Flow 통합 최적화

가 주요 기여입니다.  

방법론 자체보다 Pareto-Pruner가 가장 흥미로운 기여라고 봅니다. MO-TPE는 기존 기법 활용에 가깝지만, 평가 비용이 매우 큰 RAG AutoML 환경에서 “현재 Pareto frontier를 이용해 trial을 조기 종료” 하는 아이디어는 실용성이 높고, 향후 Agent workflow optimization이나 Prompt optimization에도 쉽게 확장 가능합니다.


게시됨

카테고리

, ,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다