* TTRL: Test-Time Reinforcement Learning (NeurIPS 2025)

논문 **“TTRL: Test-Time Reinforcement Learning” (NeurIPS 2025)**는

라벨이 없는 test 데이터에서 RL을 수행하여 LLM을 test-time에 self-evolve 시키는 방법을 제안합니다  .

아래에서 핵심 아이디어, 수식, 실험 결과, 그리고 왜 작동하는지까지 체계적으로 정리하겠습니다.


1. 문제 설정: Test-Time RL

기존 RL 기반 reasoning 모델 (예: GRPO, PPO 기반 수학 RL)은 ground-truth label이 있는 데이터를 사용합니다.

그러나 TTRL은 다음과 같은 설정을 다룹니다:

Test-time에, ground-truth 없이 RL로 모델을 학습한다. 

즉,

  • 주어진 것은 입력 x (문제)
  • 정답 y^* 없음
  • 그럼에도 RL을 수행해야 함

이것이 TTRL의 핵심 도전입니다.


2. 핵심 아이디어: Majority Voting을 Reward로 사용

TTRL은 **Test-Time Scaling (TTS)**의 대표 기법인 majority voting을

reward estimator로 재해석합니다  .

(1) 기본 절차

Step 1. 여러 개 샘플 생성

{y1,y2,,yN}πθ(y|x)\{y_1, y_2, \dots, y_N\} \sim \pi_\theta(y|x)

Step 2. Majority Voting으로 pseudo-label 생성

yvote=argmaxys(y,x)y^{vote} = \arg\max_y s(y, x)

즉, 가장 많이 등장한 답을 “정답”처럼 사용.

Step 3. Reward 정의

R(y^i,yvote)={1if y^i=yvote0otherwiseR(\hat y_i, y^{vote}) = \begin{cases} 1 & \text{if } \hat y_i = y^{vote} \\ 0 & \text{otherwise} \end{cases} 


3. RL Objective

기본 RL objective는 다음과 같습니다:

maxθ𝔼yπθ(|x)[r(y,yvote)]\max_\theta \mathbb{E}_{y \sim \pi_\theta(\cdot|x)}[r(y, y^{vote})] 

Gradient update:

θθ+ηθ𝔼y[r(y,yvote)]\theta \leftarrow \theta + \eta \nabla_\theta \mathbb{E}_{y}[r(y, y^{vote})]

핵심은:

reward는 ground-truth가 아니라 모델의 consensus로부터 온다.


4. 왜 이게 작동하는가? (핵심 분석)

논문 4.2절은 매우 중요합니다.

(1) Lucky Hit 현상

pseudo-label이 틀렸어도 reward는 상당히 정확할 수 있음  .

예:

  • True label = 3
  • Majority vote = 2 (틀림)
  • 샘플 예측들: 1,1,2,2,2,4,5,6

이 경우:

  • 예측이 2인 경우 → reward=1
  • 예측이 1,4,5,6 → reward=0

놀랍게도:

  • 틀린 label을 썼는데도
  • 많은 경우 negative reward는 정확히 계산됨

이를 논문에서는 “Lucky Hit”이라 부름.


(2) Reward Accuracy > Label Accuracy

AIME 2024 실험에서:

  • Label accuracy ≈ 37%
  • Reward accuracy ≈ 92%

(figure 10) 

즉,

pseudo-label이 틀려도 reward signal은 매우 신뢰할 수 있음.


(3) RL은 reward noise에 robust

논문은 다음 두 점을 강조합니다  :

  1. RL은 reward noise를 허용
  2. RL은 SFT보다 일반화가 강함

따라서 pseudo reward로도 안정적인 학습 가능.


5. 가장 인상적인 결과

(1) 211% 성능 향상

Qwen2.5-Math-7B:

  • AIME 2024: 12.9 → 40.2
  • +211% 향상 

이는 라벨 없이 test data만으로 얻은 결과.


(2) Self-training upper bound를 넘는다

일반 self-training의 upper bound는 initial model의 maj@n.

그런데 TTRL은:

Final avg@16>Initial maj@16\text{Final avg@16} > \text{Initial maj@16}

즉, 자기 bootstrap을 넘어선다  .


(3) Direct RL (label leakage)에 근접

라벨을 직접 사용하여 RL한 것과 거의 유사한 성능 도달  .

이건 굉장히 중요한 실험입니다.


6. 핵심 개념 정리

개념기존 방법TTRL
Reward sourceground-truthmajority vote
학습 시점train timetest time
Label 필요필요불필요
방식offline RLonline RL

7. TTRL의 본질

TTRL은 다음을 통합한 방법입니다:

  • Test-Time Scaling (majority voting)
  • Test-Time Training (parameter update)
  • Online RL
  • Self-labeled reward

즉,

“Inference-time self-evolution via RL”


8. 연구적 의미

이 논문의 중요성은 단순 성능 향상이 아니라:

  1. Unsupervised RL for reasoning
  2. Label 없이 continual learning 가능성
  3. Self-bootstrapping beyond majority ceiling
  4. RL as dynamic pseudo-label refinement

9. 해석적 관점

이 방법은 다음과 연결됩니다:

  • Self-consistency (Wang et al., 2022)
  • GRPO-style rule-based RL
  • Self-improving LMs (Huang et al.)
  • Online test-time adaptation

그리고 매우 중요한 철학:

Label estimation → reward estimation → policy improvement → better label estimation (Self-reinforcing loop)


10. 한계

논문은 다음과 같은 implicit limitation을 가짐:

  • 수학/검증 가능 task에 최적화
  • verifier 기반 reward 필요
  • compute heavy (64 rollout)

요약 한 문장

TTRL은 majority voting을 reward로 변환하여, ground-truth 없이 test-time에 RL을 수행함으로써 LLM을 self-evolve시키는 프레임워크이다.


TTRL 방법론 (Methodology)

TTRL(Test-Time Reinforcement Learning)은

ground-truth label 없이 test-time에서 RL을 수행하는 프레임워크입니다  .

핵심은:

majority voting을 reward estimator로 사용하여 online RL을 수행한다

아래에서 수식, 알고리즘 흐름, 학습 구조를 체계적으로 정리합니다.


1. 문제 설정

입력:

x𝒳x \in \mathcal{X}

정답 yy^*존재하지만 접근 불가

정책:

πθ(y|x)\pi_\theta(y|x)

목표:

maxθ𝔼yπθ[r(y)]\max_\theta \mathbb{E}_{y \sim \pi_\theta}[r(y)]

하지만 r(y)를 직접 계산할 수 없음.


2. Majority Voting 기반 Reward 추정

2.1 Rollout

하나의 입력 x에 대해:

{y1,y2,,yN}πθ(|x)\{y_1, y_2, \dots, y_N\} \sim \pi_\theta(\cdot|x)

(논문 구현: N=64 샘플링 후 일부 downsample) 


2.2 Label Estimation

답 추출기(answer extractor)로 최종 답만 추출:

P^={y^1,,y^N}\hat{P} = \{\hat{y}_1, \dots, \hat{y}_N\}

Majority voting:

yvote=argmaxyi𝟏(y^i=y)y^{vote} = \arg\max_y \sum_i \mathbf{1}(\hat{y}_i = y)

이것이 pseudo-label.


2.3 Reward Function

R(y^i,yvote)={1if y^i=yvote0otherwiseR(\hat{y}_i, y^{vote}) = \begin{cases} 1 & \text{if } \hat{y}_i = y^{vote} \\ 0 & \text{otherwise} \end{cases} 

중요:

  • reward는 정답과 비교하지 않음
  • 모델 자신의 consensus와 비교

3. RL Objective

목표 함수:

maxθ𝔼yπθ(|x)[R(y,yvote)]\max_\theta \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} [R(y, y^{vote})] 

Gradient update:

θθ+ηθ𝔼[R(y)]\theta \leftarrow \theta + \eta \nabla_\theta \mathbb{E}[R(y)]

실제 구현은 GRPO 기반.


4. 학습 루프 구조

TTRL은 Online RL입니다.

반복 구조:

for each test batch:
    1. sample N responses
    2. compute majority vote
    3. assign rewards
    4. update policy

중요 특징:

모델이 업데이트될수록 majority vote 품질도 개선됨 → reward quality 향상 → further policy improvement

논문에서는 이를 “self-reinforcing loop”로 설명 


5. Vote-then-Sample 전략

논문 구현 세부:

  • 64개 샘플 생성
  • voting 수행
  • 32개만 training에 사용

이 전략은 compute 절감 + 성능 유지 


6. 왜 단순 Self-Training이 아닌가?

Self-training:

  • majority 선택
  • SFT로 학습

TTRL:

  • majority → reward
  • policy gradient 수행

차이:

Self-TrainingTTRL
offlineonline
SFTRL
upper bound = maj@nsurpass 가능

논문은 TTRL이 initial maj@n을 초과한다고 보고 


7. Reward Noise 내성

pseudo-label이 틀려도 reward는 상당히 정확:

  • Label accuracy ≈ 37%
  • Reward accuracy ≈ 92% 

이유:

  • reward는 “comparison 기반”
  • Lucky Hit 현상

8. 알고리즘 정리 (수식 기반)

Step 1. Sampling

yiπθ(|x)y_i \sim \pi_\theta(\cdot|x)

Step 2. Consensus

yvote=argmaxyi𝟏(y^i=y)y^{vote} = \arg\max_y \sum_i \mathbf{1}(\hat y_i = y)

Step 3. Reward

ri=𝟏(y^i=yvote)r_i = \mathbf{1}(\hat y_i = y^{vote})

Step 4. Policy Gradient

θJ=𝔼i[riθlogπθ(yi|x)]\nabla_\theta J = \mathbb{E}_i [r_i \nabla_\theta \log \pi_\theta(y_i|x)]

(실제는 GRPO 형태의 normalized group objective)


9. TTRL의 구조적 특징

(1) Test-Time Scaling + Test-Time Training 통합

  • TTS → majority voting
  • TTT → parameter update
  • RL → bridge 역할 

(2) Self-evolution

논문 표현:

model “lifts itself up by its own bootstraps” 

즉, initial consensus를 supervision으로 사용

→ policy 개선

→ consensus 개선

→ 반복


10. 핵심 정리

TTRL 방법론은 다음 세 요소로 구성됩니다:

  1. Label Estimation – majority voting
  2. Reward Calculation – rule-based 0/1 reward
  3. Online RL Optimization – GRPO 기반

한 줄 요약

TTRL은 majority voting을 reward signal로 변환하여, test-time에서 ground-truth 없이 online RL을 수행하는 self-bootstrapping 프레임워크이다.


TTRL에서 실제 policy optimization에 사용된 **GRPO (Group Relative Policy Optimization)**의 수식을 구조적으로 설명하겠습니다.

TTRL은 majority voting으로 reward를 계산하고, 그 reward를 GRPO objective에 넣어 policy를 업데이트합니다  .


1. GRPO의 배경

GRPO는 DeepSeekMath에서 제안된 outcome-level rule-based RL 방식입니다  .

핵심 아이디어:

하나의 prompt에서 생성된 여러 샘플을 group으로 보고, 그 안에서의 상대적 성과(relative performance)를 이용해 업데이트한다.

즉, PPO처럼 value model을 두지 않고, group 내부 평균을 baseline으로 사용합니다.


2. 기본 설정

입력 x

정책: πθ(y|x)\pi_\theta(y|x)

하나의 prompt에 대해 K개 샘플: {y1,,yK}\{y_1, \dots, y_K\}

각 샘플 reward: ri=R(yi)r_i = R(y_i)


3. Group 평균 보상

GRPO는 group 내부 평균을 baseline으로 사용합니다:

r=1Ki=1Kri\bar{r} = \frac{1}{K} \sum_{i=1}^{K} r_i

Advantage 정의:

Ai=rirA_i = r_i – \bar{r}

중요:

  • 별도 value network 없음
  • variance 감소 효과
  • 상대적 우수성만 반영

4. GRPO Objective

정책 비율:

ρi(θ)=πθ(yi|x)πθold(yi|x)\rho_i(\theta) = \frac{\pi_\theta(y_i|x)} {\pi_{\theta_{\text{old}}}(y_i|x)}

GRPO의 clipped objective:

LGRPO(θ)=𝔼i[min(ρiAi,clip(ρi,1ϵ,1+ϵ)Ai)]L_{\text{GRPO}}(\theta) = \mathbb{E}_i \left[ \min \left( \rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon) A_i \right) \right]

구조는 PPO와 유사하지만:

  • value loss 없음
  • KL penalty optional
  • advantage는 group-relative

5. TTRL에서의 특수성

TTRL에서는 reward가 다음과 같이 정의됩니다  :

ri=𝟏(y^i=yvote)r_i = \mathbf{1}(\hat y_i = y^{vote})

즉 0/1 reward.

그러므로:

Ai=𝟏(y^i=yvote)1Kj𝟏(y^j=yvote)A_i = \mathbf{1}(\hat y_i = y^{vote}) – \frac{1}{K} \sum_j \mathbf{1}(\hat y_j = y^{vote})

해석:

  • majority에 속한 샘플 → positive advantage
  • minority → negative advantage

즉, policy는 consensus 확률을 키우는 방향으로 업데이트됨.


6. Token-Level Gradient

각 샘플은 token sequence:

yi=(t1,,tT)y_i = (t_1, \dots, t_T)

로그확률:

logπθ(yi|x)=t=1Tlogπθ(tt|x,t<t)\log \pi_\theta(y_i|x) = \sum_{t=1}^T \log \pi_\theta(t_t | x, t_{<t})

Gradient:

θL=𝔼i[Ait=1Tθlogπθ(tt|x,t<t)]\nabla_\theta L = \mathbb{E}_i \left[ A_i \sum_{t=1}^T \nabla_\theta \log \pi_\theta(t_t | x, t_{<t}) \right]

즉 sequence-level reward를 token-level로 credit assignment.


7. 왜 GRPO가 적합한가?

TTRL에서 GRPO가 특히 적합한 이유:

(1) Label-free setting

value network 학습 불필요 → pseudo reward만으로 학습 가능


(2) Majority reward 구조와 잘 맞음

reward는 group 내부 상대적 정보이므로 group-relative baseline과 자연스럽게 결합됨.


(3) Noise robustness

reward가 noisy해도:

Ai=rirA_i = r_i – \bar r

이 baseline subtraction이 noise를 완화.


8. 수식적으로 보는 Self-Bootstrapping

TTRL + GRPO의 dynamics:

초기에는:

  • majority 정확도 낮음
  • reward noisy

하지만:

θt+1=θt+ηiAiθlogπθ(yi|x)\theta_{t+1} = \theta_t + \eta \sum_i A_i \nabla_\theta \log \pi_\theta(y_i|x)

정책이 majority 쪽 확률을 증가시키면:

P(yvote)majorityrewardP(y^{vote}) \uparrow \Rightarrow majority 정확도 \uparrow \Rightarrow reward 정확도 \uparrow

→ positive feedback loop

논문에서 이것을 “lifts itself up by its own bootstraps”라고 설명 


9. GRPO vs PPO vs PRIME

논문 실험에서는 PPO와 PRIME과도 비교  .

결론:

  • 세 방법 모두 잘 작동
  • GRPO는 value-free라 구현 단순
  • TTRL은 RL 알고리즘에 agnostic

10. 핵심 직관 정리

GRPO in TTRL은:

“한 prompt 내에서 상대적으로 consensus에 가까운 trajectory를 강화하는 방식”

수학적으로는:

  • Reward = consensus indicator
  • Advantage = relative consensus deviation
  • Update = clipped policy gradient

한 줄 요약

TTRL에서 GRPO는 majority-based 0/1 reward를 group-relative advantage로 변환하여, value-free clipped policy gradient로 업데이트하는 방식이다.


논문의 실험 결과를 구조적으로 정리하겠습니다.


1. 메인 결과 (Table 1)

논문은 4개 benchmark에서 TTRL을 적용합니다:

  • AIME 2024
  • AMC
  • MATH-500
  • GPQA

결과는 **Table 1 (p.4)**에 정리되어 있습니다  .


1.1 Qwen2.5-Math-7B (가장 인상적 결과)

BenchmarkBeforeAfter TTRLΔRelative Gain
AIME 202412.940.2+27.3+211%
AMC35.668.1+32.5+91%
MATH-50046.783.4+36.7+78%

핵심 포인트:

라벨 없이 test 데이터만으로 AIME에서 211% 향상 


1.2 작은 모델도 강하게 향상

Qwen2.5-Math-1.5B

BenchmarkBeforeAfterΔ
AIME7.715.8+105%
MATH-50032.773.0+123%

특히 MATH-500에서 40점 이상 상승.

→ 작은 모델도 self-evolution 가능.


2. 다양한 모델 패밀리 실험 (Table 2)

논문은 Qwen 외에도:

  • LLaMA
  • Mistral
  • DeepSeek
  • Skywork
  • Qwen3-8B (thinking mode)

에 적용  .

결과:

거의 모든 모델에서 일관된 향상.

예:

DeepSeek-R1-LLaMA-8B

51.7 → 69.2 (AIME)

이미 RL로 heavily post-trained된 모델에서도 추가 상승.


3. Large Reasoning Model(LRM) 결과

Figure 3 (p.5) 

Skywork-OR1-Math-7B:

  • 66.7 → 75.0

Qwen3-8B:

  • 72.5 → 82.5

핵심:

이미 고성능 RL 모델에서도 추가 10점 상승


4. Scaling Behavior (p.6)

논문은 model size 증가 시 TTRL 효과도 증가한다고 보고  .

1.5B → 7B → 32B

  • majority voting 정확도 ↑
  • reward quality ↑
  • self-improvement ↑

즉:

Better priorBetter pseudo rewardBetter RL\text{Better prior} \Rightarrow \text{Better pseudo reward} \Rightarrow \text{Better RL}


5. Out-of-Distribution Generalization

Figure 4 (p.6) 

TTRL을 AIME에서 수행 후,

AMC/MATH에서 평가해도 성능 상승.

즉:

단순 overfitting 아님

Generalizable reasoning improvement


6. RL Algorithm Compatibility

Figure 5 (p.6) 

GRPO vs PPO vs PRIME 비교.

결과:

  • 세 방법 모두 유사한 상승 곡선
  • TTRL은 RL 알고리즘에 독립적

7. Majority Upper Bound 초과 (핵심 결과)

Section 4.1 

놀라운 발견:

Final avg@16>Initial maj@16\text{Final avg@16} > \text{Initial maj@16}

즉:

  • majority voting을 supervision으로 썼는데
  • majority ceiling을 넘어섬

이는 기존 self-training과 결정적 차이.


8. Direct RL (Label Leakage)와 비교

Figure 8 (p.8) 

TTRL vs RL(ground-truth 사용)

결과:

TTRL 성능이 거의 leakage RL에 근접

이는 매우 강한 실험 증거.


9. Reward Accuracy vs Label Accuracy

Figure 10 (p.9) 

AIME 2024에서:

  • Label accuracy ≈ 37%
  • Reward accuracy ≈ 92%

즉:

pseudo-label은 부정확해도 reward는 매우 정확

Lucky Hit 효과 때문.


10. 종합 요약

정량적 결론

  • 평균적으로 약 70% 이상 상대 향상
  • 최대 211% 향상
  • 다양한 모델에서 일관성
  • LRM에서도 유효
  • OOD generalization 가능
  • majority upper bound 초과

실험이 말하는 것

  1. Majority reward는 실제로 usable하다.
  2. RL은 noisy reward에서도 잘 작동한다.
  3. Online self-evolution이 가능하다.
  4. 작은 모델도 크게 성장한다.

연구적으로 가장 중요한 실험 결과

(1) Upper bound 초과

→ self-training 이론적 ceiling 붕괴

(2) Leakage RL 근접

→ pseudo reward의 강력함 입증

(3) Reward accuracy ≫ Label accuracy

→ TTRL 성공의 핵심 메커니즘



게시됨

카테고리

, ,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다