Learning to Reason in 13 Parameters (ArXiv 2026)


1. 연구 배경 및 문제의식

최근 LLM에서 reasoning 능력 향상은 주로 다음 방식으로 이루어집니다.

  • Supervised Fine-Tuning (SFT)
  • Reinforcement Learning (RL) (특히 RLVR, GRPO)

하지만 기존 접근의 문제는 다음입니다.

방법학습 파라미터 규모
Full Finetuning수십억
LoRA수백만
LoRA rank=1약 3M

parameter-efficient tuning이라 해도 여전히 수백만 파라미터가 필요합니다.

논문의 핵심 질문:

Reasoning을 학습하는 데 정말 수백만 파라미터가 필요한가?

이 논문은 놀라운 결과를 보여줍니다.

→ 단 13개의 파라미터로 reasoning 능력을 크게 향상 가능


2. 핵심 아이디어

TinyLoRA

기존 LoRA를 극단적으로 축소한 방법입니다.

목표:

LoRA: millions parameters
↓
LoRA-XS: thousands
↓
TinyLoRA: 1~100 parameters

실험 결과:

  • Qwen2.5-7B
  • GSM8K accuracy
설정Accuracy
base model88.2%
TinyLoRA (13 params)91.8%
Full finetuning91.7%

13 parameters ≈ full finetuning


3. 왜 RL이 이렇게 효율적인가?

논문에서 가장 중요한 이론적 기여입니다.

SFT objective

LSFT(θ)=E(x,y)tlogπθ(yt|x,y<t)L_{SFT}(\theta) = – E_{(x,y)} \sum_{t} \log \pi_\theta(y_t|x,y_{<t})

모든 토큰을 그대로 학습

문제:

  • signal + noise 같이 학습
  • 많은 정보 저장 필요

RL objective (policy gradient)

θJ(θ)=Etθlogπθ(yt|x,y<t)R(y)\nabla_\theta J(\theta) = E \sum_t \nabla_\theta \log \pi_\theta(y_t|x,y_{<t}) \cdot R(y)

특징:

  • reward만 중요
  • irrelevant token 정보 제거

논문의 주장:

방법정보 밀도
SFTnoisy signal
RLclean signal

따라서

RL은 훨씬 적은 파라미터로 학습 가능 


4. TinyLoRA 방법

기존 LoRA

W’ = W + AB

  • ARd×rA \in R^{d×r}
  • BRr×kB \in R^{r×k}

파라미터 수

O(dr)


LoRA-XS

SVD decomposition 활용

W=UΣVTW = U \Sigma V^T

update

W=W+UΣRVTW’ = W + U\Sigma R V^T

여기서

  • RRr×rR \in R^{r×r} 학습

파라미터 수

O(r2)O(r^2)


TinyLoRA

핵심 아이디어:

R을 직접 학습하지 않고 random projection 사용

R=i=1uviPiR = \sum_{i=1}^{u} v_i P_i

  • viv_i : trainable vector
  • PiP_i : fixed random tensor

최종 업데이트

W=W+UΣ(iviPi)VTW’ = W + U\Sigma(\sum_i v_i P_i)V^T


파라미터 수

방법파라미터
LoRAO(nmdr)
LoRA-XSO(nmr²)
TinyLoRAO(nmu)

추가 trick:

weight tying

모든 layer가 같은 vector 사용

1 parameter까지 가능 


5. 실험

Dataset

  • GSM8K
  • MATH
  • AIME
  • AMC
  • OlympiadBench

모델

  • Qwen2.5 3B / 7B
  • LLaMA 3

학습

  • RL: GRPO
  • reward: exact match

6. 주요 결과

(1) 13 parameters로 reasoning 학습

ParamsGSM8K
088.2
1391.8
4991.5
19692.2
full FT91.7

13 parameters → full FT 수준


(2) RL vs SFT

ParamsRLSFT
1391%83%
12095%84%

결론

Tiny parameter regime에서는 RL이 필수


(3) 모델 크기 영향

Figure 3 (page 3) 결과:

모델이 클수록 필요한 update parameter가 감소

모델필요한 파라미터
0.5B10k
3B1k
7B100

모델이 클수록 “programming”이 쉬움


(4) Qwen vs LLaMA

결과:

  • Qwen: 13 params → 91%
  • LLaMA: 수백 params 필요

원인 추정:

  • pretraining
  • architecture

7. 중요한 해석

논문의 매우 흥미로운 해석:

reasoning capability는 이미 모델 내부에 존재

RL이 하는 일은

새 knowledge 학습이 아니라

reasoning mode activation

즉, TinyLoRA가 하는 일

knowledge learning ❌
reasoning style switching ✅

특히, longer reasoning traces을 생성하도록 bias를 바꾸는 것.


8. 한계

논문에서 인정한 한계

(1) Math dataset only

  • reasoning domain 제한

(2) possible contamination

  • GSM8K pretraining 포함 가능

(3) general reasoning 미검증

  • science / planning 등

9. 연구적 의미

이 논문은 매우 중요한 질문을 던집니다.

(1) RL은 실제로 무엇을 학습하는가?

가능한 해석:

RL ≠ new knowledge
RL = activation routing change

이는 다음 연구들과 연결됩니다.

  • RL learns small subnetworks
  • intrinsic dimension of finetuning
  • LoRA low-rank update theory

(2) future: reasoning programming

TinyLoRA의 implication:

LLM ≈ programmable system

몇 바이트로

  • persona
  • reasoning style
  • task skill

을 제어 가능.


10. 정리

논문의 핵심 기여

(1) TinyLoRA 제안

  • 1~100 parameter finetuning 가능

(2) RL vs SFT 분석

  • RL이 low-parameter regime에서 훨씬 효율적

(3) 실험 결과

  • 13 parameters → full finetuning 수준 reasoning

(4) 이론적 해석

  • reasoning capability는 base model 내부에 이미 존재

논문의 방법론(Methodology)을 실제 학습 구조, 파라미터화 방식, 학습 파이프라인 중심으로 정리합니다.


1. 연구 목표 (Methodological Objective)

논문의 방법론적 목표는 다음입니다.

“update capacity”를 최소화하면서 reasoning 성능을 유지하는 parameter-efficient training 설계

즉 모델의 파라미터 대부분은 freeze하고, 매우 작은 update subspace만 학습합니다.

핵심 구성요소는 다음 3가지입니다.

  1. TinyLoRA parameterization
  2. parameter sharing (weight tying)
  3. RL 기반 training pipeline (GRPO)

2. TinyLoRA Parameterization 구조

2.1 기본 구조

Transformer의 linear layer

Wd×kW \in \mathbb{R}^{d \times k}

TinyLoRA는 다음과 같은 업데이트를 적용합니다.

W=W+ΔWW’ = W + \Delta W

여기서

ΔW=UΣ(i=1uviPi)VT\Delta W = U \Sigma \left(\sum_{i=1}^{u} v_i P_i\right) V^T

구성요소:

요소의미
U, Σ, Vweight matrix의 truncated SVD
PiP_ifixed random matrix
viv_itrainable parameter

즉, trainable parameters = v 뿐입니다. 


2.2 Frozen SVD basis

TinyLoRA는 기존 LoRA와 달리 SVD basis를 frozen합니다.

W=UΣVTW = U \Sigma V^T

  • U, Σ, V → fixed
  • update는 이 basis 위에서만 수행

즉, update subspace = singular directions of W

이 구조는 다음 의미를 갖습니다.

  • pretrained weight의 principal directions 유지
  • low-dimensional update 가능

2.3 Random projection parameterization

LoRA-XS에서도 Rr×rR \in \mathbb{R}^{r \times r} 을 학습해야 합니다.

TinyLoRA는 이를 다음으로 대체합니다.

R=i=1uviPiR = \sum_{i=1}^{u} v_i P_i

여기서

  • PiP_i : fixed random tensor
  • viv_i : scalar parameter

즉, matrix learning → scalar combination

이 방식은 다음 장점이 있습니다.

(1) parameter 수 감소

(2) update rank 유지

(3) optimization 안정성 유지


3. Parameter Sharing (Weight Tying)

TinyLoRA가 극단적으로 파라미터를 줄일 수 있는 이유입니다.

Transformer block에서 LoRA는 보통 다음 모듈에 적용됩니다.

  • attention Q
  • attention K
  • attention V
  • attention O
  • MLP up
  • MLP down
  • MLP gate

즉 block당 7개 linear module.


기본 파라미터 수

layer 수 = n

module 수 = m

TinyLoRA parameter 수

n m u


Weight tying

논문은 다음 방식으로 parameter를 공유합니다.

vlayer,module=vsharedv_{layer,module} = v_{shared}

즉, 모든 module이 동일 parameter 사용

파라미터 수: nmuntie\frac{nmu}{n_{tie}}

최대 공유 시: ntie=nmn_{tie} = nm

따라서, parameters = u

즉, u = 1 → single parameter training 가능합니다. 


4. Reinforcement Learning Training Pipeline

TinyLoRA는 SFT가 아니라 RL로 학습됩니다.

논문은 GRPO (Group Relative Policy Optimization) 를 사용합니다.


4.1 RL objective

각 prompt x에 대해 모델이 여러 candidate 답을 생성

y1,y2,...,yky_1, y_2, …, y_k

각 답에 대해 reward 계산: R(y)


4.2 GRPO gradient

policy gradient 형태

θJ(θ)=Etθlogπθ(yt|x,y<t)R(y)\nabla_\theta J(\theta) = E \sum_t \nabla_\theta \log \pi_\theta(y_t | x, y_{<t}) \cdot R(y)

즉, reward 높은 trajectory 강화


4.3 reward function

논문에서 사용한 reward: Exact match

  • 정답이면 1
  • 아니면 0

math task에서는 매우 강력한 signal입니다.


5. Training Pipeline

논문에서 사용한 전체 학습 pipeline입니다.

Step 1 — prompt sampling

dataset

  • GSM8K
  • MATH

Step 2 — multi-sample generation

각 문제마다

k = 4 (GSM8K)
k = 8 (MATH)

candidate generation


Step 3 — reward computation

정답 여부 판단


Step 4 — policy gradient update

TinyLoRA parameter v만 업데이트


Step 5 — weight merge

training과 inference mismatch 해결을 위해

논문은 다음 trick을 사용합니다.

training → LoRA weights
inference → merged weights

Wmerged=W+ΔWW_{merged} = W + \Delta W


6. vLLM 구현 트릭

논문에서 중요한 구현 포인트입니다.

문제:

vLLM LoRA minimum rank = 4

TinyLoRA는 rank < 4 필요.


해결 방법

training에서는 LoRA model,

inference에서는 merged weight model 을 사용합니다.

그리고 mismatch를 줄이기 위해

truncated importance sampling 적용합니다. 


7. Hyperparameter Design

논문에서 중요한 tuning 요소입니다.

learning rate sweep

{107,5×107,106,5×106,105,104,2×104}\{10^{-7}, 5×10^{-7}, 10^{-6}, 5×10^{-6}, 10^{-5}, 10^{-4}, 2×10^{-4}\}

각 parameter regime에서 best LR 선택


generation length

GSM8K

max length = 4096

MATH

prompt = 1024
response = 3072

8. Parameter Budget Experiment Design

논문은 update size를 다음처럼 sweep합니다.

regimeparameters
Tiny1 – 100
small100 – 10k
medium10k – 1M
large>1M

이를 통해, update size vs performance curve를 분석합니다.


9. 핵심 methodological insight

이 논문의 방법론이 보여준 중요한 사실:

(1) reasoning tuning은 low-dimensional

업데이트가 필요한 dimension이 매우 작음.


(2) RL gradient는 sparse update

policy gradient는

reward correlated features만 업데이트

(3) pretrained model은 이미 reasoning capability 보유

TinyLoRA는 capability learning 아님
capability activation에 가깝다는 결론.


10. 한 문장 요약 (방법론)

이 논문의 방법론은 다음 구조입니다.

Frozen Transformer
       +
TinyLoRA (1~100 parameters)
       +
RL training (GRPO)
       ↓
Reasoning capability amplification


게시됨

카테고리

,

작성자

태그:

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다