다음은 **EMNLP 2025 논문 “Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors”**에 대한 핵심 정리입니다.

연구 동기

LLM 입력에는 종종 **오타(typo)**가 포함되며, 모델은 때때로 이를 내부적으로 보정해 올바른 의미를 복원합니다.

그러나 경우에 따라 오타는 모델의 성능 저하를 유발합니다.

이 연구는:

어떤 뉴런(neurons)과 어떤 어텐션 헤드(attention heads)가 오타를 감지·보정하는지 밝혀내는 것이 목표입니다.

주요 연구 질문

LLM은 오타를 로컬 컨텍스트 기반으로 고칠 수 있는가?
더 긴 글로벌 컨텍스트를 이용해 의미를 회복하는가?
오타 처리에 관여하는 특정 뉴런/헤드가 존재하는가?
그들은 원래 오타 외의 일반 언어 기능도 담당하는가?

실험 설정 개요

Task

**단어 정의(word-definition)**를 보고 해당 단어를 맞추는 워드 아이덴티피케이션 태스크 사용
- “a young swan” → “cygnet”

이는 모델의 어휘 지식을 직접 측정하기 위함입니다.

오타 데이터 생성 방법

중요도 높은 토큰들에 대해
임의 문자 1개 삽입(insertion typo)

예:

young → youneg
swan  → s5wan

토큰화를 혼동시키는 효과가 큼.

“Split Dataset” 개념

오타 토큰화 때문에 clean vs typo 비교가 어려움:

young → you / neg (2 토큰)

따라서 오타는 없지만 토큰 수만 동일하게 split한 버전을 만들어 비교합니다.

예비결과: 성능 영향

오타 수를 늘릴수록 정확도↓

단, 모델 크기가 클수록 견고성↑.

Typo Neurons (오타 뉴런)

식별 방법

clean vs typo vs split 데이터에서
뉴런 활성값 평균 비교
typo 시 특이적으로 활성되는 뉴런을 상위 K개 추출

정의식은 Δn (responsibility score)

분포 관찰

초기(early) 레이어 또는 후기(late) 레이어에 많이 등장
- 모델 종류마다 차이
그러나 중간(middle) 레이어는 공통적으로 핵심적 역할 수행
- 글로벌 문맥 기반 typo-fixing

중요한 발견

early 또는 late 중 한 곳의 typo neuron만 있어도 typo-fix가 가능

Neuron Ablation (삭제 실험)

typo neuron을 0으로 마스킹할 경우
- 오타 처리 성능 크게 하락
랜덤 뉴런 제거는 영향 거의 없음

또한 clean 데이터에서도 성능 감소 →

typo neuron은 문법·형태 정보 처리에도 관여.

Typo Heads (오타 헤드)

아이디어

오타는 subword 병합 / 문맥 확인 과정에서 수정 가능하므로 self-attention heads도 관여할 것.

식별 방법

attention row vs uniform의 KL divergence 비교

→ 콘텍스트를 넓게 보는지 여부 판단

정의식 Δh 사용.

결과

많은 헤드가 typo 처리 시, 특정 토큰 집중이 아니라, 넓은 문맥(global) 을 고르게 참조함
큰 모델일수록 미묘하게 동작해 Δh ~ 0에 가까움

Head Ablation 결과

큰 모델에서는 typo head 제거해도 → 다수 헤드가 공동 보정하므로 영향 제한적
작은 모델에서는 → 소수 헤드에 의존 → ablation 영향 큼

Layer 역할 요약 (Lad et al. 2024 기반)

구간	역할	Typo 관련
Early	Detokenization (로컬)	문자 단위 결합
Middle	Feature engineering (글로벌)	의미적 복원 핵심
Late	Retokenization / Sharpening	노이즈 제거

본 연구의 주요 결론

LLM들은 오타를 다음 방식으로 보정한다:

1) 로컬 컨텍스트 기반

early 또는 late 층 typo neuron
subword 복원

2) 글로벌 컨텍스트 기반

중간층 typo neuron
문맥적 의미 복원 핵심

3) Typo heads

특정 토큰에 집중하지 않고
주변 전체를 훑으며 오류 보정

4) 일반 문법·형태소 처리 기능과 공유

typo neuron/head들은 오타 전용 장치가 아님

의미 및 시사점

모델의 typo-robustness를 강화하려면 → local + global context 둘 다 강화 필요
typo-fixing 능력 개선은 → 일반 문법/문맥 인식 향상에도 도움

한계점

한 종류의 typo(insertion)만 사용
하나의 task만 사용
몇 가지 모델군(Gemma, Llama3, Qwen)만 실험
ablation 해석 어려움: damaged neuron/heads 구분 불명확

한 줄 요약

오타는 LLM 내부에서 특정 뉴런과 헤드의 활성 패턴을 유발하며, 초기/후기 레이어는 로컬, 중간 레이어는 글로벌 의미 복원을 수행한다. 또한 이 구성요소들은 오타 외 일반 문법 처리에도 관여한다.

논문의 **방법론(Methodology)**을 핵심만 구조적으로 정리합니다.

연구 목표의 관점에서 본 방법론 흐름

이 논문의 방법론은 다음 5단계 파이프라인으로 구성됩니다:

단계	목적	핵심 요소
1	오타 없는 데이터 구성	WordNet 기반 단어 정의 → 정답 단어 예측
2	오타 포함 데이터 생성	중요 토큰 선정 후 문자 삽입(insertion typo)
3	Tokenization 효과 분리	Split Dataset 생성 (오타는 없지만 토큰 수 동일)
4	Typo Neuron 탐지	clean / typo / split 간 뉴런 활성도 비교
5	Typo Head 탐지	KL divergence 기반 attention 패턴 비교

아래에서 각 단계를 상세히 풀이합니다.

1. Clean Dataset 생성 (Word Identification Task)

WordNet에서 단어 정의(word-definition) → 정답 단어 형태의 62,643쌍을 수집
- 예: “a young swan” → “cygnet”
LLM이 정답을 맞출 수 있는 샘플만 선택
- 확률 상위 5,000개(혹은 Llama3에는 1,000개)

목적 → 오타가 정확도 하락을 일으키는지 명확히 관찰하려면, 모델이 원래는 정답을 맞출 수 있는 샘플로 구성되어야 함.

2. Typo Dataset 생성 (삽입형 오타)

입력 정의문에서 중요 토큰 t개 선택
- 중요도는 gradient 기반 토큰 중요도(backprop)
각 토큰에 문자 1개 삽입
- 예: young → youneg, swan → s5wan
- 오타 유형은 **삽입(insertion)**으로 통일

이유 → randomness를 줄이고 typo가 semantic 정보 손실 + tokenization 변환의 원인이 되도록 설계

3. Split Dataset 생성 (tokenization 영향 분리)

오타가 생기면 토크나이저는 한 단어를 여러 서브워드로 나눔:

young → you / neg    (토큰 2개)

그러면 활성화값 차이가 tokenization 때문인지 typo 때문인지 구분 불가

따라서 split dataset 생성:

young → y / oung   (2개)
(오타는 없지만 토큰 수 동일)

역할 → typo dataset vs clean dataset 비교 시 token 수 차이 노이즈 제거

4. Typo Neuron 식별 (Δn score)

각 뉴런 n의 타입별 활성도 평균을 계산:

Dataset	의미
clean	오타 없음
typo	오타 포함
split	토큰 수는 같지만 오타 없음

핵심 지표:

 $Δn = s_n(typo) – max(s_n(clean), s_n(split))$

→ typo일 때 특이적으로 더 활성되는 뉴런을 typo neuron이라 규정

→ Δn이 큰 상위 0.5% 뉴런 추출

검증 (Ablation)

typo neurons를 0으로 마스킹 → 오타 정답률 크게 감소 → 랜덤 뉴런 제거는 영향 미미

– 결론

→ typo neuron은 실질적으로 typo-fixing 과정에 기여

→ clean 데이터 성능도 떨어짐 → 일반 문법·형태소 처리에도 관여

5. Typo Head 탐지 (Δh score)

Self-attention head의 행을 확률분포로 보고

→ uniform distribution과의 KL divergence로 집중 정도를 계산

문제점: token 수 증가하면 KL divergence 값 증가

→ log₂(m)로 정규화하여 해결

$s_h^X = \frac{1}{|X|} \sum_{x \in X} \sum_{m} \frac{D_{KL}(P_{x,m,h} \| U_m)}{\log_2 m}$

head 책임 점수:

 $Δh = s_h(typo) – max(s_h(clean), s_h(split))$

Δh가 크게 음수 → 특정 토큰 집중이 아니라 넓게 분산된 글로벌 주의
절댓값 큰 상위 1.5% heads → typo heads

검증 (Ablation)

작은 모델: typo head 제거 → 정답률 급감
큰 모델: 영향 완화 (다수 head가 협력 → redundancy)

– 결론

→ 작은 모델: 특정 head가 typo-fixing의 핵심

→ 큰 모델: 협력 분산적 typo-fixing

방법론의 핵심 요약 그림

                ┌───────────────┐
                │ Clean dataset │
                └───────────────┘
                          │
          ┌───────────────┴───────────────┐
          ▼                               ▼
   Typo dataset                     Split dataset
        |                                 |
        └─────────── 비교 · 정량화 ───────┘
                        |
           ┌────────────┴────────────┐
           ▼                         ▼
   Δn (Feed-forward neurons)   Δh (Attention heads)
           |                         |
  상위 0.5% typo neurons    상위 1.5% typo heads

왜 이 방법론이 독창적인가?

기존 연구	본 논문
오타가 성능에 미치는 영향 보고	오타를 고치는 내부 회로를 규명
로컬 컨텍스트 위주	글로벌 컨텍스트까지 고려
layer-level 분석	neuron-level + head-level 분석
“성능 감소” 관찰	“어떻게 고치는가” 관찰

한 문장으로 요약

clean / typo / split 입력에서의 내부 활성값 차이를 정량화해, 오타를 감지·보정하는 뉴런과 헤드가 어디에 있고 어떻게 동작하는지 추적하는 방법론.

아래는 논문의 **실험 결과(Experimental Results)**를 정리한 내용입니다.

1) 오타에 대한 성능 변화 (Preliminary)

설정

Word identification task
오타 개수 $t \in [1, 16]$
모델: Gemma 2 (2B/9B/27B), Llama 3(1B/3B/8B), Qwen 2.5(3B/7B/14B/32B)

결과

오타 수 증가 → 정확도 감소
모델 크기↑ → 오타 견고성↑

Larger models maintain higher accuracy even with many typos.

해석

LLM은 typo robustness를 가지지만 완전하지 않음
Robustness는 parameter scale과 양의 상관

2) Typo Neuron 분포 결과

Δn 기반 typo neuron 식별

상위 0.5% 뉴런을 typo neuron으로 정의
대부분 뉴런은 Δn ≈ 0
소수 뉴런만 매우 큰 Δn

Few neurons have significantly larger scores than others.

레이어별 분포

공통점

**Middle layers (0.2–0.8 구간)**에 typo neuron 집중
글로벌 문맥 기반 복원 핵심

모델별 차이

모델	Early	Middle	Late
Gemma 2	많음	많음	적음
Llama 3	적음	많음	많음
Qwen 2.5	적음	많음	많음

Typo neurons in the middle layers are responsible for typo-fixing considering global contexts.

많은 오타 (t=16) 실험

Δn 최대값 증가 → typo neuron 더 강하게 활성
대형 모델(27B, 32B)은 neuron 수 거의 증가하지 않음 → 이미 충분히 robust

Typo neurons remain highly consistent even when the number of typos changes.

NDCG 결과도 매우 높음 → typo neuron은 안정적으로 존재

3) Neuron Ablation 결과

설정

typo neuron 0.5% 제거
랜덤 뉴런 제거와 비교

결과 (Gemma 2 예)

모델	Clean	Typo
Random neuron 제거	거의 변화 없음	거의 변화 없음
Typo neuron 제거	성능 감소	더 크게 감소

Ablating typo neurons significantly reduces performance on typo inputs.

중요한 관찰

clean 데이터에서도 성능 감소 → typo neuron은 일반 문법·형태소 처리 기능도 담당

4) 성공 vs 실패 샘플 비교

오타가 성공적으로 복원된 경우 vs 실패한 경우 비교:

성공 케이스:
- Early-middle layer typo neuron 활성↑
실패 케이스:
- 일부 early layer 뉴런이 잘못 활성
- 2B 모델은 middle-middle 과도 활성

Early-middle layers appear important when typos do not damage inference.

해석

typo-fixing의 핵심은 중간 레이어
early/late는 로컬 보정
middle은 글로벌 의미 복원

5) Typo Head 실험 결과

Δh 분포

Δh 대부분 음수
의미:
- 특정 토큰 집중이 아니라
- 넓은 문맥을 고르게 참조

Heads recognize and fix typos by observing wider contexts.

모델 크기 효과

모델 크기↑ → Δh ≈ 0인 head 증가
큰 모델일수록 분산적 처리

6) Head Ablation 결과

Gemma 2 결과 요약

모델	Random head 제거	Typo head 제거
2B	약간 감소	크게 감소
9B	감소	유사 감소
27B	큰 감소	비슷한 감소

Many heads cooperate in larger models.

해석

작은 모델 → 소수 head 의존
큰 모델 → 다수 head 협력적 typo-fixing

7) 전체 실험에서 도출된 핵심 결론

Typo-fixing은 2축 구조

(1) Local Context 기반

Early or Late layers
Detokenization / Retokenization

(2) Global Context 기반

Middle layers
Feature Engineering

뉴런과 헤드의 역할 차이

요소	역할
Typo Neuron	오타 감지 + 의미 복원
Typo Head	문맥 확산적 탐색
둘 다	일반 문법/형태 처리에도 기여

8) 종합 해석 (Mechanistic 관점)

이 실험은 다음을 보여줍니다:

오타는 단순 token-level noise가 아님
중간 레이어에서 의미적 재구성 발생
큰 모델은 redundancy 기반 robustness
typo neuron은 “전용 회로”가 아니라 → general language skill neuron과 overlap

한 줄 요약

LLM은 오타를 단순 문자 복원이 아니라, 로컬 + 글로벌 문맥을 이용한 계층적 의미 재구성 과정으로 처리하며, 그 과정은 소수 뉴런과 다수 헤드의 협력 구조로 이루어진다.

*** Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors (EMNLP 2025)

연구 동기

주요 연구 질문

실험 설정 개요

Task

오타 데이터 생성 방법

“Split Dataset” 개념

예비결과: 성능 영향

Typo Neurons (오타 뉴런)

식별 방법

분포 관찰

중요한 발견

Neuron Ablation (삭제 실험)

Typo Heads (오타 헤드)

아이디어

식별 방법

결과

Head Ablation 결과

Layer 역할 요약 (Lad et al. 2024 기반)

본 연구의 주요 결론

1) 로컬 컨텍스트 기반

2) 글로벌 컨텍스트 기반

3) Typo heads

4) 일반 문법·형태소 처리 기능과 공유

의미 및 시사점

한계점

한 줄 요약

연구 목표의 관점에서 본 방법론 흐름

1. Clean Dataset 생성 (Word Identification Task)

2. Typo Dataset 생성 (삽입형 오타)

3. Split Dataset 생성 (tokenization 영향 분리)

4. Typo Neuron 식별 (Δn score)

검증 (Ablation)

5. Typo Head 탐지 (Δh score)

검증 (Ablation)

방법론의 핵심 요약 그림

왜 이 방법론이 독창적인가?

한 문장으로 요약

1) 오타에 대한 성능 변화 (Preliminary)

설정

결과

해석

2) Typo Neuron 분포 결과

Δn 기반 typo neuron 식별

레이어별 분포

공통점

모델별 차이

많은 오타 (t=16) 실험

3) Neuron Ablation 결과

설정

결과 (Gemma 2 예)

중요한 관찰

4) 성공 vs 실패 샘플 비교

해석

5) Typo Head 실험 결과

Δh 분포

모델 크기 효과

6) Head Ablation 결과

Gemma 2 결과 요약

해석

7) 전체 실험에서 도출된 핵심 결론

Typo-fixing은 2축 구조

(1) Local Context 기반

(2) Global Context 기반

뉴런과 헤드의 역할 차이

8) 종합 해석 (Mechanistic 관점)

한 줄 요약

댓글

답글 남기기 응답 취소