*** Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors (EMNLP 2025)

다음은 **EMNLP 2025 논문 “Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors”**에 대한 핵심 정리입니다.


연구 동기

LLM 입력에는 종종 **오타(typo)**가 포함되며, 모델은 때때로 이를 내부적으로 보정해 올바른 의미를 복원합니다.

그러나 경우에 따라 오타는 모델의 성능 저하를 유발합니다.

이 연구는:

어떤 뉴런(neurons)과 어떤 어텐션 헤드(attention heads)가 오타를 감지·보정하는지 밝혀내는 것이 목표입니다.


주요 연구 질문

  1. LLM은 오타를 로컬 컨텍스트 기반으로 고칠 수 있는가?
  2. 더 긴 글로벌 컨텍스트를 이용해 의미를 회복하는가?
  3. 오타 처리에 관여하는 특정 뉴런/헤드가 존재하는가?
  4. 그들은 원래 오타 외의 일반 언어 기능도 담당하는가?

실험 설정 개요

Task

  • **단어 정의(word-definition)**를 보고 해당 단어를 맞추는 워드 아이덴티피케이션 태스크 사용
    • “a young swan” → “cygnet”

이는 모델의 어휘 지식을 직접 측정하기 위함입니다.


오타 데이터 생성 방법

  • 중요도 높은 토큰들에 대해
  • 임의 문자 1개 삽입(insertion typo)

예:

young → youneg
swan  → s5wan

토큰화를 혼동시키는 효과가 큼.


“Split Dataset” 개념

오타 토큰화 때문에 clean vs typo 비교가 어려움:

  • young → you / neg (2 토큰)

따라서 오타는 없지만 토큰 수만 동일하게 split한 버전을 만들어 비교합니다.


예비결과: 성능 영향

오타 수를 늘릴수록 정확도↓

단, 모델 크기가 클수록 견고성↑.


Typo Neurons (오타 뉴런)

식별 방법

  • clean vs typo vs split 데이터에서
  • 뉴런 활성값 평균 비교
  • typo 시 특이적으로 활성되는 뉴런을 상위 K개 추출

정의식은 Δn (responsibility score)

분포 관찰

  • 초기(early) 레이어 또는 후기(late) 레이어에 많이 등장
    • 모델 종류마다 차이
  • 그러나 중간(middle) 레이어는 공통적으로 핵심적 역할 수행
    • 글로벌 문맥 기반 typo-fixing

중요한 발견

early 또는 late 중 한 곳의 typo neuron만 있어도 typo-fix가 가능


Neuron Ablation (삭제 실험)

  • typo neuron을 0으로 마스킹할 경우
    • 오타 처리 성능 크게 하락
  • 랜덤 뉴런 제거는 영향 거의 없음

또한 clean 데이터에서도 성능 감소 →

typo neuron은 문법·형태 정보 처리에도 관여.


Typo Heads (오타 헤드)

아이디어

오타는 subword 병합 / 문맥 확인 과정에서 수정 가능하므로 self-attention heads도 관여할 것.

식별 방법

attention row vs uniform의 KL divergence 비교

콘텍스트를 넓게 보는지 여부 판단

정의식 Δh 사용.

결과

  • 많은 헤드가 typo 처리 시, 특정 토큰 집중이 아니라, 넓은 문맥(global) 을 고르게 참조함
  • 큰 모델일수록 미묘하게 동작해 Δh ~ 0에 가까움

Head Ablation 결과

  • 큰 모델에서는 typo head 제거해도 → 다수 헤드가 공동 보정하므로 영향 제한적
  • 작은 모델에서는 → 소수 헤드에 의존 → ablation 영향 큼

Layer 역할 요약 (Lad et al. 2024 기반)

구간역할Typo 관련
EarlyDetokenization (로컬)문자 단위 결합
MiddleFeature engineering (글로벌)의미적 복원 핵심
LateRetokenization / Sharpening노이즈 제거

본 연구의 주요 결론

LLM들은 오타를 다음 방식으로 보정한다:

1) 로컬 컨텍스트 기반

  • early 또는 late 층 typo neuron
  • subword 복원

2) 글로벌 컨텍스트 기반

  • 중간층 typo neuron
  • 문맥적 의미 복원 핵심

3) Typo heads

  • 특정 토큰에 집중하지 않고
  • 주변 전체를 훑으며 오류 보정

4) 일반 문법·형태소 처리 기능과 공유

  • typo neuron/head들은 오타 전용 장치가 아님

의미 및 시사점

  • 모델의 typo-robustness를 강화하려면 → local + global context 둘 다 강화 필요
  • typo-fixing 능력 개선은 → 일반 문법/문맥 인식 향상에도 도움

한계점

  • 한 종류의 typo(insertion)만 사용
  • 하나의 task만 사용
  • 몇 가지 모델군(Gemma, Llama3, Qwen)만 실험
  • ablation 해석 어려움: damaged neuron/heads 구분 불명확

한 줄 요약

오타는 LLM 내부에서 특정 뉴런과 헤드의 활성 패턴을 유발하며, 초기/후기 레이어는 로컬, 중간 레이어는 글로벌 의미 복원을 수행한다. 또한 이 구성요소들은 오타 외 일반 문법 처리에도 관여한다.


논문의 **방법론(Methodology)**을 핵심만 구조적으로 정리합니다.


연구 목표의 관점에서 본 방법론 흐름

이 논문의 방법론은 다음 5단계 파이프라인으로 구성됩니다:

단계목적핵심 요소
1오타 없는 데이터 구성WordNet 기반 단어 정의 → 정답 단어 예측
2오타 포함 데이터 생성중요 토큰 선정 후 문자 삽입(insertion typo)
3Tokenization 효과 분리Split Dataset 생성 (오타는 없지만 토큰 수 동일)
4Typo Neuron 탐지clean / typo / split 간 뉴런 활성도 비교
5Typo Head 탐지KL divergence 기반 attention 패턴 비교

아래에서 각 단계를 상세히 풀이합니다.


1. Clean Dataset 생성 (Word Identification Task)

  • WordNet에서 단어 정의(word-definition)정답 단어 형태의 62,643쌍을 수집
    • 예: “a young swan” → “cygnet”
  • LLM이 정답을 맞출 수 있는 샘플만 선택
    • 확률 상위 5,000개(혹은 Llama3에는 1,000개)

목적 → 오타가 정확도 하락을 일으키는지 명확히 관찰하려면, 모델이 원래는 정답을 맞출 수 있는 샘플로 구성되어야 함.


2. Typo Dataset 생성 (삽입형 오타)

  • 입력 정의문에서 중요 토큰 t개 선택
    • 중요도는 gradient 기반 토큰 중요도(backprop)
  • 각 토큰에 문자 1개 삽입
    • 예: young → youneg, swan → s5wan
    • 오타 유형은 **삽입(insertion)**으로 통일

이유 → randomness를 줄이고 typo가 semantic 정보 손실 + tokenization 변환의 원인이 되도록 설계


3. Split Dataset 생성 (tokenization 영향 분리)

오타가 생기면 토크나이저는 한 단어를 여러 서브워드로 나눔:

young → you / neg    (토큰 2개)

그러면 활성화값 차이가 tokenization 때문인지 typo 때문인지 구분 불가

따라서 split dataset 생성:

young → y / oung   (2개)
(오타는 없지만 토큰 수 동일)

역할 → typo dataset vs clean dataset 비교 시 token 수 차이 노이즈 제거


4. Typo Neuron 식별 (Δn score)

각 뉴런 n의 타입별 활성도 평균을 계산:

Dataset의미
clean오타 없음
typo오타 포함
split토큰 수는 같지만 오타 없음

핵심 지표:

Δn=sn(typo)max(sn(clean),sn(split))Δn = s_n(typo) – max(s_n(clean), s_n(split))

→ typo일 때 특이적으로 더 활성되는 뉴런을 typo neuron이라 규정

→ Δn이 큰 상위 0.5% 뉴런 추출

검증 (Ablation)

  • typo neurons를 0으로 마스킹 → 오타 정답률 크게 감소 → 랜덤 뉴런 제거는 영향 미미

– 결론

→ typo neuron은 실질적으로 typo-fixing 과정에 기여

→ clean 데이터 성능도 떨어짐 → 일반 문법·형태소 처리에도 관여


5. Typo Head 탐지 (Δh score)

Self-attention head의 행을 확률분포로 보고

→ uniform distribution과의 KL divergence로 집중 정도를 계산

문제점: token 수 증가하면 KL divergence 값 증가

→ log₂(m)로 정규화하여 해결

shX=1|X|xXmDKL(Px,m,hUm)log2ms_h^X = \frac{1}{|X|} \sum_{x \in X} \sum_{m} \frac{D_{KL}(P_{x,m,h} \| U_m)}{\log_2 m}

head 책임 점수:

Δh=sh(typo)max(sh(clean),sh(split))Δh = s_h(typo) – max(s_h(clean), s_h(split))
  • Δh가 크게 음수 → 특정 토큰 집중이 아니라 넓게 분산된 글로벌 주의
  • 절댓값 큰 상위 1.5% heads → typo heads

검증 (Ablation)

  • 작은 모델: typo head 제거 → 정답률 급감
  • 큰 모델: 영향 완화 (다수 head가 협력 → redundancy)

– 결론

→ 작은 모델: 특정 head가 typo-fixing의 핵심

→ 큰 모델: 협력 분산적 typo-fixing


방법론의 핵심 요약 그림

                ┌───────────────┐
                │ Clean dataset │
                └───────────────┘
                          │
          ┌───────────────┴───────────────┐
          ▼                               ▼
   Typo dataset                     Split dataset
        |                                 |
        └─────────── 비교 · 정량화 ───────┘
                        |
           ┌────────────┴────────────┐
           ▼                         ▼
   Δn (Feed-forward neurons)   Δh (Attention heads)
           |                         |
  상위 0.5% typo neurons    상위 1.5% typo heads

왜 이 방법론이 독창적인가?

기존 연구본 논문
오타가 성능에 미치는 영향 보고오타를 고치는 내부 회로를 규명
로컬 컨텍스트 위주글로벌 컨텍스트까지 고려
layer-level 분석neuron-level + head-level 분석
“성능 감소” 관찰어떻게 고치는가” 관찰

한 문장으로 요약

clean / typo / split 입력에서의 내부 활성값 차이를 정량화해, 오타를 감지·보정하는 뉴런과 헤드가 어디에 있고 어떻게 동작하는지 추적하는 방법론.


아래는 논문의 **실험 결과(Experimental Results)**를 정리한 내용입니다.


1) 오타에 대한 성능 변화 (Preliminary)

설정

  • Word identification task
  • 오타 개수 t[1,16]t \in [1, 16]
  • 모델: Gemma 2 (2B/9B/27B), Llama 3(1B/3B/8B), Qwen 2.5(3B/7B/14B/32B)

결과

  • 오타 수 증가 → 정확도 감소
  • 모델 크기↑ → 오타 견고성↑

Larger models maintain higher accuracy even with many typos. 

해석

  • LLM은 typo robustness를 가지지만 완전하지 않음
  • Robustness는 parameter scale과 양의 상관

2) Typo Neuron 분포 결과

Δn 기반 typo neuron 식별

  • 상위 0.5% 뉴런을 typo neuron으로 정의
  • 대부분 뉴런은 Δn ≈ 0
  • 소수 뉴런만 매우 큰 Δn

Few neurons have significantly larger scores than others. 


레이어별 분포

공통점

  • **Middle layers (0.2–0.8 구간)**에 typo neuron 집중
  • 글로벌 문맥 기반 복원 핵심

모델별 차이

모델EarlyMiddleLate
Gemma 2많음많음적음
Llama 3적음많음많음
Qwen 2.5적음많음많음

Typo neurons in the middle layers are responsible for typo-fixing considering global contexts. 


많은 오타 (t=16) 실험

  • Δn 최대값 증가 → typo neuron 더 강하게 활성
  • 대형 모델(27B, 32B)은 neuron 수 거의 증가하지 않음 → 이미 충분히 robust

Typo neurons remain highly consistent even when the number of typos changes. 

NDCG 결과도 매우 높음 → typo neuron은 안정적으로 존재


3) Neuron Ablation 결과

설정

  • typo neuron 0.5% 제거
  • 랜덤 뉴런 제거와 비교

결과 (Gemma 2 예)

모델CleanTypo
Random neuron 제거거의 변화 없음거의 변화 없음
Typo neuron 제거성능 감소더 크게 감소

Ablating typo neurons significantly reduces performance on typo inputs. 

중요한 관찰

  • clean 데이터에서도 성능 감소 → typo neuron은 일반 문법·형태소 처리 기능도 담당

4) 성공 vs 실패 샘플 비교

오타가 성공적으로 복원된 경우 vs 실패한 경우 비교:

  • 성공 케이스:
    • Early-middle layer typo neuron 활성↑
  • 실패 케이스:
    • 일부 early layer 뉴런이 잘못 활성
    • 2B 모델은 middle-middle 과도 활성

Early-middle layers appear important when typos do not damage inference. 

해석

  • typo-fixing의 핵심은 중간 레이어
  • early/late는 로컬 보정
  • middle은 글로벌 의미 복원

5) Typo Head 실험 결과

Δh 분포

  • Δh 대부분 음수
  • 의미:
    • 특정 토큰 집중이 아니라
    • 넓은 문맥을 고르게 참조

Heads recognize and fix typos by observing wider contexts. 


모델 크기 효과

  • 모델 크기↑ → Δh ≈ 0인 head 증가
  • 큰 모델일수록 분산적 처리

6) Head Ablation 결과

Gemma 2 결과 요약

모델Random head 제거Typo head 제거
2B약간 감소크게 감소
9B감소유사 감소
27B큰 감소비슷한 감소

Many heads cooperate in larger models. 

해석

  • 작은 모델 → 소수 head 의존
  • 큰 모델 → 다수 head 협력적 typo-fixing

7) 전체 실험에서 도출된 핵심 결론

Typo-fixing은 2축 구조

(1) Local Context 기반

  • Early or Late layers
  • Detokenization / Retokenization

(2) Global Context 기반

  • Middle layers
  • Feature Engineering

뉴런과 헤드의 역할 차이

요소역할
Typo Neuron오타 감지 + 의미 복원
Typo Head문맥 확산적 탐색
둘 다일반 문법/형태 처리에도 기여

8) 종합 해석 (Mechanistic 관점)

이 실험은 다음을 보여줍니다:

  1. 오타는 단순 token-level noise가 아님
  2. 중간 레이어에서 의미적 재구성 발생
  3. 큰 모델은 redundancy 기반 robustness
  4. typo neuron은 “전용 회로”가 아니라 → general language skill neuron과 overlap

한 줄 요약

LLM은 오타를 단순 문자 복원이 아니라, 로컬 + 글로벌 문맥을 이용한 계층적 의미 재구성 과정으로 처리하며, 그 과정은 소수 뉴런과 다수 헤드의 협력 구조로 이루어진다.



게시됨

카테고리

, ,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다