이 논문은 **“LLM 내부에 특정 사실(fact)을 저장하는 neuron이 아니라, 특정 관계(relation) 자체를 처리하는 neuron이 존재하는가?”**를 분석한 연구입니다.

기존 연구의 Knowledge Neuron은

(NVIDIA, CEO, Jensen Huang)

이라는 사실 전체를 저장하는 뉴런을 찾으려 했습니다.

반면 이 논문은

CEO 관계 자체를 담당하는 neuron

즉,

NVIDIA → CEO?
Apple → CEO?
Google → CEO?

처럼 entity가 달라도 공통적으로 활성화되는 Relation-Specific Neuron (RelSpec Neuron) 이 존재하는지를 탐구합니다.

1. 핵심 아이디어

저자들의 가설은 다음과 같습니다.

LLM이 “The CEO of NVIDIA is”를 보면

NVIDIA를 인식
CEO relation을 인식
Jensen Huang 생성

과정을 거친다.

이때 일부 neuron은

NVIDIA 자체도 아니고
Jensen Huang 자체도 아니고

CEO 관계를 검출하는 역할을 한다는 가설입니다.

2. 전체 방법론

전체 파이프라인은

Step 1. Relation Dataset 구축

Hernandez et al. (2024) factual knowledge dataset 사용.

원본 triple:

$(subject,\ relation,\ object)$

예:

$(NVIDIA,\ company\_ceo,\ Jensen\ Huang)$

25개 relation 중

fact 개수 300개 이상

인 12개 relation만 사용.

사용된 12개 relation

company_ceo
company_hq
landmark_continent
landmark_country
person_father
person_mother
person_occupation
person_plays_instrument
person_pro_sport
person_sport_position
product_company
star_constellation

3. Detection Set / Evaluation Set 분리

각 relation마다

50개 fact를 평가용으로 분리.

$D_{r_i}$

↓

$D^{eva}_{r_i}$

50개

↓

$D^{det}_{r_i}$

나머지로 분할.

중요한 점은

subject overlap 금지

예:

Detection:

NVIDIA

Evaluation:

Apple

즉 entity를 일반화할 수 있게 설계.

4. Prompt 생성

예를 들어

$(NVIDIA,\ company\_ceo,\ Jensen\ Huang)$

이면

Prompt:

The CEO of NVIDIA is? Answer:

Target:

Jensen Huang

Object는 prompt에 넣지 않음.

5. Prompt Filtering

모델이 이미 알고 있는 fact만 사용.

LLM에 prompt 입력 후

정답 object의 첫 2 token을 맞히는 경우만 유지.

예:

정답:

Jensen Huang

출력:

Jensen Huang

→ 유지

출력:

Elon Musk

→ 제거

이 과정을 통해 relation neuron 탐색 시 노이즈를 줄임.

6. Relation-Specific Neuron 탐색 (핵심)

여기가 논문의 가장 중요한 부분입니다.

Positive / Negative Example 생성

relation r 에 대해

Positive:

$E_r^+$

= relation r 의 prompt

예:

CEO of NVIDIA
CEO of Apple
CEO of Google

Negative:

$E_r^-$

= 다른 relation prompt

예:

headquarters of NVIDIA
father of Elon Musk
constellation of Sirius

등.

Neuron Output 수집

FFN neuron만 분석.

up_proj
gate_proj
down_proj

사용.

Neuron m 의 activation:

$o_{m,j,t}$

토큰별 activation을 평균.

$o_{m,j}=\frac{1}{T}\sum_t o_{m,j,t}$

AP(Average precision) 기반 Expertise 계산

각 neuron에 대해

입력:

$o_{m,j}$

label:

$b_j=\begin{cases}1 & relation\ r\\0 & others\end{cases}$

즉 neuron 하나로 relation classifier를 만든다.

만약 어떤 neuron이 CEO relation에서만 활성화되면 AP가 높아짐.

$AP_m^r$ 를 계산하여 ranking.

Top-k 선택

AP 기준 상위 k=3000개 neuron을 Relation-Specific Neuron으로 정의.

7. Ablation 실험

찾은 neuron이 정말 relation을 담당하는지 확인.

방법:

선택된 neuron 출력을 강제로 0으로 설정.

$h_i \leftarrow 0$

이후 다시 factual recall 수행.

예:

Prompt:

CEO of Apple?

원래:

Tim Cook

Ablation 후:

오답 증가

→ CEO relation neuron이 실제로 중요함

8. 주요 결과

(1) Relation-Specific Neuron 존재

평가 데이터에서 entity가 완전히 달라도 relation neuron 제거 시 정확도 감소.

즉

NVIDIA
Apple
Google

모두 영향.

따라서, entity neuron이 아니라 relation neuron이라는 결론.

(2) 중간 레이어에 집중

Figure 1 결과.

RelSpec neuron 대부분이 중간 layer에 존재.

초기 layer X
마지막 layer X
middle layer O

이는 최근

function vector
task vector
causal representation

연구와 일치.

(3) Neuron Cumulativity

가장 중요한 발견.

하나의 neuron이 relation을 저장하는 것이 아니라 많은 neuron이 함께 저장.

Figure 5에서

3000개

↓

10000개

↓

50000개

로 제거할수록 성능 지속 하락.

즉

$Relation \neq single\ neuron$

$Relation=distributed\ representation$

(4) Neuron Versatility

하나의 neuron이 여러 relation 공유.

예:

father
mother

relation neuron 상당수 공유.

흥미롭게도 관련성이 낮은 relation도 일부 공유.

(5) Multilingual Transfer

영어로 찾은 relation neuron 제거 후

German
French
Spanish
Chinese
Japanese

에서도 성능 하락.

즉, relation representation이 언어 독립적일 가능성 제시.

(6) Neuron Interference

매우 흥미로운 발견.

어떤 relation neuron을 제거하면

다른 relation 성능이 오히려 상승.

예:

A relation neuron

↓

제거

↓

B relation accuracy 증가

저자들은 이를

neuron interference

라고 명명.

이는 최근

circuit competition
feature interference
superposition

가설과 연결됨.

연구적 의의 (Mechanistic Interpretability 관점)

이 논문은 Knowledge Neuron 연구를

기존

Fact-specific

(subject, relation, object)

단위

↓

제안

Relation-specific

relation 단위로 확장했다는 점이 핵심입니다.

* On Relation-Specific Neurons in Large Language Models (EMNLP 2025)

1. 핵심 아이디어

2. 전체 방법론

Step 1. Relation Dataset 구축

사용된 12개 relation

3. Detection Set / Evaluation Set 분리

4. Prompt 생성

5. Prompt Filtering

6. Relation-Specific Neuron 탐색 (핵심)

Positive / Negative Example 생성

Neuron Output 수집

AP(Average precision) 기반 Expertise 계산

Top-k 선택

7. Ablation 실험

8. 주요 결과

(1) Relation-Specific Neuron 존재

(2) 중간 레이어에 집중

(3) Neuron Cumulativity

(4) Neuron Versatility

(5) Multilingual Transfer

(6) Neuron Interference

연구적 의의 (Mechanistic Interpretability 관점)

기존

제안

댓글

답글 남기기 응답 취소