





이 논문은 **“LLM 내부에 특정 사실(fact)을 저장하는 neuron이 아니라, 특정 관계(relation) 자체를 처리하는 neuron이 존재하는가?”**를 분석한 연구입니다.
기존 연구의 Knowledge Neuron은
(NVIDIA, CEO, Jensen Huang)
이라는 사실 전체를 저장하는 뉴런을 찾으려 했습니다.
반면 이 논문은
CEO 관계 자체를 담당하는 neuron
즉,
- NVIDIA → CEO?
- Apple → CEO?
- Google → CEO?
처럼 entity가 달라도 공통적으로 활성화되는 Relation-Specific Neuron (RelSpec Neuron) 이 존재하는지를 탐구합니다.
1. 핵심 아이디어
저자들의 가설은 다음과 같습니다.
LLM이 “The CEO of NVIDIA is”를 보면
- NVIDIA를 인식
- CEO relation을 인식
- Jensen Huang 생성
과정을 거친다.
이때 일부 neuron은
- NVIDIA 자체도 아니고
- Jensen Huang 자체도 아니고
CEO 관계를 검출하는 역할을 한다는 가설입니다.
2. 전체 방법론
전체 파이프라인은
Step 1. Relation Dataset 구축
Hernandez et al. (2024) factual knowledge dataset 사용.
원본 triple:
예:
25개 relation 중
- fact 개수 300개 이상
인 12개 relation만 사용.
사용된 12개 relation
- company_ceo
- company_hq
- landmark_continent
- landmark_country
- person_father
- person_mother
- person_occupation
- person_plays_instrument
- person_pro_sport
- person_sport_position
- product_company
- star_constellation
3. Detection Set / Evaluation Set 분리
각 relation마다
50개 fact를 평가용으로 분리.
↓
50개
↓
나머지로 분할.
중요한 점은
subject overlap 금지
예:
Detection:
- NVIDIA
Evaluation:
- Apple
즉 entity를 일반화할 수 있게 설계.
4. Prompt 생성
예를 들어
이면
Prompt:
The CEO of NVIDIA is? Answer:
Target:
Jensen Huang
Object는 prompt에 넣지 않음.
5. Prompt Filtering
모델이 이미 알고 있는 fact만 사용.
LLM에 prompt 입력 후
정답 object의 첫 2 token을 맞히는 경우만 유지.
예:
정답:
Jensen Huang
출력:
Jensen Huang
→ 유지
출력:
Elon Musk
→ 제거
이 과정을 통해 relation neuron 탐색 시 노이즈를 줄임.
6. Relation-Specific Neuron 탐색 (핵심)
여기가 논문의 가장 중요한 부분입니다.
Positive / Negative Example 생성
relation r 에 대해
Positive:
= relation r 의 prompt
예:
- CEO of NVIDIA
- CEO of Apple
- CEO of Google
Negative:
= 다른 relation prompt
예:
- headquarters of NVIDIA
- father of Elon Musk
- constellation of Sirius
등.
Neuron Output 수집
FFN neuron만 분석.
- up_proj
- gate_proj
- down_proj
사용.
Neuron m 의 activation:
토큰별 activation을 평균.
AP(Average precision) 기반 Expertise 계산
각 neuron에 대해
입력:
label:
즉 neuron 하나로 relation classifier를 만든다.
만약 어떤 neuron이 CEO relation에서만 활성화되면 AP가 높아짐.
를 계산하여 ranking.
Top-k 선택
AP 기준 상위 k=3000개 neuron을 Relation-Specific Neuron으로 정의.
7. Ablation 실험
찾은 neuron이 정말 relation을 담당하는지 확인.
방법:
선택된 neuron 출력을 강제로 0으로 설정.
이후 다시 factual recall 수행.
예:
Prompt:
CEO of Apple?
원래:
Tim Cook
Ablation 후:
오답 증가
→ CEO relation neuron이 실제로 중요함
8. 주요 결과
(1) Relation-Specific Neuron 존재
평가 데이터에서 entity가 완전히 달라도 relation neuron 제거 시 정확도 감소.
즉
- NVIDIA
- Apple
모두 영향.
따라서, entity neuron이 아니라 relation neuron이라는 결론.
(2) 중간 레이어에 집중
Figure 1 결과.

RelSpec neuron 대부분이 중간 layer에 존재.
- 초기 layer X
- 마지막 layer X
- middle layer O
이는 최근
- function vector
- task vector
- causal representation
연구와 일치.
(3) Neuron Cumulativity
가장 중요한 발견.
하나의 neuron이 relation을 저장하는 것이 아니라 많은 neuron이 함께 저장.

Figure 5에서
3000개
↓
10000개
↓
50000개
로 제거할수록 성능 지속 하락.
즉
(4) Neuron Versatility
하나의 neuron이 여러 relation 공유.
예:
- father
- mother
relation neuron 상당수 공유.
흥미롭게도 관련성이 낮은 relation도 일부 공유.
(5) Multilingual Transfer
영어로 찾은 relation neuron 제거 후
- German
- French
- Spanish
- Chinese
- Japanese
에서도 성능 하락.
즉, relation representation이 언어 독립적일 가능성 제시.
(6) Neuron Interference
매우 흥미로운 발견.
어떤 relation neuron을 제거하면
다른 relation 성능이 오히려 상승.
예:
A relation neuron
↓
제거
↓
B relation accuracy 증가
저자들은 이를
neuron interference
라고 명명.
이는 최근
- circuit competition
- feature interference
- superposition
가설과 연결됨.
연구적 의의 (Mechanistic Interpretability 관점)
이 논문은 Knowledge Neuron 연구를
기존
Fact-specific
(subject, relation, object)
단위
↓
제안
Relation-specific
relation 단위로 확장했다는 점이 핵심입니다.
답글 남기기