* On Relation-Specific Neurons in Large Language Models (EMNLP 2025)

이 논문은 **“LLM 내부에 특정 사실(fact)을 저장하는 neuron이 아니라, 특정 관계(relation) 자체를 처리하는 neuron이 존재하는가?”**를 분석한 연구입니다.  

기존 연구의 Knowledge Neuron은

(NVIDIA, CEO, Jensen Huang)

이라는 사실 전체를 저장하는 뉴런을 찾으려 했습니다.

반면 이 논문은

CEO 관계 자체를 담당하는 neuron

즉,

  • NVIDIA → CEO?
  • Apple → CEO?
  • Google → CEO?

처럼 entity가 달라도 공통적으로 활성화되는 Relation-Specific Neuron (RelSpec Neuron) 이 존재하는지를 탐구합니다.  


1. 핵심 아이디어

저자들의 가설은 다음과 같습니다.

LLM이 “The CEO of NVIDIA is”를 보면

  1. NVIDIA를 인식
  2. CEO relation을 인식
  3. Jensen Huang 생성

과정을 거친다.

이때 일부 neuron은

  • NVIDIA 자체도 아니고
  • Jensen Huang 자체도 아니고

CEO 관계를 검출하는 역할을 한다는 가설입니다.  


2. 전체 방법론

전체 파이프라인은

Step 1. Relation Dataset 구축

Hernandez et al. (2024) factual knowledge dataset 사용.

원본 triple:

(subject, relation, object)(subject,\ relation,\ object)

예:

(NVIDIA, company_ceo, Jensen Huang)(NVIDIA,\ company\_ceo,\ Jensen\ Huang)

25개 relation 중

  • fact 개수 300개 이상

인 12개 relation만 사용.  


사용된 12개 relation

  • company_ceo
  • company_hq
  • landmark_continent
  • landmark_country
  • person_father
  • person_mother
  • person_occupation
  • person_plays_instrument
  • person_pro_sport
  • person_sport_position
  • product_company
  • star_constellation

3. Detection Set / Evaluation Set 분리

각 relation마다

50개 fact를 평가용으로 분리.

DriD_{r_i}

DrievaD^{eva}_{r_i}

50개

DridetD^{det}_{r_i}

나머지로 분할.  

중요한 점은

subject overlap 금지

예:

Detection:

  • NVIDIA

Evaluation:

  • Apple

즉 entity를 일반화할 수 있게 설계.  


4. Prompt 생성

예를 들어

(NVIDIA, company_ceo, Jensen Huang)(NVIDIA,\ company\_ceo,\ Jensen\ Huang)

이면

Prompt:

The CEO of NVIDIA is? Answer:

Target:

Jensen Huang

Object는 prompt에 넣지 않음.  


5. Prompt Filtering

모델이 이미 알고 있는 fact만 사용.

LLM에 prompt 입력 후

정답 object의 첫 2 token을 맞히는 경우만 유지.

예:

정답:

Jensen Huang

출력:

Jensen Huang

→ 유지

출력:

Elon Musk

→ 제거

이 과정을 통해 relation neuron 탐색 시 노이즈를 줄임.  


6. Relation-Specific Neuron 탐색 (핵심)

여기가 논문의 가장 중요한 부분입니다.


Positive / Negative Example 생성

relation r 에 대해

Positive:

Er+E_r^+

= relation r 의 prompt

예:

  • CEO of NVIDIA
  • CEO of Apple
  • CEO of Google

Negative:

ErE_r^-

= 다른 relation prompt

예:

  • headquarters of NVIDIA
  • father of Elon Musk
  • constellation of Sirius

등.  


Neuron Output 수집

FFN neuron만 분석.

  • up_proj
  • gate_proj
  • down_proj

사용.  

Neuron m 의 activation:

om,j,to_{m,j,t}

토큰별 activation을 평균.

om,j=1Ttom,j,to_{m,j}=\frac{1}{T}\sum_t o_{m,j,t}


AP(Average precision) 기반 Expertise 계산

각 neuron에 대해

입력:

om,jo_{m,j}

label:

bj={1relation r0othersb_j=\begin{cases}1 & relation\ r\\0 & others\end{cases}


즉 neuron 하나로 relation classifier를 만든다.

만약 어떤 neuron이 CEO relation에서만 활성화되면 AP가 높아짐.

APmrAP_m^r 를 계산하여 ranking.  


Top-k 선택

AP 기준 상위 k=3000개 neuron을 Relation-Specific Neuron으로 정의.  


7. Ablation 실험

찾은 neuron이 정말 relation을 담당하는지 확인.

방법:

선택된 neuron 출력을 강제로 0으로 설정.

hi0h_i \leftarrow 0


이후 다시 factual recall 수행.

예:

Prompt:

CEO of Apple?

원래:

Tim Cook

Ablation 후:

오답 증가

→ CEO relation neuron이 실제로 중요함


8. 주요 결과

(1) Relation-Specific Neuron 존재

평가 데이터에서 entity가 완전히 달라도 relation neuron 제거 시 정확도 감소.

  • NVIDIA
  • Apple
  • Google

모두 영향.

따라서, entity neuron이 아니라 relation neuron이라는 결론.  


(2) 중간 레이어에 집중

Figure 1 결과.

논문 그림1.

RelSpec neuron 대부분이 중간 layer에 존재.

  • 초기 layer X
  • 마지막 layer X
  • middle layer O

이는 최근

  • function vector
  • task vector
  • causal representation

연구와 일치.


(3) Neuron Cumulativity

가장 중요한 발견.

하나의 neuron이 relation을 저장하는 것이 아니라 많은 neuron이 함께 저장.

논문 그림5.

Figure 5에서

3000개

10000개

50000개

로 제거할수록 성능 지속 하락.  

Relationsingle neuronRelation \neq single\ neuron

Relation=distributed representationRelation=distributed\ representation


(4) Neuron Versatility

하나의 neuron이 여러 relation 공유.

예:

  • father
  • mother

relation neuron 상당수 공유.  

흥미롭게도 관련성이 낮은 relation도 일부 공유.


(5) Multilingual Transfer

영어로 찾은 relation neuron 제거 후

  • German
  • French
  • Spanish
  • Chinese
  • Japanese

에서도 성능 하락.  

즉, relation representation이 언어 독립적일 가능성 제시.


(6) Neuron Interference

매우 흥미로운 발견.

어떤 relation neuron을 제거하면

다른 relation 성능이 오히려 상승.

예:

A relation neuron

제거

B relation accuracy 증가

저자들은 이를

neuron interference

라고 명명.

이는 최근

  • circuit competition
  • feature interference
  • superposition

가설과 연결됨.


연구적 의의 (Mechanistic Interpretability 관점)

이 논문은 Knowledge Neuron 연구를

기존

Fact-specific

(subject, relation, object)

단위

제안

Relation-specific

relation 단위로 확장했다는 점이 핵심입니다.  


게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다