딥러닝 거장들의 혁신: 추론 시점에서 언어 모델 행동 제어 가능!
본 기사는 Robert Dahlke 등 6명의 연구진이 발표한 MoTE 기법에 대한 내용을 다룹니다. MoTE는 추가 학습 없이도 LLM의 행동을 추론 시점에서 제어할 수 있는 혁신적인 기법입니다. fTRI 기법을 통해 특정 행동과 관련된 전문가 모듈을 식별하고 제어하여 거부 반응을 52% 감소시키는 데 성공했습니다. 스파스 오토인코더와 유사하지만 추가 학습이 필요 없다는 점이 특징입니다. 이 연구는 LLM의 내부 작동 원리를 이해하고 안전하게 활용하는 데 중요한 의미를 가집니다.

Robert Dahlke를 비롯한 6명의 연구진이 발표한 놀라운 연구 결과가 있습니다! 바로 MoTE (Mixture-of-Tunable-Experts) 라는 기법을 이용하여 대규모 언어 모델(LLM)의 행동을 추론 시점에서 추가 학습 없이도 제어할 수 있다는 내용입니다. 이는 마치 숙련된 조련사가 맹수의 행동을 제어하는 것과 같습니다.
DeepSeek-R1의 '디지털 뇌'를 들여다보다
연구진은 DeepSeek-R1이라는 LLM의 '디지털 뇌'를 분석하기 위해 '기능적 토큰 공명 영상'(fTRI) 이라는 독창적인 기법을 개발했습니다. fMRI(기능적 자기공명영상)에서 영감을 받은 이 기법은 특정 행동을 유도하는 프롬프트(예: '{시간}{장소}에 무슨 일이 있었나요?')를 사용하여 LLM 내부의 전문가 모듈(expert)을 분석합니다. 마치 인간의 뇌를 스캔하여 특정 영역의 활동을 파악하는 것과 같습니다.
거부 반응을 52% 감소시키다
연구진은 fTRI를 통해 거부 반응과 관련된 상위 10개의 전문가 모듈을 식별했습니다. 놀랍게도, 이 전문가 모듈들을 비활성화시키는 것만으로도 민감한 질문에 대한 거부 반응을 52%나 감소시키는 데 성공했습니다. 이는 전체 전문가 모듈의 0.07%에 불과한 수치입니다. 무작위로 전문가 모듈을 비활성화시키거나 강제로 활성화시켰을 때보다 훨씬 효과적이었습니다. 성능 저하도 없었다는 점은 더욱 주목할 만합니다. 마치 정교한 수술로 문제 부위만 제거한 것과 같습니다.
스파스 오토인코더와의 차별점
MoTE는 설명 가능성과 조작 가능성 측면에서 스파스 오토인코더(SAE)와 유사합니다. 하지만 SAE와 달리 MoTE는 추가적인 대규모 학습이 필요하지 않습니다. 이는 이미 사전 학습 과정에서 전문가 모듈들이 자연스럽게 특화되었기 때문입니다. 마치 이미 훈련된 전문가 팀을 활용하는 것과 같습니다.
LLM의 내부 작동 원리를 엿보다
이 연구는 대규모 언어 모델의 기능적 메커니즘이 소수의 특정 전문가 모듈에 집중되어 있을 수 있다는 것을 시사합니다. 이는 LLM의 복잡한 내부 작동 원리를 이해하는 데 중요한 단서를 제공합니다. 마치 거대한 기계의 작동 원리를 파악하기 위해 핵심 부품만 분석하는 것과 같습니다.
이 연구는 LLM의 행동 제어 가능성을 보여주는 획기적인 결과로, 앞으로 LLM의 윤리적 문제 해결과 안전한 활용에 중요한 역할을 할 것으로 기대됩니다. 이는 AI 기술의 발전과 동시에 윤리적 고민이 더욱 중요해지는 시대에 희망적인 메시지를 던져줍니다.
Reference
[arxiv] Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time
Published: (Updated: )
Author: Robert Dahlke, Henrik Klagges, Dan Zecha, Benjamin Merkel, Sven Rohr, Fabian Klemm
http://arxiv.org/abs/2502.11096v1