Genius: 비지도 자기 학습으로 LLM 추론 능력 혁신


Genius는 외부 감독 없이 LLM의 추론 능력을 향상시키는 순수 비지도 자기 학습 프레임워크입니다. 단계적 예측 재샘플링 전략과 ACO 손실 함수를 통해 최적의 응답 순서를 찾고 추정 불일치를 완화합니다. 이는 LLM 추론 확장 법칙에 대한 새로운 패러다임을 제시합니다.

related iamge

지도 학습의 한계를 넘어: 순수 비지도 자기 학습 프레임워크 Genius

최근 LLM(대규모 언어 모델)의 추론 능력 향상에 대한 관심이 폭발적으로 증가하고 있습니다. 하지만 기존의 사후 학습 기법들은 결과 감독이나 보조 보상 모델과 같은 감독 신호에 크게 의존하며, 확장성 문제와 높은 주석 비용이라는 어려움에 직면해 있습니다.

이러한 문제를 해결하기 위해, Xu Fangzhi 등 연구진은 외부 감독 없이 LLM 추론 능력을 향상시키는 순수 비지도 자기 학습 프레임워크인 Genius를 개발했습니다. Genius는 외부 보조 없이도 단계적으로 최적의 응답 순서를 찾고 LLM을 최적화하는 혁신적인 접근 방식을 제시합니다.

단계적 예측과 최적화의 조화

Genius의 핵심은 단계적 예측 재샘플링 전략입니다. 이 전략을 통해 가능한 단계들을 탐색하고 미래 결과를 시뮬레이션하여 각 단계의 가치를 추정합니다. 이는 마치 바둑에서 여러 수를 미리 내다보는 것과 같습니다. 최적의 경로를 예측하여 LLM의 학습 효율을 극대화하는 것입니다.

불확실성을 극복하는 ACO 손실 함수

비지도 학습 환경에서는 불가피하게 본질적인 노이즈와 불확실성이 발생합니다. 이러한 문제를 해결하기 위해 연구진은 이점 보정 최적화(ACO) 손실 함수를 제안했습니다. ACO는 추정 불일치를 완화하여 더욱 강건한 최적화를 가능하게 합니다. 이는 마치 험난한 산길을 안전하게 통과하기 위한 나침반과 같은 역할을 합니다.

새로운 추론 확장 법칙의 서막

Genius는 일반적인 질의에 대한 비지도 자기 학습을 통해 LLM의 추론 능력을 향상시키는 획기적인 발걸음입니다. 이는 방대한 양의 일반적인 질의를 활용하여 추론 확장 법칙을 혁신적으로 변화시킬 가능성을 제시합니다. GitHub에서 공개된 코드 (https://github.com/xufangzhi/Genius)를 통해 더 자세한 내용을 확인할 수 있습니다. Genius는 LLM의 추론 능력 향상에 대한 새로운 패러다임을 제시하며, 앞으로 AI 기술 발전에 중요한 기여를 할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

Published:  (Updated: )

Author: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu

http://arxiv.org/abs/2504.08672v1