획기적인 AI 정렬 알고리즘, RefAlign 등장! 이진 선호도 데이터는 이제 그만!


중국과학원 연구진이 개발한 RefAlign 알고리즘은 LLM 정렬 과정에서 이진 선호도 데이터 수집의 어려움을 해결했습니다. 참조 답변과 생성 결과의 유사성을 보상 함수로 사용하여 효율성을 높였으며, 다양한 시나리오에 적용 가능한 유연성을 갖추었습니다. 기존 방법과 유사한 성능을 보이면서도 효율성을 크게 개선하여 LLM 개발에 획기적인 발전을 가져올 것으로 기대됩니다.

related iamge

최근 AI 분야에서 가장 큰 화두 중 하나는 바로 대규모 언어 모델(LLM) 의 정렬입니다. LLM이 유용하고, 무해하며, 정직하게 동작하도록 하는 것이 핵심인데요. 기존의 LLM 정렬 방법들은 일반적인 인간의 선호도, 안전성, 신뢰도를 정렬하기 위해 이진 선호도 데이터를 수집하고 보상 모델을 학습시켜야 했습니다. 이는 많은 시간과 자원을 필요로 하는 어려운 과정이었습니다.

하지만, 중국과학원의 연구진(Zhao, Zhu, Yang)이 개발한 새로운 알고리즘 RefAlign은 이러한 문제를 혁신적으로 해결했습니다. RefAlign은 참조 답변과 모델이 생성한 답변의 유사성을 보상 함수로 활용합니다. 즉, 고품질의 참조 답변을 하나만 준비하면 되므로, 이진 선호도 데이터 쌍을 여러 개 만들어야 하는 기존 방법보다 훨씬 효율적입니다.

RefAlign은 REINFORCE 방식의 알고리즘을 기반으로 하며, 참조 모델이나 보상 모델 없이도 동작합니다. BERTScore를 이용하여 생성된 답변과 참조 답변의 유사도를 측정하고, 이를 보상으로 사용하는 것이 핵심입니다.

놀라운 점은 RefAlign의 적용 범위가 매우 넓다는 것입니다. 일반적인 인간 선호도 최적화뿐 아니라 안전성 및 신뢰도 정렬과 같은 다양한 시나리오에도 쉽게 확장 적용할 수 있습니다. 작업 관련 목표와 유사성 보상을 결합하여 유연성을 극대화한 것이죠.

다양한 실험 결과, RefAlign은 기존의 정렬 방법들과 비슷한 성능을 보이면서도 훨씬 높은 효율성을 제공하는 것으로 나타났습니다. 이는 LLM 개발 및 적용에 있어서 획기적인 발전이라고 할 수 있습니다.

RefAlign의 등장으로, 이제 더 적은 자원으로 더 효율적으로 LLM을 정렬할 수 있는 길이 열렸습니다. AI 기술의 발전에 또 다른 한 걸음을 내딛은 셈입니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data

Published:  (Updated: )

Author: Shuai Zhao, Linchao Zhu, Yi Yang

http://arxiv.org/abs/2504.09895v1