암묵적 피드백을 활용한 다중 에이전트 모션 생성 모델의 직접적 사후 훈련 선호도 정렬


Ran Tian과 Kratarth Goel의 연구는 대규모 언어 모델 기반 모션 생성 모델의 사후 훈련 선호도 정렬에 대한 새로운 접근법을 제시합니다. 사전 훈련 데모의 암묵적 피드백을 활용하여 인간의 추가적인 주석 없이도 모델의 성능을 향상시키는 데 성공, 1백만 개의 모션 생성 모델을 최첨단 모델과 비교할 만한 수준으로 끌어올렸습니다.

related iamge

움직임 생성 모델의 새로운 지평: 인간의 선호도를 반영하는 AI

최근 대규모 언어 모델(LLM)의 발전은 물체화된 애플리케이션에서 모션 생성 모델에 혁명을 일으켰습니다. 자동 회귀적 모션 생성 모델은 훈련 확장성의 이점을 가지지만, 토큰 예측 목표와 인간의 선호도 사이에는 여전히 차이가 존재합니다. 결과적으로, 토큰 예측 목표로만 사전 훈련된 모델은 종종 인간이 선호하는 것과 다른 행동을 생성하여, 사후 훈련 선호도 정렬이 인간이 선호하는 움직임을 생성하는 데 매우 중요해졌습니다.

하지만, 사후 훈련 정렬은 사전 훈련된 모델이 생성한 움직임에 대한 광범위한 선호도 순위를 필요로 하며, 특히 다중 에이전트 환경에서는 주석 비용이 매우 높습니다. 최근에는 사전 훈련 데모를 활용하여 사후 훈련 정렬을 위한 선호도 데이터를 확장 가능하게 생성하는 것에 대한 관심이 높아지고 있습니다. 그러나 이러한 방법들은 종종 모든 사전 훈련 모델이 생성한 샘플을 비선호적인 예시로 취급하는 적대적 접근 방식을 채택합니다.

Tian과 Goel의 연구: 이러한 적대적 접근 방식은 모델 자체가 생성한 것들 사이의 선호도 순위에서 제공되는 귀중한 신호를 간과하여, 정렬 효과를 감소시키고 잘못 정렬된 행동으로 이어질 수 있습니다. 본 연구에서는 모든 생성된 샘플을 동등하게 나쁘다고 간주하는 대신, 사전 훈련 데모에 암묵적으로 인코딩된 선호도를 활용하여 사전 훈련된 모델이 생성한 것들 사이의 선호도 순위를 구성합니다. 이를 통해 인간의 비용 없이 더욱 정교한 선호도 정렬 지침을 제공합니다.

연구진은 이 접근 방식을 대규모 교통 시뮬레이션에 적용하여 사전 훈련된 모델이 생성한 행동의 현실성을 개선하는 데 효과가 있음을 보여주었습니다. 추가적인 사후 훈련 인간 선호도 주석이나 높은 계산 비용 없이, 사전 훈련 데모의 암묵적 피드백에만 의존하여 1백만 개의 모션 생성 모델을 최첨단의 대규모 모방 기반 모델과 비교할 만한 수준으로 만들었습니다.

결론: 이 연구는 인간의 개입을 최소화하면서 AI 모델의 성능을 향상시키는 혁신적인 방법을 제시합니다. 사전 훈련 데이터에 내재된 정보를 효과적으로 활용함으로써, 더욱 현실적이고 인간의 선호도에 부합하는 AI 시스템 개발에 중요한 발걸음을 내디뎠습니다. 이는 향후 AI 기반 모션 생성 분야의 발전에 큰 영향을 미칠 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations

Published:  (Updated: )

Author: Ran Tian, Kratarth Goel

http://arxiv.org/abs/2503.20105v1