π€ μ½ν AI μμ΄μ νΈλ€μ λλΌμ΄ ν©μ²΄: LLM-Ensκ° μ΄λλ κ°ννμ΅μ μλ‘μ΄ μ§ν
Song Yiwen λ± μ°κ΅¬μ§μ΄ κ°λ°ν LLM-Ensλ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ νμ©νμ¬ μ½ν κ°ννμ΅ μμ΄μ νΈλ€μ κ²°ν©, μν©μ λ§λ μ΅μ μ μμ΄μ νΈλ₯Ό μ ννλ λμ λͺ¨λΈ μ ν μ λ΅μ ν΅ν΄ Atari λ²€μΉλ§ν¬μμ κΈ°μ‘΄ λ°©μ λλΉ μ΅λ 20.9%μ μ±λ₯ ν₯μμ κΈ°λ‘νμ΅λλ€. λ€μν μ€μ κ³Ό μκ³ λ¦¬μ¦μ μ μ© κ°λ₯ν λ²μ©μ±μ μ§λκ³ μμΌλ©°, μ½λ λν 곡κ°λμ΄ μμ΅λλ€.

κ°ννμ΅(Reinforcement Learning, RL) λΆμΌμμ ν¨κ³Όμ μΈ μμ΄μ νΈλ₯Ό νλ ¨νλ κ²μ μ¬μ ν μ΄λ €μ΄ κ³Όμ μ λλ€. μκ³ λ¦¬μ¦ μ ν, νμ΄νΌνλΌλ―Έν° μ€μ , μ¬μ§μ΄ λλ€ μλ μ νκΉμ§, μμ΄μ νΈ μ±λ₯μ μν₯μ λ―ΈμΉλ μμλ€μ΄ λ무λ λ§κΈ° λλ¬Έμ λλ€. νμ§λ§ μ΄λ¬ν λ¬Έμ λ₯Ό ν΄κ²°ν νκΈ°μ μΈ μ°κ΅¬ κ²°κ³Όκ° λ±μ₯νμ΅λλ€! Song Yiwen λ± μ°κ΅¬μ§μ΄ λ°νν λ Όλ¬Έ, "Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One" μμλ μ¬λ¬ κ°μ 'μ½ν' μμ΄μ νΈλ₯Ό νλμ κ°λ ₯ν μμ΄μ νΈλ‘ κ²°ν©νλ μλ‘μ΄ λ°©λ²μΈ LLM-Ensλ₯Ό μ μν©λλ€.
κΈ°μ‘΄μ μμλΈ λ°©λ²λ€μ λ¨μν ν¬νλ κ°μ€ν©κ³Ό κ°μ κ³ μ μ μΈ μ λ΅μ μ¬μ©νμ¬ μν©μ λν μ΄ν΄κ° λΆμ‘±νμ§λ§, LLM-Ensλ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) μ νμ©νμ¬ μν©λ³ μ΅μ μ μμ΄μ νΈλ₯Ό μ ννλ λμ λͺ¨λΈ μ ν μ λ΅μ ꡬνν©λλ€. LLMμ μ£Όμ΄μ§ μμ μ μνλ₯Ό λ€μν 'μν©'μΌλ‘ λΆλ₯νκ³ , κ° μμ΄μ νΈμ κ°μ κ³Ό μ½μ μ λΆμνμ¬ μν©μ κ°μ₯ μ ν©ν μμ΄μ νΈλ₯Ό μ νν©λλ€. μ΄λ λ§μΉ νΉμ μν©μ λ§μΆ° μ λ¬Έκ°λ€μ ν¬μ νλ κ²κ³Ό κ°μ΅λλ€.
LLM-Ensμ λ°μ΄λ μ±λ₯μ Atari λ²€μΉλ§ν¬λ₯Ό ν΅ν΄ μ μ¦λμμ΅λλ€. λ€μν λλ€ μλ, νμ΄νΌνλΌλ―Έν° μ€μ , κ·Έλ¦¬κ³ μ¬λ¬ RL μκ³ λ¦¬μ¦μΌλ‘ νλ ¨λ μμ΄μ νΈλ€μ κ²°ν©ν κ²°κ³Ό, κΈ°μ‘΄ μ΅κ³ μ±λ₯ λλΉ μ΅λ 20.9%μ μ±λ₯ ν₯μμ λ¬μ±νμ΅λλ€. μ΄λ λ¨μν μμ΄μ νΈλ₯Ό ν©μΉ κ² μ΄μμ μλμ§ ν¨κ³Όλ₯Ό 보μ¬μ£Όλ λλΌμ΄ κ²°κ³Όμ λλ€.
λμ± λλΌμ΄ μ μ LLM-Ensμ λ²μ©μ±μ λλ€. λ€μν νμ΄νΌνλΌλ―Έν° μ€μ κ³Ό RL μκ³ λ¦¬μ¦μ μ¬μ©νλ μμ΄μ νΈμλ μ μ© κ°λ₯νμ¬, νλμ κ°ννμ΅ λ¬Έμ μ μ μ©λ μ μλ κ°λ₯μ±μ 보μ¬μ€λλ€. μ°κ΅¬μ§μ μ¬νμ±μ μν΄ μ½λλ₯Ό 곡κ°(https://anonymous.4open.science/r/LLM4RLensemble-F7EE) νμμΌλ, κ΄μ¬μλ μ°κ΅¬μλΌλ©΄ λꡬλ μ§ μ§μ νμΈν΄ λ³Ό μ μμ΅λλ€.
LLM-Ensλ λ¨μν κΈ°μ μ μ§λ³΄λ₯Ό λμ΄, μ½ν AI μμ΄μ νΈλ€μ νλ ₯μ ν΅ν΄ κ°λ ₯ν μ§λ₯μ μ°½μΆνλ μλ‘μ΄ ν¨λ¬λ€μμ μ μν©λλ€. μ΄λ μμΌλ‘ AI κΈ°μ λ°μ μ μ€μν μ΄μ νκ° λ κ²μΌλ‘ κΈ°λλ©λλ€. λ€μν λΆμΌμμ LLM-Ensμ νμ© κ°λ₯μ±μ κΈ°λνλ©°, λμ± λ°μ λ AI κΈ°μ μ λ±μ₯μ κΈ°λν΄λ΄ λλ€!
Reference
[arxiv] Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One
Published: Β (Updated: )
Author: Yiwen Song, Qianyue Hao, Qingmin Liao, Jian Yuan, Yong Li
http://arxiv.org/abs/2505.15306v1