믿을 수 있는 AI를 향한 도약: HALT, 환각 문제를 해결하다


HALT는 LLM의 환각 문제를 해결하기 위해 모델의 자신감 수준에 따라 응답 생성 여부를 결정하는 혁신적인 사후 훈련 기법입니다. 실험 결과, 정확도와 F1 점수가 크게 향상되었으며, 다양한 분야에 적용 가능성을 보여줍니다. 정확성과 완성도의 균형을 조절하는 유연성을 제공하며, 더욱 안전하고 신뢰할 수 있는 AI 시스템 구축에 기여할 것으로 기대됩니다.

related iamge

최근 급속도로 발전하는 대규모 언어 모델(LLM)은 놀라운 성능을 보여주지만, 여전히 '환각(hallucination)'이라는 심각한 문제에 직면하고 있습니다. 이는 모델이 사실이 아닌 정보를 마치 사실인 것처럼 생성하는 현상으로, AI의 신뢰성을 크게 저해하는 요소입니다. 하지만 이제, 이 문제에 대한 새로운 해결책이 등장했습니다! Tim Franzmeyer 등 연구진이 발표한 논문 "High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning"에서 제시된 HALT(High Accuracy, Less Talk) 기법이 바로 그것입니다.

HALT는 기존 LLM의 사후 훈련 방식을 혁신적으로 개선한 기법입니다. 기존 LLM은 모든 프롬프트에 대해 일일이 응답하지만, HALT는 모델이 자신의 응답에 대해 얼마나 자신감을 가지고 있는지 평가하여 응답을 생성합니다. 자신감이 부족하다면, 응답을 생성하지 않거나 '잘 모르겠습니다'와 같은 부분적인 응답을 생성하도록 훈련합니다.

연구진은 이를 위해 능력 중심의 사후 훈련 데이터를 생성하는 독창적인 방법을 고안했습니다. LLM의 응답을 사실적인 단위(atomic statements 또는 reasoning steps)로 분할하고, 실제 정보와 비교하여 잘못된 부분을 식별합니다. 그리고 잘못된 부분은 제거하거나 '여기서부터는 잘 모르겠습니다'로 대체하는 방식으로 모델을 재훈련합니다. 이 과정에서 사용자는 응답의 완성도와 정확성 사이의 균형을 조절할 수 있는 유연성을 확보합니다.

실험 결과는 놀랍습니다. 생물학, 수학, 코딩, 의학 등 네 가지 분야에서 Llama3-70B 모델을 대상으로 HALT를 적용한 결과, 응답 단위의 정확도가 평균 15% 향상되었고, 완성도와 정확도를 종합적으로 평가하는 F1 점수 역시 4% 향상되었습니다. 특히, 정확성을 최우선으로 설정하여 HALT를 적용한 결과, 특정 모델의 정확도가 51%에서 87%로 무려 36%나 향상되는 엄청난 성과를 거두었습니다!

하지만 이러한 향상은 완성도의 약간의 감소를 수반했습니다(약 47% 감소). 하지만 연구진은 이를 통해 정확성과 완성도 사이의 균형을 효과적으로 조절할 수 있는 방법론을 제시했다는 점에서 큰 의미를 지닌다고 설명합니다. HALT는 단순한 정확도 향상을 넘어, AI의 신뢰성과 책임성을 높이는 데 크게 기여할 것으로 기대됩니다. 앞으로 HALT가 다양한 분야에서 활용되어 더욱 안전하고 신뢰할 수 있는 AI 시스템 구축에 중요한 역할을 할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning

Published:  (Updated: )

Author: Tim Franzmeyer, Archie Sravankumar, Lijuan Liu, Yuning Mao, Rui Hou, Sinong Wang, Jakob N. Foerster, Luke Zettlemoyer, Madian Khabsa

http://arxiv.org/abs/2506.04051v1