Verilog 생성 LLM에 강화학습과 테스트벤치 피드백을 접목한 혁신적인 검증 방법

본 기사는 테스트벤치 피드백과 강화학습을 활용하여 Verilog 코드 생성 LLM의 정확성을 향상시킨 연구에 대해 소개합니다. 자동 테스트벤치 생성 파이프라인과 VCS 시뮬레이터 연동을 통해 환각 현상을 줄이고, DPO 기반 강화학습으로 기능적 정확성을 높였습니다. 공개된 코드와 데이터를 통해 향후 하드웨어 설계 자동화 분야의 발전에 기여할 것으로 예상됩니다.

Verilog 코드 생성의 새로운 지평: 강화학습과 테스트벤치의 만남

자연어 설명으로부터 Verilog 코드를 생성하는 대규모 언어 모델(LLM)이 괄목할 만한 성능을 보이고 있지만, 생성된 코드의 기능적 정확성을 보장하는 것은 여전히 큰 과제였습니다. Wang 등 연구진(Ning Wang, Bingkun Yao, Jie Zhou, Yuchen Hu, Xi Wang, Nan Guan, Zhe Jiang)은 이 문제에 대한 혁신적인 해결책을 제시했습니다. 바로 테스트벤치 피드백을 LLM 훈련에 통합하는 방법입니다. 이는 하드웨어 설계의 근본 목표인 기능적 정확성과 LLM 훈련을 일치시키는 획기적인 접근 방식입니다.

데이터 부족 문제 극복: 자동 테스트벤치 생성 파이프라인

Verilog 코드 생성에 LLM을 사용하는 가장 큰 걸림돌은 충분한 기능 검증 데이터, 특히 설계 명세와 코드에 매칭되는 테스트벤치의 부족입니다. 연구진은 이 문제를 해결하기 위해 자동 테스트벤치 생성 파이프라인을 도입했습니다. 이 파이프라인은 프로세스를 분해하고 Verilog 컴파일러 시뮬레이터(VCS)의 피드백을 활용하여 환각(hallucination) 현상을 줄이고 정확성을 보장합니다. 생성된 코드는 테스트벤치를 통해 평가되고, 그 결과는 추가 훈련에 활용됩니다. 여기서 검증 통찰력이 중요한 역할을 합니다.

강화학습(RL) 기반 정확도 향상: 직접적 선호도 최적화(DPO)

연구진은 강화학습(Reinforcement Learning) , 특히 직접적 선호도 최적화(Direct Preference Optimization, DPO) 를 적용하여 테스트벤치 결과를 기반으로 선호도 쌍을 훈련함으로써 Verilog 코드 생성을 기능적 정확성과 일치시켰습니다. VerilogEval-Machine, VerilogEval-Human, RTLLM v1.1, RTLLM v2, VerilogEval v2 등 다양한 데이터셋에서 기존 최첨단 방법들을 능가하는 기능적으로 정확한 Verilog 코드 생성 성능을 보였습니다. 더욱 놀라운 것은 모든 훈련 코드, 데이터, 모델을 https://anonymous.4open.science/r/VeriPrefer-E88B 에서 공개적으로 접근 가능하도록 했다는 점입니다.

결론: 새로운 가능성의 시작

이 연구는 LLM을 이용한 Verilog 코드 생성의 정확성을 크게 향상시키는 획기적인 방법을 제시했습니다. 자동화된 테스트벤치 생성과 강화학습의 조합은 기능적 검증의 효율성을 높이고, LLM 기반 하드웨어 설계 자동화의 새로운 가능성을 열었습니다. 앞으로 이 연구 결과를 바탕으로 더욱 정확하고 효율적인 하드웨어 설계 자동화 시스템이 개발될 것으로 기대됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback

Published: (Updated: )

Author: Ning Wang, Bingkun Yao, Jie Zhou, Yuchen Hu, Xi Wang, Nan Guan, Zhe Jiang

http://arxiv.org/abs/2504.15804v1