related iamge

딥러닝의 블랙박스를 벗겨내다: 비전 트랜스포머의 영향력 있는 뉴런 경로 발견

본 기사는 Wang Yifan 등 8명의 연구진이 발표한 비전 트랜스포머 모델의 '영향력 있는 뉴런 경로' 발견에 대한 연구 결과를 소개합니다. 기존 연구의 한계를 극복하고 새로운 분석 방법을 제시하여 모델의 내부 작동 원리를 밝히고, 모델 경량화 등 실제 응용에 대한 시사점을 제공합니다.

related iamge

이산 확산 모델의 선호도 기반 정렬: D2-DPO의 등장

Umberto Borso 등 연구진이 개발한 D2-DPO는 선호도 데이터만으로 이산 확산 모델을 미세 조정하는 새로운 방법으로, 기존 강화 학습 방식의 한계를 극복하고 다양한 응용 분야에 적용될 잠재력을 지닌 획기적인 연구 결과입니다.

related iamge

다모달 거대 언어 모델 훈련의 혁신: OrchMLLM의 등장

OrchMLLM은 다모달 거대 언어 모델 훈련의 효율성을 극대화하는 프레임워크로, 모달리티 구성 불일치 문제를 해결하여 GPU 활용률을 높이고 훈련 속도를 비약적으로 향상시켰습니다. 84B 파라미터 모델 훈련에서 Megatron-LM 대비 최대 3.1배의 처리량 향상을 기록하며 MLLM 연구의 새로운 장을 열었습니다.

related iamge

혁신적인 AI 모델 파라미터 생성: ORAL 프레임워크의 등장

Rana Muhammad Shahroz Khan 등 연구진이 개발한 ORAL 프레임워크는 초거대 언어 모델의 파라미터 생성에 혁신을 가져올 잠재력을 지닌 기술입니다. 조건부 순환 확산 기법을 통해 효율성과 제어성을 동시에 확보하여 다양한 작업에서 우수한 성능을 입증하였습니다.

related iamge

AI 과대광고를 넘어: 임베딩 vs. 프롬프팅, 다중 분류 작업에서의 승자는?

본 연구는 다중 분류 문제에 대한 임베딩 기반 접근 방식이 LLM 프롬프팅 기반 접근 방식보다 정확도, 속도, 비용 면에서 우수함을 실험적으로 증명하였습니다. A/B 테스트를 통한 검증 결과를 바탕으로, 독점 데이터 활용이 가능한 경우 임베딩 기반 모델의 채택을 권고합니다.