BloombergGPT - 금융을 위한 대규모 언어 모델

(arxiv.org)

13P by xguru 2023-04-03 | ★ favorite | 댓글과 토론

광범위한 금융 데이터로 학습된 500억개(50B) 파라미터 언어 모델
블룸버그의 데이터소스에 기반한 3630억개 토큰 데이터셋을 구성했고, 3450억개의 일반 데이터셋으로 보강
일반 LLM 벤치마크에서 성능 저하가 없고, 금융 업무에서는 기존 모델 보다 훨씬 우수한 성능을 보임
모델링 선택, 학습 과정 및 평가 방법론에 대해서도 설명
다음 단계로는 BloombergGPT의 트레이닝 경험을 자세히 다룬 트레이닝 로그(크로니클)을 공개할 계획