BloombergGPT - 금융을 위한 대규모 언어 모델
(arxiv.org)- 광범위한 금융 데이터로 학습된 500억개(50B) 파라미터 언어 모델
- 블룸버그의 데이터소스에 기반한 3630억개 토큰 데이터셋을 구성했고, 3450억개의 일반 데이터셋으로 보강
- 일반 LLM 벤치마크에서 성능 저하가 없고, 금융 업무에서는 기존 모델 보다 훨씬 우수한 성능을 보임
- 모델링 선택, 학습 과정 및 평가 방법론에 대해서도 설명
- 다음 단계로는 BloombergGPT의 트레이닝 경험을 자세히 다룬 트레이닝 로그(크로니클)을 공개할 계획