Nvidia, LLM 훈련을 위한 합성 데이터 생성 파이프라인 공개

(blogs.nvidia.com)

NVIDIA가 Nemotron-4 340B 모델군을 발표
- 헬스케어, 금융, 제조, 소매 등 다양한 산업에서 상업용 LLM 훈련을 위해 합성 데이터를 생성하는 데 사용 가능
고품질의 훈련 데이터는 맞춤형 LLM의 성능, 정확성 및 응답 품질에 중요한 역할을 함. 하지만 견고한 데이터셋은 비용이 많이 들고 접근하기 어려움
Nemotron-4 340B는 개발자가 강력한 LLM을 구축하는 데 도움이 되는 합성 데이터를 무료로 생성할 수 있는 확장 가능한 방법을 제공
- 기본(Base), 지시(Instruct) 및 보상(Reward) 모델을 포함
- LLM을 훈련하고 개선하는 데 사용되는 합성 데이터를 생성하기 위해 파이프라인을 형성
- 오픈 소스 프레임워크인 NVIDIA NeMo와 최적화되어 있으며, NVIDIA TensorRT-LLM 라이브러리와도 호환
- 현재 Hugging Face에서 다운로드 가능하며, ai.nvidia.com에서 NVIDIA NIM 마이크로서비스로도 제공될 예정

LLM은 대규모, 다양한 레이블이 있는 데이터셋에 접근하기 어려운 상황에서 합성 훈련 데이터를 생성하는 데 사용 가능
Nemotron-4 340B Instruct 모델은 실제 데이터의 특성을 모방하는 다양한 합성 데이터를 생성하여 맞춤형 LLM의 성능과 강건성을 높일 수 있음
Nemotron-4 340B Reward 모델은 AI가 생성한 데이터의 품질을 향상시키기 위해 고품질 응답을 필터링함. 이 모델은 응답을 도움, 정확성, 일관성, 복잡성 및 장황성의 다섯 가지 속성으로 평가함
연구원들은 Nemotron-4 340B Base 모델을 사용자 지정 데이터와 함께 사용하여 자체 지시 또는 보상 모델을 만들 수 있음

NVIDIA NeMo와 NVIDIA TensorRT-LLM을 사용하여 합성 데이터를 생성하고 응답을 평가하기 위해 지시 및 보상 모델의 효율성을 최적화할 수 있음
Nemotron-4 340B 모델들은 다중 GPU와 서버에 걸쳐 개별 가중치 행렬을 분할하여 효율적인 대규모 추론을 가능하게 하는 텐서 병렬 처리를 활용함
9조 개의 토큰으로 훈련된 Nemotron-4 340B Base 모델은 NeMo 프레임워크를 사용하여 특정 용도나 도메인에 맞게 맞춤화할 수 있음
NeMo 프레임워크를 통해 다양한 맞춤화 방법이 제공되며, 이를 통해 정확도를 높이고 특정 하위 작업에 대한 출력을 개선할 수 있음
모델 품질을 향상시키기 위해 NeMo Aligner와 Nemotron-4 340B Reward 모델이 주석을 단 데이터셋을 사용하여 모델을 정렬할 수 있음

Nemotron를 이용해 합성 데이터를 생성하고 이를 LLM 훈련에 사용 가능