Mistral NeMo 출시

▲

GN⁺ 2024-07-19 | parent | ★ favorite | on: Mistral NeMo 출시(mistral.ai)

Hacker News 의견

Mistral NeMo는 NVIDIA와 협력하여 개발된 12B 모델로, 최대 128k 토큰의 큰 컨텍스트 윈도우를 제공함
- 표준 아키텍처를 사용하여 사용이 용이하며, Mistral 7B를 사용하는 시스템에 쉽게 대체 가능함
- Apache 2.0 라이선스 하에 사전 훈련된 체크포인트를 제공하여 연구자와 기업의 채택을 촉진함
- 양자화 인식을 통해 성능 손실 없이 FP8 추론을 가능하게 함
Mistral NeMo는 새로운 토크나이저 Tekken을 사용하며, 이는 100개 이상의 언어로 훈련되어 SentencePiece보다 효율적으로 텍스트와 소스 코드를 압축함
- Byte-pair encoding이 더 효율적인 인코딩 방식으로 입증되었음에도 불구하고 왜 SentencePiece로 돌아갔는지에 대한 의문이 제기됨
NVIDIA 블로그에서도 Mistral NeMo에 대한 게시물이 있음
- NVIDIA NIM 추론 마이크로서비스로 패키징되어 NVIDIA TensorRT-LLM 엔진을 통해 성능 최적화된 추론을 제공함
- NVIDIA L40S, NVIDIA GeForce RTX 4090, NVIDIA RTX 4500 GPU의 메모리에 맞게 설계됨
- Megatron-LM을 사용하여 3,072 H100 80GB Tensor Core GPU로 훈련됨
대규모 모델이 빠르게 출시되고 있으며, 이는 기업들이 확장 가능한 프로세스를 확장하는 방법을 발견했음을 의미함
- 모델을 HuggingFace에 게시하는 것이 비즈니스인지에 대한 의문이 제기됨
- 모델 파일 다운로드가 약 25GB이며, 8fp 양자화 모델임
NVIDIA Enterprise에 가입하여 "NIM" 패키지 버전을 시도하는 경험이 불편하다는 의견이 있음
- 자유롭게 모델 파일을 다운로드할 수 있는 것이 더 좋다는 의견이 있음
- NVIDIA가 하드웨어 독점을 가지고 있음에도 불구하고 복잡한 절차를 요구하는 것에 대한 불만이 있음
Mistral이 오픈 소스 발전을 진지하게 고려한다면, 모델 훈련에 사용된 코퍼스를 공유해야 한다는 의견이 있음
- GGUF 버전을 출시일에 준비하지 않는 이유에 대한 의문이 제기됨
다중 언어로 훈련하는 것이 "크로스오버"를 제공하는지에 대한 질문이 있음
- 독일어로 훈련된 것이 영어 프롬프트에 응답할 때 활용될 수 있는지에 대한 궁금증이 있음
오픈 소스 생성 AI 모델을 무료로 출시하는 비즈니스 모델에 대한 이해가 부족함
- 3072 H100s를 사용하여 훈련된 모델을 무료로 제공하는 이유에 대한 의문이 있음