GN⁺: Mistral NeMo 출시
(mistral.ai)- NVIDIA와 협력하여 개발된 120억 파라미터 모델인 Mistral NeMo를 출시
- 최대 128k 토큰의 큰 컨텍스트 윈도우 제공
- 추론, 세계 지식, 코딩 정확도가 동급 최고 수준
- 표준 아키텍처를 사용하여 Mistral 7B를 사용하는 시스템에 쉽게 적용 가능
- 연구자와 기업의 채택을 촉진하기 위해 Apache 2.0 라이선스 하에 사전 훈련된 기본 및 명령 조정 체크포인트 공개
- 양자화 인식으로 훈련되어 성능 손실 없이 FP8 추론 가능
다국어 모델
- 글로벌 다국어 애플리케이션을 위해 설계됨
- 함수 호출에 대해 훈련되었으며, 큰 컨텍스트 윈도우를 가짐
- 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 특히 강력함
- 모든 언어 사용자에게 최첨단 AI 모델 제공을 목표로 함
Tekken, 더 효율적인 토크나이저
- Tiktoken 기반의 새로운 토크나이저 Tekken 사용
- 100개 이상의 언어에서 자연어 텍스트와 소스 코드를 SentencePiece 토크나이저보다 더 효율적으로 압축
- 소스 코드, 중국어, 이탈리아어, 프랑스어, 독일어, 스페인어, 러시아어에서 약 30% 더 효율적
- 한국어와 아랍어에서 각각 2배, 3배 더 효율적
- Llama 3 토크나이저와 비교하여 약 85%의 언어에서 더 뛰어난 압축 성능
인스트럭션 파인 튜닝
- Mistral NeMo는 고급 미세 조정 및 정렬 단계를 거침
- Mistral 7B와 비교하여 정확한 명령을 따르고, 추론하고, 다중 턴 대화를 처리하고, 코드를 생성하는 데 훨씬 뛰어남
링크
- 기본 및 명령 모델의 가중치는 HuggingFace에서 호스팅됨
- mistral-inference로 Mistral NeMo를 사용해보고, mistral-finetune으로 조정 가능
- NVIDIA NIM 추론 마이크로서비스로 패키징되어 ai.nvidia.com에서 사용 가능
Hacker News 의견
-
Mistral NeMo는 NVIDIA와 협력하여 개발된 12B 모델로, 최대 128k 토큰의 큰 컨텍스트 윈도우를 제공함
- 표준 아키텍처를 사용하여 사용이 용이하며, Mistral 7B를 사용하는 시스템에 쉽게 대체 가능함
- Apache 2.0 라이선스 하에 사전 훈련된 체크포인트를 제공하여 연구자와 기업의 채택을 촉진함
- 양자화 인식을 통해 성능 손실 없이 FP8 추론을 가능하게 함
-
Mistral NeMo는 새로운 토크나이저 Tekken을 사용하며, 이는 100개 이상의 언어로 훈련되어 SentencePiece보다 효율적으로 텍스트와 소스 코드를 압축함
- Byte-pair encoding이 더 효율적인 인코딩 방식으로 입증되었음에도 불구하고 왜 SentencePiece로 돌아갔는지에 대한 의문이 제기됨
-
NVIDIA 블로그에서도 Mistral NeMo에 대한 게시물이 있음
- NVIDIA NIM 추론 마이크로서비스로 패키징되어 NVIDIA TensorRT-LLM 엔진을 통해 성능 최적화된 추론을 제공함
- NVIDIA L40S, NVIDIA GeForce RTX 4090, NVIDIA RTX 4500 GPU의 메모리에 맞게 설계됨
- Megatron-LM을 사용하여 3,072 H100 80GB Tensor Core GPU로 훈련됨
-
대규모 모델이 빠르게 출시되고 있으며, 이는 기업들이 확장 가능한 프로세스를 확장하는 방법을 발견했음을 의미함
- 모델을 HuggingFace에 게시하는 것이 비즈니스인지에 대한 의문이 제기됨
- 모델 파일 다운로드가 약 25GB이며, 8fp 양자화 모델임
-
NVIDIA Enterprise에 가입하여 "NIM" 패키지 버전을 시도하는 경험이 불편하다는 의견이 있음
- 자유롭게 모델 파일을 다운로드할 수 있는 것이 더 좋다는 의견이 있음
- NVIDIA가 하드웨어 독점을 가지고 있음에도 불구하고 복잡한 절차를 요구하는 것에 대한 불만이 있음
-
Mistral이 오픈 소스 발전을 진지하게 고려한다면, 모델 훈련에 사용된 코퍼스를 공유해야 한다는 의견이 있음
- GGUF 버전을 출시일에 준비하지 않는 이유에 대한 의문이 제기됨
-
다중 언어로 훈련하는 것이 "크로스오버"를 제공하는지에 대한 질문이 있음
- 독일어로 훈련된 것이 영어 프롬프트에 응답할 때 활용될 수 있는지에 대한 궁금증이 있음
-
오픈 소스 생성 AI 모델을 무료로 출시하는 비즈니스 모델에 대한 이해가 부족함
- 3072 H100s를 사용하여 훈련된 모델을 무료로 제공하는 이유에 대한 의문이 있음