Mistral NeMo 출시

(mistral.ai)

6P by GN⁺ 12달전 | ★ favorite | 댓글 1개

NVIDIA와 협력하여 개발된 120억 파라미터 모델인 Mistral NeMo를 출시
최대 128k 토큰의 큰 컨텍스트 윈도우 제공
추론, 세계 지식, 코딩 정확도가 동급 최고 수준
표준 아키텍처를 사용하여 Mistral 7B를 사용하는 시스템에 쉽게 적용 가능
연구자와 기업의 채택을 촉진하기 위해 Apache 2.0 라이선스 하에 사전 훈련된 기본 및 명령 조정 체크포인트 공개
양자화 인식으로 훈련되어 성능 손실 없이 FP8 추론 가능

다국어 모델

글로벌 다국어 애플리케이션을 위해 설계됨
함수 호출에 대해 훈련되었으며, 큰 컨텍스트 윈도우를 가짐
영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 특히 강력함
모든 언어 사용자에게 최첨단 AI 모델 제공을 목표로 함

Tekken, 더 효율적인 토크나이저

Tiktoken 기반의 새로운 토크나이저 Tekken 사용
100개 이상의 언어에서 자연어 텍스트와 소스 코드를 SentencePiece 토크나이저보다 더 효율적으로 압축
소스 코드, 중국어, 이탈리아어, 프랑스어, 독일어, 스페인어, 러시아어에서 약 30% 더 효율적
한국어와 아랍어에서 각각 2배, 3배 더 효율적
Llama 3 토크나이저와 비교하여 약 85%의 언어에서 더 뛰어난 압축 성능

인스트럭션 파인 튜닝

Mistral NeMo는 고급 미세 조정 및 정렬 단계를 거침
Mistral 7B와 비교하여 정확한 명령을 따르고, 추론하고, 다중 턴 대화를 처리하고, 코드를 생성하는 데 훨씬 뛰어남

링크

기본 및 명령 모델의 가중치는 HuggingFace에서 호스팅됨
mistral-inference로 Mistral NeMo를 사용해보고, mistral-finetune으로 조정 가능
NVIDIA NIM 추론 마이크로서비스로 패키징되어 ai.nvidia.com에서 사용 가능

▲

GN⁺ 12달전 [-]

Hacker News 의견

Mistral NeMo는 NVIDIA와 협력하여 개발된 12B 모델로, 최대 128k 토큰의 큰 컨텍스트 윈도우를 제공함
- 표준 아키텍처를 사용하여 사용이 용이하며, Mistral 7B를 사용하는 시스템에 쉽게 대체 가능함
- Apache 2.0 라이선스 하에 사전 훈련된 체크포인트를 제공하여 연구자와 기업의 채택을 촉진함
- 양자화 인식을 통해 성능 손실 없이 FP8 추론을 가능하게 함
Mistral NeMo는 새로운 토크나이저 Tekken을 사용하며, 이는 100개 이상의 언어로 훈련되어 SentencePiece보다 효율적으로 텍스트와 소스 코드를 압축함
- Byte-pair encoding이 더 효율적인 인코딩 방식으로 입증되었음에도 불구하고 왜 SentencePiece로 돌아갔는지에 대한 의문이 제기됨
NVIDIA 블로그에서도 Mistral NeMo에 대한 게시물이 있음
- NVIDIA NIM 추론 마이크로서비스로 패키징되어 NVIDIA TensorRT-LLM 엔진을 통해 성능 최적화된 추론을 제공함
- NVIDIA L40S, NVIDIA GeForce RTX 4090, NVIDIA RTX 4500 GPU의 메모리에 맞게 설계됨
- Megatron-LM을 사용하여 3,072 H100 80GB Tensor Core GPU로 훈련됨
대규모 모델이 빠르게 출시되고 있으며, 이는 기업들이 확장 가능한 프로세스를 확장하는 방법을 발견했음을 의미함
- 모델을 HuggingFace에 게시하는 것이 비즈니스인지에 대한 의문이 제기됨
- 모델 파일 다운로드가 약 25GB이며, 8fp 양자화 모델임
NVIDIA Enterprise에 가입하여 "NIM" 패키지 버전을 시도하는 경험이 불편하다는 의견이 있음
- 자유롭게 모델 파일을 다운로드할 수 있는 것이 더 좋다는 의견이 있음
- NVIDIA가 하드웨어 독점을 가지고 있음에도 불구하고 복잡한 절차를 요구하는 것에 대한 불만이 있음
Mistral이 오픈 소스 발전을 진지하게 고려한다면, 모델 훈련에 사용된 코퍼스를 공유해야 한다는 의견이 있음
- GGUF 버전을 출시일에 준비하지 않는 이유에 대한 의문이 제기됨
다중 언어로 훈련하는 것이 "크로스오버"를 제공하는지에 대한 질문이 있음
- 독일어로 훈련된 것이 영어 프롬프트에 응답할 때 활용될 수 있는지에 대한 궁금증이 있음
오픈 소스 생성 AI 모델을 무료로 출시하는 비즈니스 모델에 대한 이해가 부족함
- 3072 H100s를 사용하여 훈련된 모델을 무료로 제공하는 이유에 대한 의문이 있음

답변달기