▲GN⁺ 2024-07-19 | parent | ★ favorite | on: Mistral NeMo 출시(mistral.ai)Hacker News 의견 Mistral NeMo는 NVIDIA와 협력하여 개발된 12B 모델로, 최대 128k 토큰의 큰 컨텍스트 윈도우를 제공함 표준 아키텍처를 사용하여 사용이 용이하며, Mistral 7B를 사용하는 시스템에 쉽게 대체 가능함 Apache 2.0 라이선스 하에 사전 훈련된 체크포인트를 제공하여 연구자와 기업의 채택을 촉진함 양자화 인식을 통해 성능 손실 없이 FP8 추론을 가능하게 함 Mistral NeMo는 새로운 토크나이저 Tekken을 사용하며, 이는 100개 이상의 언어로 훈련되어 SentencePiece보다 효율적으로 텍스트와 소스 코드를 압축함 Byte-pair encoding이 더 효율적인 인코딩 방식으로 입증되었음에도 불구하고 왜 SentencePiece로 돌아갔는지에 대한 의문이 제기됨 NVIDIA 블로그에서도 Mistral NeMo에 대한 게시물이 있음 NVIDIA NIM 추론 마이크로서비스로 패키징되어 NVIDIA TensorRT-LLM 엔진을 통해 성능 최적화된 추론을 제공함 NVIDIA L40S, NVIDIA GeForce RTX 4090, NVIDIA RTX 4500 GPU의 메모리에 맞게 설계됨 Megatron-LM을 사용하여 3,072 H100 80GB Tensor Core GPU로 훈련됨 대규모 모델이 빠르게 출시되고 있으며, 이는 기업들이 확장 가능한 프로세스를 확장하는 방법을 발견했음을 의미함 모델을 HuggingFace에 게시하는 것이 비즈니스인지에 대한 의문이 제기됨 모델 파일 다운로드가 약 25GB이며, 8fp 양자화 모델임 NVIDIA Enterprise에 가입하여 "NIM" 패키지 버전을 시도하는 경험이 불편하다는 의견이 있음 자유롭게 모델 파일을 다운로드할 수 있는 것이 더 좋다는 의견이 있음 NVIDIA가 하드웨어 독점을 가지고 있음에도 불구하고 복잡한 절차를 요구하는 것에 대한 불만이 있음 Mistral이 오픈 소스 발전을 진지하게 고려한다면, 모델 훈련에 사용된 코퍼스를 공유해야 한다는 의견이 있음 GGUF 버전을 출시일에 준비하지 않는 이유에 대한 의문이 제기됨 다중 언어로 훈련하는 것이 "크로스오버"를 제공하는지에 대한 질문이 있음 독일어로 훈련된 것이 영어 프롬프트에 응답할 때 활용될 수 있는지에 대한 궁금증이 있음 오픈 소스 생성 AI 모델을 무료로 출시하는 비즈니스 모델에 대한 이해가 부족함 3072 H100s를 사용하여 훈련된 모델을 무료로 제공하는 이유에 대한 의문이 있음
Hacker News 의견
Mistral NeMo는 NVIDIA와 협력하여 개발된 12B 모델로, 최대 128k 토큰의 큰 컨텍스트 윈도우를 제공함
Mistral NeMo는 새로운 토크나이저 Tekken을 사용하며, 이는 100개 이상의 언어로 훈련되어 SentencePiece보다 효율적으로 텍스트와 소스 코드를 압축함
NVIDIA 블로그에서도 Mistral NeMo에 대한 게시물이 있음
대규모 모델이 빠르게 출시되고 있으며, 이는 기업들이 확장 가능한 프로세스를 확장하는 방법을 발견했음을 의미함
NVIDIA Enterprise에 가입하여 "NIM" 패키지 버전을 시도하는 경험이 불편하다는 의견이 있음
Mistral이 오픈 소스 발전을 진지하게 고려한다면, 모델 훈련에 사용된 코퍼스를 공유해야 한다는 의견이 있음
다중 언어로 훈련하는 것이 "크로스오버"를 제공하는지에 대한 질문이 있음
오픈 소스 생성 AI 모델을 무료로 출시하는 비즈니스 모델에 대한 이해가 부족함