6P by neo 5달전 | favorite | 댓글 1개
  • NVIDIA와 협력하여 개발된 120억 파라미터 모델인 Mistral NeMo를 출시
  • 최대 128k 토큰의 큰 컨텍스트 윈도우 제공
  • 추론, 세계 지식, 코딩 정확도가 동급 최고 수준
  • 표준 아키텍처를 사용하여 Mistral 7B를 사용하는 시스템에 쉽게 적용 가능
  • 연구자와 기업의 채택을 촉진하기 위해 Apache 2.0 라이선스 하에 사전 훈련된 기본 및 명령 조정 체크포인트 공개
  • 양자화 인식으로 훈련되어 성능 손실 없이 FP8 추론 가능

다국어 모델

  • 글로벌 다국어 애플리케이션을 위해 설계됨
  • 함수 호출에 대해 훈련되었으며, 큰 컨텍스트 윈도우를 가짐
  • 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 특히 강력함
  • 모든 언어 사용자에게 최첨단 AI 모델 제공을 목표로 함

Tekken, 더 효율적인 토크나이저

  • Tiktoken 기반의 새로운 토크나이저 Tekken 사용
  • 100개 이상의 언어에서 자연어 텍스트와 소스 코드를 SentencePiece 토크나이저보다 더 효율적으로 압축
  • 소스 코드, 중국어, 이탈리아어, 프랑스어, 독일어, 스페인어, 러시아어에서 약 30% 더 효율적
  • 한국어와 아랍어에서 각각 2배, 3배 더 효율적
  • Llama 3 토크나이저와 비교하여 약 85%의 언어에서 더 뛰어난 압축 성능

인스트럭션 파인 튜닝

  • Mistral NeMo는 고급 미세 조정 및 정렬 단계를 거침
  • Mistral 7B와 비교하여 정확한 명령을 따르고, 추론하고, 다중 턴 대화를 처리하고, 코드를 생성하는 데 훨씬 뛰어남

링크

  • 기본 및 명령 모델의 가중치는 HuggingFace에서 호스팅됨
  • mistral-inference로 Mistral NeMo를 사용해보고, mistral-finetune으로 조정 가능
  • NVIDIA NIM 추론 마이크로서비스로 패키징되어 ai.nvidia.com에서 사용 가능
Hacker News 의견
  • Mistral NeMo는 NVIDIA와 협력하여 개발된 12B 모델로, 최대 128k 토큰의 큰 컨텍스트 윈도우를 제공함

    • 표준 아키텍처를 사용하여 사용이 용이하며, Mistral 7B를 사용하는 시스템에 쉽게 대체 가능함
    • Apache 2.0 라이선스 하에 사전 훈련된 체크포인트를 제공하여 연구자와 기업의 채택을 촉진함
    • 양자화 인식을 통해 성능 손실 없이 FP8 추론을 가능하게 함
  • Mistral NeMo는 새로운 토크나이저 Tekken을 사용하며, 이는 100개 이상의 언어로 훈련되어 SentencePiece보다 효율적으로 텍스트와 소스 코드를 압축함

    • Byte-pair encoding이 더 효율적인 인코딩 방식으로 입증되었음에도 불구하고 왜 SentencePiece로 돌아갔는지에 대한 의문이 제기됨
  • NVIDIA 블로그에서도 Mistral NeMo에 대한 게시물이 있음

    • NVIDIA NIM 추론 마이크로서비스로 패키징되어 NVIDIA TensorRT-LLM 엔진을 통해 성능 최적화된 추론을 제공함
    • NVIDIA L40S, NVIDIA GeForce RTX 4090, NVIDIA RTX 4500 GPU의 메모리에 맞게 설계됨
    • Megatron-LM을 사용하여 3,072 H100 80GB Tensor Core GPU로 훈련됨
  • 대규모 모델이 빠르게 출시되고 있으며, 이는 기업들이 확장 가능한 프로세스를 확장하는 방법을 발견했음을 의미함

    • 모델을 HuggingFace에 게시하는 것이 비즈니스인지에 대한 의문이 제기됨
    • 모델 파일 다운로드가 약 25GB이며, 8fp 양자화 모델임
  • NVIDIA Enterprise에 가입하여 "NIM" 패키지 버전을 시도하는 경험이 불편하다는 의견이 있음

    • 자유롭게 모델 파일을 다운로드할 수 있는 것이 더 좋다는 의견이 있음
    • NVIDIA가 하드웨어 독점을 가지고 있음에도 불구하고 복잡한 절차를 요구하는 것에 대한 불만이 있음
  • Mistral이 오픈 소스 발전을 진지하게 고려한다면, 모델 훈련에 사용된 코퍼스를 공유해야 한다는 의견이 있음

    • GGUF 버전을 출시일에 준비하지 않는 이유에 대한 의문이 제기됨
  • 다중 언어로 훈련하는 것이 "크로스오버"를 제공하는지에 대한 질문이 있음

    • 독일어로 훈련된 것이 영어 프롬프트에 응답할 때 활용될 수 있는지에 대한 궁금증이 있음
  • 오픈 소스 생성 AI 모델을 무료로 출시하는 비즈니스 모델에 대한 이해가 부족함

    • 3072 H100s를 사용하여 훈련된 모델을 무료로 제공하는 이유에 대한 의문이 있음