Mistral AI, 새로운 언어 모델 Codestral Mamba 공개
(mistral.ai)- 코드 생성에 특화된 Mamba2 언어 모델
- Mamba 모델은 트랜스포머 모델과 달리 선형 시간 추론과 이론적으로 무한한 길이의 시퀀스를 모델링할 수 있는 능력을 제공
- 입력 길이에 관계없이 빠른 응답으로 사용자가 모델과 광범위하게 상호 작용할 수 있음
- 이러한 효율성은 특히 코드 생산성에 영향을 줘서, SOTA 트랜스포머 기반 모델과 동등한 성능을 발휘할 수 있음
- 벤치마크 결과 7B 모델에서는 Codestral Mamba (7B)가 기존 CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B 등보다 뛰어나거나 거의 동등한 능력을 보임
- 훌륭한 로컬 코드 어시스턴트가 될 것으로 기대
- mistral-inference SDK, TensorRT-LLM을 통해서 배포가능하며 로컬 추론을 위해 llama.cpp에서도 지원 예정
- HuggingFace에서 원시 가중치 다운로드 가능
Hacker News 의견
-
VS Code에서 실행하기 위한 단계가 필요함
- 게시물에 지침 링크나 VS Code Extension의 원클릭 설치 링크를 포함하면 채택에 도움이 될 것임
- 많은 사용자가 관심을 가질 모델이지만, 수익화 가능한 행동 유도 문구가 없다는 점은 문제임
-
FIM 기능을 갖춘 모델 추천을 요청함
- codellama-13b를 vim extension과 함께 사용 중이지만, 성능이 뛰어나지 않음
- Gemma-27b가 더 나은 코드를 생성하지만 FIM 기능이 없음
- codellama-34b는 추론이 제대로 작동하지 않음
-
MBPP 열에서 DeepSeek을 강조해야 함
- DeepSeek이 Codestral보다 더 나은 점수를 가지고 있음
-
모델이 HuggingFace에 있다고 발표했지만 링크를 제공하지 않음
-
Mamba2를 사용하는 고프로파일 모델을 보는 것이 좋음
-
Mamba가 더 빠르다고 주장하지만 지연 시간 수치가 없음
- 누군가 사용해봤는지, 그리고 실제로 빠른지 궁금함
-
Mamba와 Transformers의 장단점에 대한 제품 소개를 추천함
-
Mamba 아키텍처에 대한 좋은 설명이 있는지 궁금함
-
LLM의 일반 개념을 이해하지만, ChatGPT, Claude 등 일반적으로 공개된 도구만 사용해본 사람에게 적합한 비디오나 글을 추천함
- 로컬에서 실행할 수 있는 하드웨어가 있는지 확인하고 싶지만 어디서 시작해야 할지 모름
-
model.box 플레이그라운드에서 빠른 테스트를 진행함
- 다른 모델(e.g., gpt-4o)보다 완료 길이가 눈에 띄게 짧음
- 응답 속도는 기대에 부합함