# Mistral AI, 새로운 언어 모델 Codestral Mamba 공개

> Clean Markdown view of GeekNews topic #15875. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15875](https://news.hada.io/topic?id=15875)
- GeekNews Markdown: [https://news.hada.io/topic/15875.md](https://news.hada.io/topic/15875.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-07-17T09:43:01+09:00
- Updated: 2024-07-17T09:43:01+09:00
- Original source: [mistral.ai](https://mistral.ai/news/codestral-mamba/)
- Points: 11
- Comments: 2

## Summary

코드 생성에 특화된 Mamba 언어 모델로 트랜스포머 모델과 달리 선형 시간 추론과 이론적으로 무한한 길이의 시퀀스를 모델링할 수 있는 능력을 제공합니다. 벤치마크 결과 7B 모델에서는 Codestral Mamba (7B)가 기존 CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B 등보다 뛰어나거나 거의 동등한 능력을 보여줍니다.

## Topic Body

- 코드 생성에 특화된 Mamba2 언어 모델   
- Mamba 모델은 트랜스포머 모델과 달리 선형 시간 추론과 이론적으로 무한한 길이의 시퀀스를 모델링할 수 있는 능력을 제공  
  - 입력 길이에 관계없이 빠른 응답으로 사용자가 모델과 광범위하게 상호 작용할 수 있음  
  - 이러한 효율성은 특히 코드 생산성에 영향을 줘서, SOTA 트랜스포머 기반 모델과 동등한 성능을 발휘할 수 있음  
- 벤치마크 결과 7B 모델에서는 Codestral Mamba (7B)가 기존 CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B 등보다 뛰어나거나 거의 동등한 능력을 보임   
- 훌륭한 로컬 코드 어시스턴트가 될 것으로 기대  
- mistral-inference SDK, TensorRT-LLM을 통해서 배포가능하며 로컬 추론을 위해 llama.cpp에서도 지원 예정  
- HuggingFace에서 원시 가중치 다운로드 가능

## Comments


### Comment 27322

- Author: xguru
- Created: 2024-07-17T09:45:45+09:00
- Points: 1

##### [Hacker News 의견](https://news.ycombinator.com/item?id=40977103)   
- VS Code에서 실행하기 위한 단계가 필요함  
  - 게시물에 지침 링크나 VS Code Extension의 원클릭 설치 링크를 포함하면 채택에 도움이 될 것임  
  - 많은 사용자가 관심을 가질 모델이지만, 수익화 가능한 행동 유도 문구가 없다는 점은 문제임  
  
- FIM 기능을 갖춘 모델 추천을 요청함  
  - codellama-13b를 vim extension과 함께 사용 중이지만, 성능이 뛰어나지 않음  
  - Gemma-27b가 더 나은 코드를 생성하지만 FIM 기능이 없음  
  - codellama-34b는 추론이 제대로 작동하지 않음  
  
- MBPP 열에서 DeepSeek을 강조해야 함  
  - DeepSeek이 Codestral보다 더 나은 점수를 가지고 있음  
  
- 모델이 HuggingFace에 있다고 발표했지만 링크를 제공하지 않음  
  - 링크: [HuggingFace Mamba-Codestral-7B-v0.1](https://huggingface.co/mistralai/mamba-codestral-7B-v0.1)  
  
- Mamba2를 사용하는 고프로파일 모델을 보는 것이 좋음  
  
- Mamba가 더 빠르다고 주장하지만 지연 시간 수치가 없음  
  - 누군가 사용해봤는지, 그리고 실제로 빠른지 궁금함  
  
- Mamba와 Transformers의 장단점에 대한 제품 소개를 추천함  
  
- Mamba 아키텍처에 대한 좋은 설명이 있는지 궁금함  
  
- LLM의 일반 개념을 이해하지만, ChatGPT, Claude 등 일반적으로 공개된 도구만 사용해본 사람에게 적합한 비디오나 글을 추천함  
  - 로컬에서 실행할 수 있는 하드웨어가 있는지 확인하고 싶지만 어디서 시작해야 할지 모름  
  
- model.box 플레이그라운드에서 빠른 테스트를 진행함  
  - 다른 모델(e.g., gpt-4o)보다 완료 길이가 눈에 띄게 짧음  
  - 응답 속도는 기대에 부합함

### Comment 27321

- Author: xguru
- Created: 2024-07-17T09:44:02+09:00
- Points: 1

[Codestral - Mistral의 코드 생성 AI 모델](https://news.hada.io/topic?id=15082)