GN⁺: Codestral - Mistral의 코드 생성 AI 모델
(mistral.ai)- 80개 이상의 프로그래밍 언어를 학습한 AI 모델
- Python, Java, C, C++, JavaScript, Bash 등 인기 있는 언어뿐만 아니라 Swift, Fortran 같은 특정 언어도 지원하여 다양한 코딩 환경과 프로젝트에서 개발자를 도울 수 있음
코드 생성 성능의 새로운 기준을 설정
- 이전 모델들보다 뛰어난 성능과 짧은 지연 시간을 달성
- 파이썬
- Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
- CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
- SQL (Spider)
- Codestral 63.5%, CodeLlama 37%
- 여러 연어 평균
- HumanEval 평균 : Codestral 61.5%, CodeLlama 51.9%
Codestral 시작하기
- Codestral은 Mistral AI Non-Production License 하에 연구 및 테스트 목적으로 사용 가능하며, HuggingFace에서 다운로드
- 새로운 엔드포인트
codestral.mistral.ai
를 통해 사용. 개인 API 키로 관리되며, 8주간 무료 베타 기간 동안 사용 가능함 -
api.mistral.ai
엔드포인트를 통해 사용 가능하며, 토큰당 과금됨. - Le Chat을 통해 Codestral과 자연스럽게 상호작용할 수 있음.
선호하는 코딩 환경에서 Codestral 사용 지원
- 애플리케이션 프레임워크: LlamaIndex와 LangChain에 통합되어 있음.
- VSCode/JetBrains 통합: Continue.dev와 Tabnine을 통해 VSCode와 JetBrains 환경에서 Codestral을 사용할 수 있음.
개발자 커뮤니티 피드백
- Nate Sesti (Continue.dev CTO): 속도와 품질을 갖춘 공개 자동완성 모델은 처음이며, 개발자들에게 큰 변화를 가져올 것임.
- Vladislav Tankov (JetBrains AI 책임자): 코드와 개발 지원에 강한 초점을 맞춘 Mistral의 기능에 기대가 큼.
- Mikhail Evtikhiev (JetBrains 연구원): Kotlin-HumanEval 벤치마크에서 GPT-4-Turbo와 GPT-3.5-Turbo를 능가하는 성능을 보임.
- Meital Zilberstein (Tabnine R&D 리드): 코드 생성, 테스트 생성, 문서화 등에서 뛰어난 성능을 보이며, 제품 효율성을 크게 향상시킴.
- Quinn Slack (Sourcegraph CEO): 코드 자동완성에서 지연 시간을 줄이고 품질을 유지하여 개발자들에게 실질적인 가치를 제공함.
- Jerry Liu (LlamaIndex CEO): 복잡한 작업에서도 정확하고 기능적인 코드를 생성함.
- Harrison Chase (LangChain CEO): 빠르고 유리한 컨텍스트 윈도우를 제공하며, 도구 사용을 지원함.
GN⁺의 의견
- AI 코드 생성의 발전: Codestral은 다양한 언어를 지원하고 성능이 뛰어나, 개발자들에게 큰 도움이 될 수 있음.
- 사용 편의성: 다양한 통합 옵션과 전용 엔드포인트를 제공하여 사용이 편리함.
- 성능 평가: 여러 벤치마크에서 높은 성능을 보여 신뢰할 만함.
- 경쟁 모델: GPT-4-Turbo, GPT-3.5-Turbo 등과 비교해도 우수한 성능을 보임.
- 도입 고려사항: 모델의 성능과 사용성을 고려해 도입을 결정해야 함.
Hacker News 의견
해커뉴스 댓글 요약
-
라이선스 제한: 모델과 출력물을 상업적 활동이나 "라이브" 조건에서 사용할 수 없도록 금지함. 개발의 일환으로 코드 출력을 사용하는 것은 제외되지만, 회사의 비즈니스 활동 맥락에서 내부 사용도 금지됨. 이로 인해 다른 오픈 웨이트 모델과의 비교가 불공평해짐.
-
프로그래밍 모델 테스트: 프로그래밍 모델에게 특정 Python ASGI 미들웨어를 작성하도록 요청했으나, 어느 모델도 정확히 수행하지 못함.
-
LLM 철학 차이: Llama 스타일 LLM과 OpenAI/GPT 스타일 LLM 간의 철학 차이가 있음. GPT는 코드에 중점을 두고 발전해왔으나, Llama/Mistral 모델은 일반 언어 모델을 먼저 출시하고 추가적인 코드 학습을 통해 CodeLlama/Codestral을 제공함.
-
VSCode 통합: VSCode에서 Copilot처럼 "섀도우 코드"가 나타나는 방식으로 사용할 수 있는 방법이 있는지 궁금함. 이러한 도구의 품질은 클라이언트 측에서 적절한 프롬프트를 설계하는 능력에 달려 있음.
-
사용 제한: Mistral 모델과 파생물을 테스트, 연구, 개인적 또는 평가 목적으로만 사용할 수 있으며, 상업적 활동에서는 사용할 수 없음.
-
실용성 문제: 실용적인 코드 완성 사례에서 사용할 수 없다면 의미가 없다고 생각함. GH Copilot이 이미 최고의 모델임.
-
Huggingface 링크: Huggingface 페이지 링크
-
코드 민주화: 예술을 민주화했을 때 발생한 문제를 언급하며, AI로 생성된 신뢰할 수 없는 라이브러리가 많아질 것을 우려함.
-
RAM 요구사항: Huggingface에서 다운로드 가능한 44GB 모델의 로컬 사용을 위한 RAM 요구사항에 대해 질문함. GPU와 Apple 실리콘의 "통합" RAM 요구사항이 동일한지 궁금해함.
-
VSCode 확장: 다양한 모델을 플러그인으로 사용할 수 있는 VSCode 확장이 있는지 궁금해함. 매번 설정하는 것이 번거로움.