Codestral - Mistral의 코드 생성 AI 모델

(mistral.ai)

13P by GN⁺ 2024-05-30 | ★ favorite | 댓글 1개

80개 이상의 프로그래밍 언어를 학습한 AI 모델
Python, Java, C, C++, JavaScript, Bash 등 인기 있는 언어뿐만 아니라 Swift, Fortran 같은 특정 언어도 지원하여 다양한 코딩 환경과 프로젝트에서 개발자를 도울 수 있음

코드 생성 성능의 새로운 기준을 설정

이전 모델들보다 뛰어난 성능과 짧은 지연 시간을 달성
파이썬
- Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
- CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
SQL (Spider)
- Codestral 63.5%, CodeLlama 37%
여러 연어 평균
- HumanEval 평균 : Codestral 61.5%, CodeLlama 51.9%

Codestral 시작하기

Codestral은 Mistral AI Non-Production License 하에 연구 및 테스트 목적으로 사용 가능하며, HuggingFace에서 다운로드
새로운 엔드포인트 codestral.mistral.ai를 통해 사용. 개인 API 키로 관리되며, 8주간 무료 베타 기간 동안 사용 가능함
api.mistral.ai 엔드포인트를 통해 사용 가능하며, 토큰당 과금됨.
Le Chat을 통해 Codestral과 자연스럽게 상호작용할 수 있음.

선호하는 코딩 환경에서 Codestral 사용 지원

애플리케이션 프레임워크: LlamaIndex와 LangChain에 통합되어 있음.
VSCode/JetBrains 통합: Continue.dev와 Tabnine을 통해 VSCode와 JetBrains 환경에서 Codestral을 사용할 수 있음.

개발자 커뮤니티 피드백

Nate Sesti (Continue.dev CTO): 속도와 품질을 갖춘 공개 자동완성 모델은 처음이며, 개발자들에게 큰 변화를 가져올 것임.
Vladislav Tankov (JetBrains AI 책임자): 코드와 개발 지원에 강한 초점을 맞춘 Mistral의 기능에 기대가 큼.
Mikhail Evtikhiev (JetBrains 연구원): Kotlin-HumanEval 벤치마크에서 GPT-4-Turbo와 GPT-3.5-Turbo를 능가하는 성능을 보임.
Meital Zilberstein (Tabnine R&D 리드): 코드 생성, 테스트 생성, 문서화 등에서 뛰어난 성능을 보이며, 제품 효율성을 크게 향상시킴.
Quinn Slack (Sourcegraph CEO): 코드 자동완성에서 지연 시간을 줄이고 품질을 유지하여 개발자들에게 실질적인 가치를 제공함.
Jerry Liu (LlamaIndex CEO): 복잡한 작업에서도 정확하고 기능적인 코드를 생성함.
Harrison Chase (LangChain CEO): 빠르고 유리한 컨텍스트 윈도우를 제공하며, 도구 사용을 지원함.

GN⁺의 의견

AI 코드 생성의 발전: Codestral은 다양한 언어를 지원하고 성능이 뛰어나, 개발자들에게 큰 도움이 될 수 있음.
사용 편의성: 다양한 통합 옵션과 전용 엔드포인트를 제공하여 사용이 편리함.
성능 평가: 여러 벤치마크에서 높은 성능을 보여 신뢰할 만함.
경쟁 모델: GPT-4-Turbo, GPT-3.5-Turbo 등과 비교해도 우수한 성능을 보임.
도입 고려사항: 모델의 성능과 사용성을 고려해 도입을 결정해야 함.

▲

GN⁺ 2024-05-30 [-]

Hacker News 의견

해커뉴스 댓글 요약

라이선스 제한: 모델과 출력물을 상업적 활동이나 "라이브" 조건에서 사용할 수 없도록 금지함. 개발의 일환으로 코드 출력을 사용하는 것은 제외되지만, 회사의 비즈니스 활동 맥락에서 내부 사용도 금지됨. 이로 인해 다른 오픈 웨이트 모델과의 비교가 불공평해짐.
프로그래밍 모델 테스트: 프로그래밍 모델에게 특정 Python ASGI 미들웨어를 작성하도록 요청했으나, 어느 모델도 정확히 수행하지 못함.
LLM 철학 차이: Llama 스타일 LLM과 OpenAI/GPT 스타일 LLM 간의 철학 차이가 있음. GPT는 코드에 중점을 두고 발전해왔으나, Llama/Mistral 모델은 일반 언어 모델을 먼저 출시하고 추가적인 코드 학습을 통해 CodeLlama/Codestral을 제공함.
VSCode 통합: VSCode에서 Copilot처럼 "섀도우 코드"가 나타나는 방식으로 사용할 수 있는 방법이 있는지 궁금함. 이러한 도구의 품질은 클라이언트 측에서 적절한 프롬프트를 설계하는 능력에 달려 있음.
사용 제한: Mistral 모델과 파생물을 테스트, 연구, 개인적 또는 평가 목적으로만 사용할 수 있으며, 상업적 활동에서는 사용할 수 없음.
실용성 문제: 실용적인 코드 완성 사례에서 사용할 수 없다면 의미가 없다고 생각함. GH Copilot이 이미 최고의 모델임.
Huggingface 링크: Huggingface 페이지 링크
코드 민주화: 예술을 민주화했을 때 발생한 문제를 언급하며, AI로 생성된 신뢰할 수 없는 라이브러리가 많아질 것을 우려함.
RAM 요구사항: Huggingface에서 다운로드 가능한 44GB 모델의 로컬 사용을 위한 RAM 요구사항에 대해 질문함. GPU와 Apple 실리콘의 "통합" RAM 요구사항이 동일한지 궁금해함.
VSCode 확장: 다양한 모델을 플러그인으로 사용할 수 있는 VSCode 확장이 있는지 궁금해함. 매번 설정하는 것이 번거로움.

답변달기