13P by neo 2달전 | favorite | 댓글 1개
  • 80개 이상의 프로그래밍 언어를 학습한 AI 모델
  • Python, Java, C, C++, JavaScript, Bash 등 인기 있는 언어뿐만 아니라 Swift, Fortran 같은 특정 언어도 지원하여 다양한 코딩 환경과 프로젝트에서 개발자를 도울 수 있음

코드 생성 성능의 새로운 기준을 설정

  • 이전 모델들보다 뛰어난 성능과 짧은 지연 시간을 달성
  • 파이썬
    • Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
    • CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
  • SQL (Spider)
    • Codestral 63.5%, CodeLlama 37%
  • 여러 연어 평균
    • HumanEval 평균 : Codestral 61.5%, CodeLlama 51.9%

Codestral 시작하기

  • Codestral은 Mistral AI Non-Production License 하에 연구 및 테스트 목적으로 사용 가능하며, HuggingFace에서 다운로드
  • 새로운 엔드포인트 codestral.mistral.ai를 통해 사용. 개인 API 키로 관리되며, 8주간 무료 베타 기간 동안 사용 가능함
  • api.mistral.ai 엔드포인트를 통해 사용 가능하며, 토큰당 과금됨.
  • Le Chat을 통해 Codestral과 자연스럽게 상호작용할 수 있음.

선호하는 코딩 환경에서 Codestral 사용 지원

  • 애플리케이션 프레임워크: LlamaIndex와 LangChain에 통합되어 있음.
  • VSCode/JetBrains 통합: Continue.dev와 Tabnine을 통해 VSCode와 JetBrains 환경에서 Codestral을 사용할 수 있음.

개발자 커뮤니티 피드백

  • Nate Sesti (Continue.dev CTO): 속도와 품질을 갖춘 공개 자동완성 모델은 처음이며, 개발자들에게 큰 변화를 가져올 것임.
  • Vladislav Tankov (JetBrains AI 책임자): 코드와 개발 지원에 강한 초점을 맞춘 Mistral의 기능에 기대가 큼.
  • Mikhail Evtikhiev (JetBrains 연구원): Kotlin-HumanEval 벤치마크에서 GPT-4-Turbo와 GPT-3.5-Turbo를 능가하는 성능을 보임.
  • Meital Zilberstein (Tabnine R&D 리드): 코드 생성, 테스트 생성, 문서화 등에서 뛰어난 성능을 보이며, 제품 효율성을 크게 향상시킴.
  • Quinn Slack (Sourcegraph CEO): 코드 자동완성에서 지연 시간을 줄이고 품질을 유지하여 개발자들에게 실질적인 가치를 제공함.
  • Jerry Liu (LlamaIndex CEO): 복잡한 작업에서도 정확하고 기능적인 코드를 생성함.
  • Harrison Chase (LangChain CEO): 빠르고 유리한 컨텍스트 윈도우를 제공하며, 도구 사용을 지원함.

GN⁺의 의견

  • AI 코드 생성의 발전: Codestral은 다양한 언어를 지원하고 성능이 뛰어나, 개발자들에게 큰 도움이 될 수 있음.
  • 사용 편의성: 다양한 통합 옵션과 전용 엔드포인트를 제공하여 사용이 편리함.
  • 성능 평가: 여러 벤치마크에서 높은 성능을 보여 신뢰할 만함.
  • 경쟁 모델: GPT-4-Turbo, GPT-3.5-Turbo 등과 비교해도 우수한 성능을 보임.
  • 도입 고려사항: 모델의 성능과 사용성을 고려해 도입을 결정해야 함.
Hacker News 의견

해커뉴스 댓글 요약

  • 라이선스 제한: 모델과 출력물을 상업적 활동이나 "라이브" 조건에서 사용할 수 없도록 금지함. 개발의 일환으로 코드 출력을 사용하는 것은 제외되지만, 회사의 비즈니스 활동 맥락에서 내부 사용도 금지됨. 이로 인해 다른 오픈 웨이트 모델과의 비교가 불공평해짐.

  • 프로그래밍 모델 테스트: 프로그래밍 모델에게 특정 Python ASGI 미들웨어를 작성하도록 요청했으나, 어느 모델도 정확히 수행하지 못함.

  • LLM 철학 차이: Llama 스타일 LLM과 OpenAI/GPT 스타일 LLM 간의 철학 차이가 있음. GPT는 코드에 중점을 두고 발전해왔으나, Llama/Mistral 모델은 일반 언어 모델을 먼저 출시하고 추가적인 코드 학습을 통해 CodeLlama/Codestral을 제공함.

  • VSCode 통합: VSCode에서 Copilot처럼 "섀도우 코드"가 나타나는 방식으로 사용할 수 있는 방법이 있는지 궁금함. 이러한 도구의 품질은 클라이언트 측에서 적절한 프롬프트를 설계하는 능력에 달려 있음.

  • 사용 제한: Mistral 모델과 파생물을 테스트, 연구, 개인적 또는 평가 목적으로만 사용할 수 있으며, 상업적 활동에서는 사용할 수 없음.

  • 실용성 문제: 실용적인 코드 완성 사례에서 사용할 수 없다면 의미가 없다고 생각함. GH Copilot이 이미 최고의 모델임.

  • Huggingface 링크: Huggingface 페이지 링크

  • 코드 민주화: 예술을 민주화했을 때 발생한 문제를 언급하며, AI로 생성된 신뢰할 수 없는 라이브러리가 많아질 것을 우려함.

  • RAM 요구사항: Huggingface에서 다운로드 가능한 44GB 모델의 로컬 사용을 위한 RAM 요구사항에 대해 질문함. GPU와 Apple 실리콘의 "통합" RAM 요구사항이 동일한지 궁금해함.

  • VSCode 확장: 다양한 모델을 플러그인으로 사용할 수 있는 VSCode 확장이 있는지 궁금해함. 매번 설정하는 것이 번거로움.