Mistral Large 2 모델 공개

(mistral.ai)

6P by GN⁺ 11달전 | ★ favorite | 댓글 1개

Mistral Large 2는 128k 컨텍스트 윈도우 및 프랑스어, 독일어, 스페인어, 이탈리아어, 중국어, 일본어, 한국어를 포함한 여러 언어를 지원함
- 또한 Python, Java, C, C++, JavaScript, Bash를 포함한 80개 이상의 코딩 언어를 지원
단일 노드 추론을 위해 설계되었으며, 1230억 개의 파라미터로 구성되어 있어 단일 노드에서 높은 처리량을 제공할 수 있음
연구 및 비상업적 용도로 사용 및 수정이 가능한 Mistral Research License 하에 배포됨. 상업적 용도로 사용하려면 Mistral Commercial License를 취득해야 함

일반 성능

Mistral Large 2는 성능/비용 평가 지표에서 새로운 기준을 세움
특히 MMLU에서 사전 학습된 버전은 84.0%의 정확도를 달성하며, 성능/비용 파레토 프론트에서 새로운 지점을 설정함

코드 및 추론

Codestral 22B와 Codestral Mamba의 경험을 바탕으로 Mistral Large 2는 많은 양의 코드로 학습됨
Mistral Large 2는 이전 Mistral Large보다 훨씬 뛰어나며, GPT-4o, Claude 3 Opus, Llama 3 405B와 같은 선도 모델과 동등한 성능을 보임
모델의 추론 능력을 향상시키기 위해 많은 노력을 기울였으며, 사실과 다른 정보를 생성하는 경향을 최소화하기 위해 모델을 미세 조정함
모델이 해결책을 찾지 못하거나 충분한 정보가 없을 때 이를 인정하도록 학습됨

지시 사항 준수 및 정렬

Mistral Large 2는 지시 사항 준수 및 대화 능력이 크게 향상됨
많은 비즈니스 애플리케이션에서 간결함이 중요하기 때문에, 가능한 한 간결하고 핵심적인 응답을 생성하도록 많은 노력을 기울임

언어 다양성

Mistral Large 2는 다국어 데이터를 많이 학습하여 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 네덜란드어, 러시아어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 뛰어난 성능을 보임

도구 사용 및 함수 호출

Mistral Large 2는 향상된 함수 호출 및 검색 기능을 갖추고 있으며, 복잡한 비즈니스 애플리케이션의 동력 엔진으로서의 역할을 수행할 수 있도록 학습됨

클라우드 서비스 제공자를 통한 Mistral 모델 접근

Google Cloud Platform과의 파트너십을 확장하여 Vertex AI에서 Mistral AI의 모델을 제공함
Azure AI Studio, Amazon Bedrock, IBM watsonx.ai에서도 Mistral AI의 모델을 사용할 수 있음

GN⁺의 정리

Mistral Large 2는 다양한 언어와 코딩 언어를 지원하며, 단일 노드에서 높은 처리량을 제공함.
코드 생성 및 추론 능력이 크게 향상되었으며, 사실과 다른 정보를 생성하는 경향을 최소화함.
다국어 데이터를 많이 학습하여 여러 언어에서 뛰어난 성능을 보임.
Google Cloud Platform, Azure AI Studio, Amazon Bedrock, IBM watsonx.ai와의 파트너십을 통해 글로벌 사용자에게 제공됨.
비즈니스 애플리케이션에서 간결하고 핵심적인 응답을 생성하도록 설계됨.

▲

GN⁺ 11달전 [-]

Hacker News 의견

Mistral Large 2와 Llama 3.1 405b 모델을 테스트한 결과, 두 모델 간에 명확한 우열을 가리기 어려움
Claude를 사용 중이라면 계속 사용하는 것이 좋음
Claude에 대한 바람:
- 더 똑똑해지길 바람
- 더 긴 컨텍스트 윈도우 (1M+)
- 네이티브 오디오 입력 및 톤 이해
- 거절 시 도덕적 판단을 줄이길 바람
- 더 빠르길 바람
- 출력 토큰 수 증가
모델 경쟁이 치열해지고 있음
Claude 3.5 Sonnet이 다른 모든 모델을 압도함
Mistral이나 Llama를 일상적으로 사용하는 방법을 잘 모르겠음
AI 코딩 어시스턴트를 개발 중이며, 여러 모델을 시도해본 결과 Mistral Large 2가 가장 실망스러웠음
비상업적 라이선스가 실망스러움
Llama 3.1 405b와 경쟁할 만하지만 라이선스가 더 제한적임
모델 간 차이가 줄어들고 있어 특정 사용 사례에 맞게 Llama 405B를 미세 조정하는 것이 더 나을 것임
품질에서 큰 도약이 없는 한, 현재 상태에서 큰 차이는 없을 것임
경쟁이 치열해져서 기쁨
많은 비용을 들여 SOTA 모델을 만들고 있지만, GPT-4o와 Claude Opus 수준에 머물러 있음
데이터와 GPU를 더 투입하는 것만으로는 한계에 도달하고 있음
사용자 경험과 "개성"이 중요해질 것임
Claude Sonnet을 즐기고 있으며, 다른 모델보다 더 날카롭게 느껴짐
각 단계마다 더 많은 에너지와 자원이 필요함을 잊지 말아야 함
PyLLMs의 최근 모델 벤치마크 결과를 공유함
- Nemo의 속도와 품질에 놀람
- Mistral Large는 좋지만 매우 느림
Claude 모델 중 Opus와 Sonnet 3.5 중 어느 것이 더 능력 있는지 혼란스러움
Mistral Large 2는 향상된 함수 호출 및 검색 기능을 갖추고 있음
함수 호출 정확도가 약 50%라는 것은 복잡한 작업에서 절반은 실패한다는 의미인지 의문임
ChatGPT-4o를 선호하며, 문제가 있을 때 Claude를 사용하지만 더 나은 결과를 얻지 못함

답변달기