Mistral AI, Forge 출시

▲

GN⁺ 2달전 | parent | ★ favorite | on: Mistral AI, Forge 출시(mistral.ai)

Hacker News 의견들

나는 Mistral이 마음에 듦. 비용과 EU 내 데이터 보관의 균형이 완벽함. 품질 저하도 거의 없음.
하지만 모델 이름 체계가 너무 혼란스러움. 예를 들어 Devstral 2라는 모델이 있는데, Codestral도 Devestral도 아님.
API에는 devstral-2512, devstral-latest, devstral-medium-latest 등 여러 이름이 있음.
devstral-latest가 맞겠지 싶어 지원팀에 문의했더니, 12시간 뒤에 “devstral 2는 devstral 2”라며 AI가 생성한 IntelliJ 설정 가이드를 보내줌.
문제는 그 가이드에 나온 화면이 실제로 존재하지 않음
- 나도 그들의 사이트에서 완전히 길을 잃었음. 대신 공식 문서를 보면
  devstral-2512, devstral-latest, devstral-medium-latest는 모두 devstral 2임.
  labs-devstral-small-2512와 devstral-small-latest는 devstral small 2,
  devstral-medium-2507은 devstral 1.0, devstral-small-2507은 devstral small 1.1임
- 나도 같은 경험을 했음. 특히 API 키 생성 과정이 제품별로 분리되어 있어서 더 헷갈렸음
- 내 인상으로는 이 회사가 개인 개발자보다는 B2B 중심으로 움직이는 듯함.
  각 기업별 맞춤 워크플로우를 제공하려는 방향 같음.
  아니면 Google처럼 부서 간 소통이 안 되는 문제일 수도 있음
- “EU 내 데이터 보관”이 Mistral이 지지를 받는 이유라고 생각함.
  모델 품질은 낮지만, 유럽 내에서는 그게 최선임.
  물론 중국 모델을 유럽 서버에서 돌릴 수도 있겠지만 말임
Mistral을 과소평가하지 말아야 함. 일반 서비스형 LLM으로는 꽤 저렴하고,
거대 모델 대신 맞춤형 모델링에 집중하는 전략이 결국 빛을 볼 것 같음.
특히 규제가 많은 EU 환경에서 강점을 가질 수 있음.
세상은 코드 생성만 있는 게 아님
- 나도 같은 생각임. 기업이 AI를 도입해 자동화하려면 이 접근이 최적임.
  다만 이건 진입장벽이 낮은 전략이라 쉽게 복제될 수 있음.
  ERP, CRM 등 각 제품별로 사전 학습 모델을 많이 확보하고,
  고객사의 커스터마이징 데이터를 반영한 후속 모델을 판매한다면 그게 진짜 모트(moat) 가 될 것임.
  조용히 계약을 성사시키는 게 핵심임
- 하지만 LLM의 본질이 거대 모델(megalith)인데,
  맞춤형 모델링이 그 방대한 지식을 어떻게 대체할 수 있을지 의문임
- 나는 그들의 플랫폼으로 소형 특화 모델을 직접 학습시켜봤음.
  데이터셋만 업로드하면 바로 엔드포인트에서 모델을 사용할 수 있음.
  제약은 있지만 접근성을 크게 높여줌
- 코딩용으로도 Vibe는 “앱 전체 작성”보다는 “함수 리팩터링”에 특화되어 있음.
  로컬에서도 작동해서 개발자가 통제권을 유지할 수 있음
- 솔직히 “유럽”이라는 이유 외에는 Mistral을 선택할 이유가 별로 없음.
  모델 품질은 LLM 중 최하위 수준임
“사전 학습(pre-training)”과 “후속 학습(post-training)”의 의미가 궁금했음.
실제로는 충분한 클린 데이터셋이 없을 텐데,
그들이 말하는 사전 학습이 진짜 기초 모델 학습인지, 아니면 SFT(지도 미세조정)인지 헷갈림.
어쩌면 내부 데이터를 기반으로 합성 데이터를 생성해 저해상도 지식 증류를 하는 걸지도 모름
- 사전 학습은 기존 모델을 더 많은 원시 텍스트(PDF 등)에 노출시키는 것임.
  목표는 여전히 다음 토큰 예측이므로 “continued pre-training”이라 부름.
  후속 학습은 SFT, DPO, RL 등 인간 피드백 기반의 모든 과정임
- 아마도 마케팅 용어로 full fine-tuning과 PEFT/LoRA를 구분한 것 같음
- 내 추측으로는 사전 학습은 기존 모델 가중치를 더 많은 데이터로 다듬는 것이고,
  후속 학습은 RAG처럼 프롬프트에 데이터를 추가하는 것임
- 결국 “continued pretraining”을 의미하는 듯함
- 기본 모델을 SFT로 미세조정하는 것과, DPO나 행동 기반 SFT로 조정하는 것을 구분한 표현 같음
Forge의 설명을 보면, 기업 내부 문서나 코드베이스로 모델을 학습시켜
도메인 지식을 내재화한다고 함.
하지만 내 생각엔 지식 습득에는 파인튜닝보다 RAG가 더 효과적임.
파인튜닝은 모델의 “톤”을 바꾸는 데는 좋지만, 새로운 지식을 주입하긴 어려움
나는 Mistral의 접근법을 응원함.
거대 모델 경쟁 대신 고객 맞춤형 엔지니어링과 EU 시장에 집중하는 전략이 현명함
- 철학적 주제에 대해 대화할 때 Mistral이 가장 뛰어남.
  다른 모델은 독자의 이해 수준을 과도하게 걱정하지만,
  Mistral은 깊고 기술적인 논의도 잘 따라감
- 그들의 OCR 모델은 정말 최고(goated)임
- 로컬 배포 지원도 제공함
- Go Mistral!
- .ai 다음은 .eu 시대가 올 것 같음. ai.eu 도메인도 기대됨
최근 Mistral이 정말 흥미로운 시도를 많이 하고 있음.
OpenAI나 Anthropic과 경쟁하기는 어렵지만,
제품 설계의 독창성이 돋보임.
개인적으로 그 회사에서 일해보고 싶을 정도임
Mistral이 최근 멋진 기능을 많이 내놓고 있음.
최전선 모델은 아니지만, 소규모 기업이 직접 모델을 학습하기 어렵다는 점을 고려하면
이런 툴은 큰 기회임.
특히 unsloth 같은 도구와 함께라면 학습이 훨씬 현실적으로 느껴짐
실제로 얼마나 많은 기업용 사례가 파인튜닝을 필요로 할까 궁금함.
단순히 RAG로 충분하지 않을까?
- 작은 모델을 빠르고 저렴하게 특화 학습시키면
  로그 분석, 도구 사용, 도메인 지식 반영 등에서 네트워크 LLM 호출을 줄일 수 있음
- RAG는 단순히 문서를 검색해 답을 찾는 방식임.
  반면 파인튜닝은 모델의 추론 능력 자체를 향상시킴
- RAG는 이미 끝났음
이 접근법이 AI 수익 구조에 대해 시사하는 바가 흥미로움.
GPU 수량이 진입장벽이 되진 않을 것 같음.
오히려 전문적이고 독점적인 데이터가 진짜 모트가 될 것임.
기업의 내부 데이터에는 대체 불가능한 지식이 담겨 있음.
Mistral은 바로 그 점에 베팅하고 있음
- 인간은 인터넷 전체보다 훨씬 적은 데이터로 학습하지만,
  사실상 35억 년의 진화 데이터로 훈련된 존재라고도 볼 수 있음
AI로 돈을 버는 가장 현명한 길임.
MongoDB도 VoyageAI를 통해
기업용 RAG와 맞춤형 모델 컨설팅 시장에 진입하고 있음