나는 phrasing.app 에서 대형 언어 모델(LLM) 을 이용해 데이터를 일관된 형식으로 정리함
최근 몇 달 전 mistral-3-medium-0525로 전환했는데, gpt-5가 이상한 출력을 자주 내서 고생했음
Mistral은 빠르고 저렴하며, 포맷 지시를 정확히 따름. 벤치마크보다 실제 사용에서 훨씬 뛰어남
아주 가끔(0.1%) 이상한 결과를 내지만 gpt-5의 15% 실패율에 비하면 훨씬 안정적임
새 모델들도 곧 테스트해보고 결과를 공유할 예정임
예전엔 여러 챗봇 구독을 했지만, 지금은 Grok, ChatGPT, Gemini, Deepseek, Mistral을 번갈아 사용함
API에서는 모델이 예상대로 동작하는 것이 가장 큰 장점이라 느낌
이제는 Openrouter를 통해 필요한 모델을 골라 쓰고 있음
최근 광고 기반 챗봇이 늘어난 건, 벤치마크와 달리 실제 사용자들이 차이를 못 느껴 유료 구독을 취소하기 때문이라 생각함
오늘도 OpenAI가 무료 체험 한 달을 제안했는데, 두 달 전에도 썼던 걸 잊은 줄 아는 듯함
나도 비슷한 경험을 함. Mistral 모델은 벤치마크 상 최고는 아니지만, 분류나 요약 같은 단순 작업에서는 가장 효율적임
특히 mistral-small을 batch API로 쓰면 비용 대비 성능이 매우 좋음
LLM을 벤치마크로 평가하는 방식에 한계가 있다고 느낌
과적합이 실제 사용성을 떨어뜨릴 수도 있고, Chatbot Arena가 생긴 이유도 이런 실사용 평가 때문이었음
하지만 그마저도 형식 맞추기나 아첨 같은 요소에 치우친다는 지적이 있음
결국 작업별 특화 모델이 더 많이 필요하다고 생각함
Mistral 모델 사용 사례를 공유해줘서 고마움
다만 phrasing.app의 “Hand-crafted by humans”라는 문구는, 실제로는 고급 LLM을 쓰고 있다는 점에서 약간 아이러니하게 느껴졌음
gpt-5가 15% 확률로 이상한 출력을 낸다는 말인가 궁금함
혹시 Mistral의 오류율을 gpt-5.1의 복잡한 작업 실패율과 비교한 건지?
그리고 Mistral에 Tool Use 모델이 있는지도 궁금함. 새로운 코딩용 모델이 생기면 반가울 것 같음
새 대형 모델이 DeepseekV2 아키텍처를 사용한다는 점이 흥미로움
공식 페이지에는 언급이 없지만, 오픈소스 모델들이 최신 구조를 채택하는 건 좋은 일이라 생각함
K2도 비슷한 접근을 했고, 실제 코드(mistral_large_3.py)를 보면 DeepseekV3 기반임
“과학은 항상 개방과 공유 위에서 발전한다”는 말처럼, 이런 투명성이 반가움
이제 집에서 14B 모델을 테스트해볼 예정이며, Vision 기능이 추가된 점도 기대됨
결국 R&D를 Deepseek 복제에 쏟고, 유일한 추가 기능인 Vision에는 힘을 덜 쓴 것 같음
Hugging Face 페이지에서도 Mistral Large 3가 멀티모달 작업에서는 Vision 특화 모델보다 뒤처진다고 명시되어 있음
이런 기술로 시각장애인을 위한 실시간 영상 묘사 도구 같은 접근성 툴을 만들 수 있을 것 같음
단순히 음성뿐 아니라 영상 속 행동까지 설명해주는 기능을 상상해봄
유럽의 Mistral이 오랜만에 돌아와 반가움
Apache 2.0 라이선스로 오픈소스로 복귀한 것도 긍정적임
한동안 소비자 GPU용 소형 모델에서는 최고였는데, 이번 Ministral 14B도 벤치마크만큼 잘 나오길 기대함
사실 이런 성과는 미국 VC 자금 덕분이라 생각함
유럽 내에서였다면 이런 규모의 AI 훈련 자금은 받기 어려웠을 것임
새 모델이 멋지지만, OpenAI·Google·Anthropic 같은 SOTA 모델과의 비교가 없어서 아쉬움
전체적인 위치를 파악하기 어렵기 때문임
LMArena 결과를 보면 Mistral Large 3는 28위로, 상위 모델들과 점수 차이는 크지 않음
최고 모델이 1491점, Mistral이 1418점이라 성능 격차가 작음
하지만 이런 비교는 광고 규제에 걸릴 수 있어 기업들이 피하는 듯함
어차피 Mistral은 폐쇄형 모델들과 경쟁이 어렵다는 걸 알고 있을 것임
GPT-OSS와도 비교하지 않는 건 다소 보수적인 행보로 보임
비교 결과를 공개하지 않았다는 사실 자체가 이미 많은 걸 말해준다고 생각함
유럽의 노력을 응원함
하지만 유럽 내에서도 런던의 DeepMind처럼 활발한 AI 연구가 많다는 점을 잊지 말아야 함
“Windows 11이 미국의 최고 역작”이라는 농담으로 균형을 맞추고 싶음
솔직히 Deepseek 3.2가 어제 모든 관심을 가져간 느낌임
이번 비교는 Deepseek 3.1 기준이라 아쉬움 공식 뉴스에 따르면 3.2는 큰 폭의 개선이 있었음
좋은 모델 가중치를 공개하는 인센티브가 여전히 이해되지 않음
OpenAI가 gpt-oss처럼 벤치마크용 모델을 내놓는 건 PR 목적일 수도 있고,
중국 기업들이 미국 빅테크의 입지를 흔들기 위해 비슷한 전략을 쓰는 것 같음
앞으로도 괜찮은 오픈 가중치 모델이 계속 나올 수 있을지 의문임
닫힌 모델로는 돈을 벌기 어렵기 때문임
오픈 가중치는 기업용 파인튜닝 서비스 같은 2차 수익 채널을 열어줌
투명성과 제어, 프라이버시, 비용 절감이 기업에게 중요하므로
이런 오픈 생태계가 장기적으로 폐쇄형 모델을 잠식할 가능성이 있음
관련 서비스는 Mistral Custom Model Training 참고
gpt-oss는 벤치마크용이 아니라 실제로 수학 문제 해결력이 매우 뛰어남
Kaggle의 AIME3 대회에서도 상위권을 유지 중임
지금은 수익 모델이 불확실하므로, AI 기업들은 최고의 모델을 만드는 것보다 VC 자금 확보에 집중함
오픈 모델을 공개하면 기업 가치가 급등해 GPU 확보에 유리함
다만, 지속 가능한 비즈니스 모델이 끝내 나오지 않는다면 큰 문제임
여러 모델의 종합 벤치마크 점수를 비교해봄
Gemini 3.0 Pro가 84.8로 1위, DeepSeek 3.2가 83.6, GPT-5.1은 69.2
Mistral Large 3는 41.9로 낮지만, 14B·8B·3B 모델은 SOTA 수준이며
Qwen3처럼 검열 문제가 없음
Gemini 3와 GPT-5.1/Opus 4.5 간의 큰 격차가 궁금함
어떤 영역에서 Gemini가 그렇게 강한지 알고 싶음
벤치마크에서는 Gemini가 최고지만, 실제로는 ChatGPT나 Claude보다 못한 느낌임
헛소리를 더 자주 하고, Google이 벤치마크 점수만 올리는 듯함
Mistral 같은 오픈소스가 이런 시장을 잠식하길 바람
오픈 가중치 LLM은 폐쇄형 모델을 이기려는 게 목적이 아님 생태계의 균형추 역할을 하며, 독점 방지에 의미가 있음
나는 on-prem k8s 클러스터 구축을 배우며 Gemini를 써봤는데, 관련 주제에서는 매우 정확했음
학습 데이터에 잘 포함된 분야라 그런 듯함
내 질문 기준으로는 Gemini 3가 GPT-5.1보다 환각이 적었음
개인적으로 Gemini는 가장 실망스러웠고, 과도한 홍보가 자연스럽지 않다고 느낌
코딩 외 작업에서는 Gemini가 Google Search 연동으로 더 쉽게 근거를 제시할 수 있음
Hacker News 의견
나는 phrasing.app 에서 대형 언어 모델(LLM) 을 이용해 데이터를 일관된 형식으로 정리함
최근 몇 달 전 mistral-3-medium-0525로 전환했는데, gpt-5가 이상한 출력을 자주 내서 고생했음
Mistral은 빠르고 저렴하며, 포맷 지시를 정확히 따름. 벤치마크보다 실제 사용에서 훨씬 뛰어남
아주 가끔(0.1%) 이상한 결과를 내지만 gpt-5의 15% 실패율에 비하면 훨씬 안정적임
새 모델들도 곧 테스트해보고 결과를 공유할 예정임
API에서는 모델이 예상대로 동작하는 것이 가장 큰 장점이라 느낌
이제는 Openrouter를 통해 필요한 모델을 골라 쓰고 있음
최근 광고 기반 챗봇이 늘어난 건, 벤치마크와 달리 실제 사용자들이 차이를 못 느껴 유료 구독을 취소하기 때문이라 생각함
오늘도 OpenAI가 무료 체험 한 달을 제안했는데, 두 달 전에도 썼던 걸 잊은 줄 아는 듯함
특히 mistral-small을 batch API로 쓰면 비용 대비 성능이 매우 좋음
과적합이 실제 사용성을 떨어뜨릴 수도 있고, Chatbot Arena가 생긴 이유도 이런 실사용 평가 때문이었음
하지만 그마저도 형식 맞추기나 아첨 같은 요소에 치우친다는 지적이 있음
결국 작업별 특화 모델이 더 많이 필요하다고 생각함
다만 phrasing.app의 “Hand-crafted by humans”라는 문구는, 실제로는 고급 LLM을 쓰고 있다는 점에서 약간 아이러니하게 느껴졌음
혹시 Mistral의 오류율을 gpt-5.1의 복잡한 작업 실패율과 비교한 건지?
그리고 Mistral에 Tool Use 모델이 있는지도 궁금함. 새로운 코딩용 모델이 생기면 반가울 것 같음
새 대형 모델이 DeepseekV2 아키텍처를 사용한다는 점이 흥미로움
공식 페이지에는 언급이 없지만, 오픈소스 모델들이 최신 구조를 채택하는 건 좋은 일이라 생각함
K2도 비슷한 접근을 했고, 실제 코드(
mistral_large_3.py)를 보면 DeepseekV3 기반임“과학은 항상 개방과 공유 위에서 발전한다”는 말처럼, 이런 투명성이 반가움
이제 집에서 14B 모델을 테스트해볼 예정이며, Vision 기능이 추가된 점도 기대됨
Hugging Face 페이지에서도 Mistral Large 3가 멀티모달 작업에서는 Vision 특화 모델보다 뒤처진다고 명시되어 있음
3B Vision 모델이 브라우저에서 직접 실행된다는 게 놀라움
3GB 모델을 다운로드하면 바로 실행 가능하고, Hugging Face 데모가 있음
Simon Willison의 글도 참고할 만함
단순히 음성뿐 아니라 영상 속 행동까지 설명해주는 기능을 상상해봄
유럽의 Mistral이 오랜만에 돌아와 반가움
Apache 2.0 라이선스로 오픈소스로 복귀한 것도 긍정적임
한동안 소비자 GPU용 소형 모델에서는 최고였는데, 이번 Ministral 14B도 벤치마크만큼 잘 나오길 기대함
유럽 내에서였다면 이런 규모의 AI 훈련 자금은 받기 어려웠을 것임
새 모델이 멋지지만, OpenAI·Google·Anthropic 같은 SOTA 모델과의 비교가 없어서 아쉬움
전체적인 위치를 파악하기 어렵기 때문임
최고 모델이 1491점, Mistral이 1418점이라 성능 격차가 작음
GPT-OSS와도 비교하지 않는 건 다소 보수적인 행보로 보임
유럽의 노력을 응원함
솔직히 Deepseek 3.2가 어제 모든 관심을 가져간 느낌임
이번 비교는 Deepseek 3.1 기준이라 아쉬움
공식 뉴스에 따르면 3.2는 큰 폭의 개선이 있었음
좋은 모델 가중치를 공개하는 인센티브가 여전히 이해되지 않음
OpenAI가 gpt-oss처럼 벤치마크용 모델을 내놓는 건 PR 목적일 수도 있고,
중국 기업들이 미국 빅테크의 입지를 흔들기 위해 비슷한 전략을 쓰는 것 같음
앞으로도 괜찮은 오픈 가중치 모델이 계속 나올 수 있을지 의문임
오픈 가중치는 기업용 파인튜닝 서비스 같은 2차 수익 채널을 열어줌
투명성과 제어, 프라이버시, 비용 절감이 기업에게 중요하므로
이런 오픈 생태계가 장기적으로 폐쇄형 모델을 잠식할 가능성이 있음
관련 서비스는 Mistral Custom Model Training 참고
Kaggle의 AIME3 대회에서도 상위권을 유지 중임
오픈 모델을 공개하면 기업 가치가 급등해 GPU 확보에 유리함
다만, 지속 가능한 비즈니스 모델이 끝내 나오지 않는다면 큰 문제임
Gemini가 벤치마크에서는 앞서지만 실제 사용성은 떨어짐
여러 모델의 종합 벤치마크 점수를 비교해봄
Gemini 3.0 Pro가 84.8로 1위, DeepSeek 3.2가 83.6, GPT-5.1은 69.2
Mistral Large 3는 41.9로 낮지만, 14B·8B·3B 모델은 SOTA 수준이며
Qwen3처럼 검열 문제가 없음
어떤 영역에서 Gemini가 그렇게 강한지 알고 싶음
벤치마크에서는 Gemini가 최고지만, 실제로는 ChatGPT나 Claude보다 못한 느낌임
헛소리를 더 자주 하고, Google이 벤치마크 점수만 올리는 듯함
Mistral 같은 오픈소스가 이런 시장을 잠식하길 바람
생태계의 균형추 역할을 하며, 독점 방지에 의미가 있음
학습 데이터에 잘 포함된 분야라 그런 듯함