Voxtral Transcribe 2 모델 공개

▲

GN⁺ 3달전 | parent | ★ favorite | on: Voxtral Transcribe 2 모델 공개(mistral.ai)

Hacker News 의견들

이 데모가 정말 인상적이었음
마이크가 없다고 표시돼도 녹음 버튼을 누르면 브라우저 권한 요청 후 바로 작동함
빠르게 말하고 전문 용어를 섞어도 정확히 받아적음. WebAssembly 철자까지 완벽했음
- 지난 3년간 거의 모든 음성 모델을 써봤는데, 이건 지금까지 본 것 중 단연 최고 수준임
  게다가 오픈 웨이트라니 정말 감사한 일임
- 링크 고마움. Mistral의 기본 playground는 파일 업로드만 돼서 속도와 정확도를 체감하기 어려웠는데, 이 링크는 실시간 성능을 제대로 보여줌
  두 언어를 동시에 말해봤는데도 정확히 인식함. 진짜 놀라움
- 내 환경에서는 작동하지 않았음. Firefox와 Chromium 모두에서 파형은 보이지만 “Awaiting audio input”만 표시됨
- 이 API 링크가 404 오류를 냄. UI 오른쪽 상단에 빨간 에러로 표시됨
- Eminem의 빠른 랩 구간도 실시간으로 받아적을 정도로 속도가 놀라움
영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함
유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함
영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음
- 모델이 폴란드어는 지원하지 않고 러시아어를 지원한다고 명시돼 있음
  13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 파라미터 수나 학습 데이터 요구량이 어떻게 달라질지 궁금함
- 지원 언어 목록에 있는 언어로만 테스트하길 권장함
- 특정 언어에서만 성능이 좋은 건 아쉬움. 공식적으로는 13개 언어만 강력히 지원함
- 폴란드어와 우크라이나어를 섞으면 결과가 러시아어로 나옴. 우크라이나어만 말해도 항상 러시아어로 전사돼서 실망스러움
- 폴란드어는 음운 구조상 키릴 문자로 표기하는 게 더 자연스러운데, 역사적 이유로 그렇지 않음. 이런 점이 AI를 혼란스럽게 하는 듯함
FLEURS 기준 단어 오류율 4% , 분당 $0.003이라는 수치가 인상적임
Amazon Transcribe는 분당 $0.024라 큰 차이임
- 그런데 이 요금이 오디오 분당인지, 컴퓨트 분당인지 궁금함
  예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함
이 모델은 14개 언어를 이해하는 다국어 모델임
하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 지연 시간만 늘릴 수 있음
앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음
관련 논문은 여기에서 볼 수 있음
- 하지만 언어 간 차용어가 많기 때문에 다국어 모델이 오히려 도움이 될 수도 있음
  예: “voila”, “el camino real” 같은 표현
- 이 모델은 효율성과 정확도를 동시에 증명한 것 같음
- Azure, Google, Amazon 같은 기존 STT 서비스는 언어를 명시해야 하지만 품질은 여전히 높음
  다만 내부적으로는 비슷한 LLM 기반 구조를 쓰는 듯함
- 사람은 한 언어만 쓰지 않음. 코드 스위칭이 자연스러워서 단일 언어 모델은 한계가 있음
- 웃긴 건, 위 댓글에서는 언어를 줄이자고 하는데 다른 댓글들은 언어가 부족하다고 불평함
성능이 Deepgram nova-3보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음
내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 SOTA 수준임
다만 지연 분포(latency) 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임
어떤 하드웨어 리소스가 필요한지 궁금함
고급 NVIDIA GPU 여러 개가 필요한지, 아니면 ESP32 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음
이게 Nvidia Parakeet V3보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음
- 나는 Nemotron ASR을 직접 포팅해서 쓰고 있는데 만족스러움
  모델 링크와 inference 포트, GGUF 버전 참고
- Parakeet V3를 로컬에서 써봤는데, 체감상 이 모델이 약간 느리지만 정확도는 더 높음
- Parakeet v3를 좋아했지만, 가끔 문장을 통째로 누락하는 문제가 있었음
- Parakeet은 0.6B라 엣지 디바이스에서도 돌아감. Voxtral은 4B라 Orin이나 Hailo에서는 실시간 구동이 어려워 보임
- 나도 같은 질문을 하러 왔음!
화자 분리(diarization) 기능이 기본 탑재된 줄 알았는데, 실시간 버전에는 없었음
Voxtral-Mini-4B-Realtime-2602는 약 9GB 모델임
- 화자 분리는 Voxtral Mini Transcribe V2 버전에만 포함되어 있음
데모를 써봤는데 영어 인식은 훌륭하고, 언어 전환도 실시간으로 감지함
하지만 우크라이나어는 전혀 인식하지 못하고 항상 러시아어로 전사함
다른 STT 모델들은 우크라이나어를 잘 처리하는데, 이건 학습 데이터에 러시아어만 많은 듯해서 아쉬움
- 모델이 러시아어만 지원하기 때문에, 입력된 우크라이나어를 가장 가까운 러시아어 단어로 매핑함
모델이 좋긴 하지만, 이전 버전은 Parakeet보다 뛰어나지 않았음
Qwen3-ASR 등 최신 모델과의 객관적 비교가 필요함
기업들이 보여주는 선별된 벤치마크는 이제 신뢰하기 어려움
현재로선 내 용도에서는 Parakeet v3가 가장 빠르고 효율적임
- Open ASR Leaderboard가 있지만, 반년째 업데이트가 없음
- 나도 Parakeet을 좋아해서 Mac에서는 Handy 앱으로 쓰고 있음.
  휴대폰에서는 어떤 앱을 쓰는지 궁금함