Voxtral Transcribe 2 모델 공개
(mistral.ai)- 초저지연 실시간 음성 인식과 고정밀 화자 분리 기능을 갖춘 차세대 음성-텍스트 변환 모델
- 두 가지 모델로 구성되며, Voxtral Mini Transcribe V2는 배치 처리용, Voxtral Realtime은 실시간 응용을 위한 구조
- Realtime 모델은 200ms 이하 지연으로 음성을 스트리밍 방식으로 처리하며, Apache 2.0 오픈 웨이트로 공개
- Mini Transcribe V2는 한국어 포함 13개 언어 지원, 단어 단위 타임스탬프, 컨텍스트 바이어싱, 화자 분리 등 엔터프라이즈 기능 제공
- 두 모델 모두 GDPR·HIPAA 준수 배포를 지원하며, 음성 기반 애플리케이션의 정확도·속도·비용 효율성을 크게 향상
Voxtral Transcribe 2 개요
- Voxtral Transcribe 2는 최신 음성 인식 품질, 정밀 화자 분리(diarization) , 초저지연 처리를 특징으로 하는 두 개의 모델로 구성
- Voxtral Mini Transcribe V2: 배치 전사용
- Voxtral Realtime: 실시간 응용용
- Realtime 모델은 Apache 2.0 라이선스로 공개되어 엣지 환경에서도 배포 가능
- Mistral Studio 내 오디오 플레이그라운드를 통해 즉시 전사 테스트 가능
주요 기능 요약
- Voxtral Mini Transcribe V2: 13개 언어 지원, 화자 분리, 컨텍스트 바이어싱, 단어 단위 타임스탬프 제공
- Voxtral Realtime: 200ms 이하 지연으로 실시간 전사 가능, 음성 에이전트 및 실시간 응용에 적합
- 효율성: 업계 최저 단가로 최고 수준의 정확도 제공
- 오픈 웨이트: Realtime 모델은 Apache 2.0 하에 공개되어 프라이버시 중심 배포 가능
Voxtral Realtime
- 지연(latency) 이 중요한 응용을 위해 설계된 모델로, 오디오를 청크 단위로 처리하지 않고 스트리밍 아키텍처로 실시간 전사 수행
- 200ms 이하 지연 설정 가능, 2.4초 지연 시 배치 모델과 동일한 정확도, 480ms 지연 시 1~2% 오차율 유지
- 13개 언어(영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어) 지원
- 4B 파라미터 규모로 엣지 디바이스에서도 효율적으로 동작하며, 보안·프라이버시 보장
- 모델 웨이트는 Hugging Face Hub에 공개
Voxtral Mini Transcribe V2
- 전사 및 화자 분리 품질이 언어와 도메인 전반에서 크게 향상
- FLEURS 벤치마크 기준 약 4% 단어 오류율, $0.003/분의 비용으로 최고 수준의 가격 대비 성능 제공
- GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 정확도가 높고, ElevenLabs Scribe v2보다 3배 빠르며 비용은 1/5 수준
엔터프라이즈 기능
- 화자 분리(Speaker diarization) : 발화자 구분 및 시작/종료 시점 표시, 회의·인터뷰·다자 통화에 적합
- 컨텍스트 바이어싱(Context biasing) : 최대 100개 단어·구문 지정 가능, 고유명사·전문용어 인식 향상 (영어 최적화, 타 언어는 실험적)
- 단어 단위 타임스탬프: 자막 생성, 오디오 검색, 콘텐츠 정렬에 활용
- 확장된 언어 지원: 13개 언어 지원, 비영어권에서도 경쟁 모델 대비 우수 성능
- 소음 내성: 공장, 콜센터 등 소음 환경에서도 정확도 유지
- 장시간 오디오 처리: 최대 3시간 녹음 파일 단일 요청 처리 가능
오디오 플레이그라운드
- Mistral Studio에서 Voxtral Transcribe 2를 직접 테스트 가능
- 최대 10개의 오디오 파일 업로드, 화자 분리·타임스탬프 단위·컨텍스트 바이어싱 설정 지원
- 지원 포맷: .mp3, .wav, .m4a, .flac, .ogg, 파일당 최대 1GB
다양한 활용 사례
- 회의 인텔리전스: 다국어 회의 전사 및 화자 구분으로 대규모 회의 데이터 분석 가능
- 음성 에이전트·가상 비서: 200ms 이하 지연으로 자연스러운 대화형 인터페이스 구현
- 컨택센터 자동화: 실시간 통화 전사로 감정 분석, 응답 제안, CRM 자동 입력 지원
- 미디어·방송: 실시간 다국어 자막 생성, 고유명사·전문용어 인식 강화
- 규제 준수·문서화: 화자별 타임스탬프 기반 감사 추적 가능
- 두 모델 모두 GDPR 및 HIPAA 준수 배포를 지원하며, 온프레미스 또는 프라이빗 클라우드 환경에서 안전하게 운영 가능
이용 및 가격
- Voxtral Mini Transcribe V2: API 이용 시 $0.003/분, Mistral Studio 또는 Le Chat에서 사용 가능
- Voxtral Realtime: API 이용 시 $0.006/분, Hugging Face에서 오픈 웨이트 제공
- Mistral의 오디오·전사 기능 문서를 통해 추가 정보 확인 가능
Hacker News 의견들
-
이 데모가 정말 인상적이었음
마이크가 없다고 표시돼도 녹음 버튼을 누르면 브라우저 권한 요청 후 바로 작동함
빠르게 말하고 전문 용어를 섞어도 정확히 받아적음. WebAssembly 철자까지 완벽했음- 지난 3년간 거의 모든 음성 모델을 써봤는데, 이건 지금까지 본 것 중 단연 최고 수준임
게다가 오픈 웨이트라니 정말 감사한 일임 - 링크 고마움. Mistral의 기본 playground는 파일 업로드만 돼서 속도와 정확도를 체감하기 어려웠는데, 이 링크는 실시간 성능을 제대로 보여줌
두 언어를 동시에 말해봤는데도 정확히 인식함. 진짜 놀라움 - 내 환경에서는 작동하지 않았음. Firefox와 Chromium 모두에서 파형은 보이지만 “Awaiting audio input”만 표시됨
- 이 API 링크가 404 오류를 냄. UI 오른쪽 상단에 빨간 에러로 표시됨
- Eminem의 빠른 랩 구간도 실시간으로 받아적을 정도로 속도가 놀라움
- 지난 3년간 거의 모든 음성 모델을 써봤는데, 이건 지금까지 본 것 중 단연 최고 수준임
-
영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함
유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함
영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음- 모델이 폴란드어는 지원하지 않고 러시아어를 지원한다고 명시돼 있음
13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 파라미터 수나 학습 데이터 요구량이 어떻게 달라질지 궁금함 - 지원 언어 목록에 있는 언어로만 테스트하길 권장함
- 특정 언어에서만 성능이 좋은 건 아쉬움. 공식적으로는 13개 언어만 강력히 지원함
- 폴란드어와 우크라이나어를 섞으면 결과가 러시아어로 나옴. 우크라이나어만 말해도 항상 러시아어로 전사돼서 실망스러움
- 폴란드어는 음운 구조상 키릴 문자로 표기하는 게 더 자연스러운데, 역사적 이유로 그렇지 않음. 이런 점이 AI를 혼란스럽게 하는 듯함
- 모델이 폴란드어는 지원하지 않고 러시아어를 지원한다고 명시돼 있음
-
FLEURS 기준 단어 오류율 4% , 분당 $0.003이라는 수치가 인상적임
Amazon Transcribe는 분당 $0.024라 큰 차이임- 그런데 이 요금이 오디오 분당인지, 컴퓨트 분당인지 궁금함
예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함
- 그런데 이 요금이 오디오 분당인지, 컴퓨트 분당인지 궁금함
-
이 모델은 14개 언어를 이해하는 다국어 모델임
하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 지연 시간만 늘릴 수 있음
앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음
관련 논문은 여기에서 볼 수 있음- 하지만 언어 간 차용어가 많기 때문에 다국어 모델이 오히려 도움이 될 수도 있음
예: “voila”, “el camino real” 같은 표현 - 이 모델은 효율성과 정확도를 동시에 증명한 것 같음
- Azure, Google, Amazon 같은 기존 STT 서비스는 언어를 명시해야 하지만 품질은 여전히 높음
다만 내부적으로는 비슷한 LLM 기반 구조를 쓰는 듯함 - 사람은 한 언어만 쓰지 않음. 코드 스위칭이 자연스러워서 단일 언어 모델은 한계가 있음
- 웃긴 건, 위 댓글에서는 언어를 줄이자고 하는데 다른 댓글들은 언어가 부족하다고 불평함
- 하지만 언어 간 차용어가 많기 때문에 다국어 모델이 오히려 도움이 될 수도 있음
-
성능이 Deepgram nova-3보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음
내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 SOTA 수준임
다만 지연 분포(latency) 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임 -
어떤 하드웨어 리소스가 필요한지 궁금함
고급 NVIDIA GPU 여러 개가 필요한지, 아니면 ESP32 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음 -
이게 Nvidia Parakeet V3보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음
- 나는 Nemotron ASR을 직접 포팅해서 쓰고 있는데 만족스러움
모델 링크와 inference 포트, GGUF 버전 참고 - Parakeet V3를 로컬에서 써봤는데, 체감상 이 모델이 약간 느리지만 정확도는 더 높음
- Parakeet v3를 좋아했지만, 가끔 문장을 통째로 누락하는 문제가 있었음
- Parakeet은 0.6B라 엣지 디바이스에서도 돌아감. Voxtral은 4B라 Orin이나 Hailo에서는 실시간 구동이 어려워 보임
- 나도 같은 질문을 하러 왔음!
- 나는 Nemotron ASR을 직접 포팅해서 쓰고 있는데 만족스러움
-
화자 분리(diarization) 기능이 기본 탑재된 줄 알았는데, 실시간 버전에는 없었음
Voxtral-Mini-4B-Realtime-2602는 약 9GB 모델임- 화자 분리는 Voxtral Mini Transcribe V2 버전에만 포함되어 있음
-
데모를 써봤는데 영어 인식은 훌륭하고, 언어 전환도 실시간으로 감지함
하지만 우크라이나어는 전혀 인식하지 못하고 항상 러시아어로 전사함
다른 STT 모델들은 우크라이나어를 잘 처리하는데, 이건 학습 데이터에 러시아어만 많은 듯해서 아쉬움- 모델이 러시아어만 지원하기 때문에, 입력된 우크라이나어를 가장 가까운 러시아어 단어로 매핑함
-
모델이 좋긴 하지만, 이전 버전은 Parakeet보다 뛰어나지 않았음
Qwen3-ASR 등 최신 모델과의 객관적 비교가 필요함
기업들이 보여주는 선별된 벤치마크는 이제 신뢰하기 어려움
현재로선 내 용도에서는 Parakeet v3가 가장 빠르고 효율적임- Open ASR Leaderboard가 있지만, 반년째 업데이트가 없음
- 나도 Parakeet을 좋아해서 Mac에서는 Handy 앱으로 쓰고 있음.
휴대폰에서는 어떤 앱을 쓰는지 궁금함