# Voxtral Transcribe 2 모델 공개

> Clean Markdown view of GeekNews topic #26406. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26406](https://news.hada.io/topic?id=26406)
- GeekNews Markdown: [https://news.hada.io/topic/26406.md](https://news.hada.io/topic/26406.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-05T09:41:32+09:00
- Updated: 2026-02-05T09:41:32+09:00
- Original source: [mistral.ai](https://mistral.ai/news/voxtral-transcribe-2)
- Points: 13
- Comments: 1

## Summary

**Voxtral Transcribe 2**는 초저지연 **실시간 음성 인식**과 정밀한 **화자 분리**를 결합한 차세대 음성‑텍스트 변환 모델입니다. 실시간용 **Voxtral Realtime**은 200ms 이하 지연으로 스트리밍 전사를 수행하며 **Apache 2.0 오픈 웨이트**로 공개되어 엣지 배포가 가능합니다. 배치 처리용 **Mini Transcribe V2**는 한국어를 포함한 13개 언어를 지원하고, 단어 단위 타임스탬프와 컨텍스트 바이어싱 등 엔터프라이즈 기능을 제공합니다. 두 모델 모두 GDPR·HIPAA 준수를 지원해, 음성 기반 애플리케이션의 정확도와 비용 효율을 동시에 높입니다.

## Topic Body

- 초저지연 **실시간 음성 인식**과 **고정밀 화자 분리** 기능을 갖춘 **차세대 음성-텍스트 변환 모델**  
- 두 가지 모델로 구성되며, **Voxtral Mini Transcribe V2**는 배치 처리용, **Voxtral Realtime**은 실시간 응용을 위한 구조  
- Realtime 모델은 **200ms 이하 지연**으로 음성을 스트리밍 방식으로 처리하며, **Apache 2.0 오픈 웨이트**로 공개  
- Mini Transcribe V2는 한국어 포함 **13개 언어 지원**, **단어 단위 타임스탬프**, **컨텍스트 바이어싱**, **화자 분리** 등 엔터프라이즈 기능 제공  
- 두 모델 모두 **GDPR·HIPAA 준수 배포**를 지원하며, 음성 기반 애플리케이션의 **정확도·속도·비용 효율성**을 크게 향상  
  
---  
  
### Voxtral Transcribe 2 개요  
- Voxtral Transcribe 2는 **최신 음성 인식 품질**, **정밀 화자 분리(diarization)** , **초저지연 처리**를 특징으로 하는 두 개의 모델로 구성  
  - Voxtral Mini Transcribe V2: 배치 전사용  
  - Voxtral Realtime: 실시간 응용용  
- Realtime 모델은 **Apache 2.0 라이선스**로 공개되어 엣지 환경에서도 배포 가능  
- Mistral Studio 내 **오디오 플레이그라운드**를 통해 즉시 전사 테스트 가능  
  
### 주요 기능 요약  
- **Voxtral Mini Transcribe V2**: 13개 언어 지원, 화자 분리, 컨텍스트 바이어싱, 단어 단위 타임스탬프 제공  
- **Voxtral Realtime**: 200ms 이하 지연으로 실시간 전사 가능, 음성 에이전트 및 실시간 응용에 적합  
- **효율성**: 업계 최저 단가로 최고 수준의 정확도 제공  
- **오픈 웨이트**: Realtime 모델은 Apache 2.0 하에 공개되어 프라이버시 중심 배포 가능  
  
### Voxtral Realtime  
- **지연(latency)** 이 중요한 응용을 위해 설계된 모델로, 오디오를 청크 단위로 처리하지 않고 **스트리밍 아키텍처**로 실시간 전사 수행  
- **200ms 이하 지연** 설정 가능, **2.4초 지연 시 배치 모델과 동일한 정확도**, **480ms 지연 시 1~2% 오차율** 유지  
- **13개 언어**(영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어) 지원  
- **4B 파라미터 규모**로 엣지 디바이스에서도 효율적으로 동작하며, **보안·프라이버시 보장**  
- 모델 웨이트는 **Hugging Face Hub**에 공개  
  
### Voxtral Mini Transcribe V2  
- **전사 및 화자 분리 품질**이 언어와 도메인 전반에서 크게 향상  
- **FLEURS 벤치마크 기준 약 4% 단어 오류율**, **$0.003/분**의 비용으로 최고 수준의 **가격 대비 성능** 제공  
- **GPT-4o mini Transcribe**, **Gemini 2.5 Flash**, **Assembly Universal**, **Deepgram Nova**보다 정확도가 높고, **ElevenLabs Scribe v2**보다 3배 빠르며 비용은 1/5 수준  
  
#### 엔터프라이즈 기능  
- **화자 분리(Speaker diarization)** : 발화자 구분 및 시작/종료 시점 표시, 회의·인터뷰·다자 통화에 적합  
- **컨텍스트 바이어싱(Context biasing)** : 최대 100개 단어·구문 지정 가능, 고유명사·전문용어 인식 향상 (영어 최적화, 타 언어는 실험적)  
- **단어 단위 타임스탬프**: 자막 생성, 오디오 검색, 콘텐츠 정렬에 활용  
- **확장된 언어 지원**: 13개 언어 지원, 비영어권에서도 경쟁 모델 대비 우수 성능  
- **소음 내성**: 공장, 콜센터 등 소음 환경에서도 정확도 유지  
- **장시간 오디오 처리**: 최대 3시간 녹음 파일 단일 요청 처리 가능  
  
### 오디오 플레이그라운드  
- **Mistral Studio**에서 Voxtral Transcribe 2를 직접 테스트 가능  
- 최대 10개의 오디오 파일 업로드, 화자 분리·타임스탬프 단위·컨텍스트 바이어싱 설정 지원  
- 지원 포맷: **.mp3, .wav, .m4a, .flac, .ogg**, 파일당 최대 1GB  
  
### 다양한 활용 사례  
- **회의 인텔리전스**: 다국어 회의 전사 및 화자 구분으로 대규모 회의 데이터 분석 가능  
- **음성 에이전트·가상 비서**: 200ms 이하 지연으로 자연스러운 대화형 인터페이스 구현  
- **컨택센터 자동화**: 실시간 통화 전사로 감정 분석, 응답 제안, CRM 자동 입력 지원  
- **미디어·방송**: 실시간 다국어 자막 생성, 고유명사·전문용어 인식 강화  
- **규제 준수·문서화**: 화자별 타임스탬프 기반 감사 추적 가능  
  
* 두 모델 모두 **GDPR 및 HIPAA 준수 배포**를 지원하며, **온프레미스 또는 프라이빗 클라우드** 환경에서 안전하게 운영 가능  
  
### 이용 및 가격  
- **Voxtral Mini Transcribe V2**: API 이용 시 **$0.003/분**, Mistral Studio 또는 Le Chat에서 사용 가능  
- **Voxtral Realtime**: API 이용 시 **$0.006/분**, **Hugging Face**에서 오픈 웨이트 제공  
- Mistral의 **오디오·전사 기능 문서**를 통해 추가 정보 확인 가능

## Comments


### Comment 50641

- Author: neo
- Created: 2026-02-05T09:41:32+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46886735) 
- 이 [데모](https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtime)가 정말 인상적이었음  
  마이크가 없다고 표시돼도 녹음 버튼을 누르면 브라우저 권한 요청 후 바로 작동함  
  빠르게 말하고 **전문 용어**를 섞어도 정확히 받아적음. WebAssembly 철자까지 완벽했음
  - 지난 3년간 거의 모든 **음성 모델**을 써봤는데, 이건 지금까지 본 것 중 단연 최고 수준임  
    게다가 **오픈 웨이트**라니 정말 감사한 일임
  - 링크 고마움. Mistral의 기본 playground는 파일 업로드만 돼서 속도와 정확도를 체감하기 어려웠는데, 이 링크는 실시간 성능을 제대로 보여줌  
    두 언어를 동시에 말해봤는데도 정확히 인식함. 진짜 놀라움
  - 내 환경에서는 작동하지 않았음. Firefox와 Chromium 모두에서 파형은 보이지만 “Awaiting audio input”만 표시됨
  - [이 API 링크](https://mistralai-voxtral-mini-realtime.hf.space/gradio_api/stream/)가 404 오류를 냄. UI 오른쪽 상단에 빨간 에러로 표시됨
  - **Eminem의 빠른 랩 구간**도 실시간으로 받아적을 정도로 속도가 놀라움

- 영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함  
  유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함  
  영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음
  - 모델이 폴란드어는 지원하지 않고 **러시아어**를 지원한다고 명시돼 있음  
    13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 **파라미터 수**나 학습 데이터 요구량이 어떻게 달라질지 궁금함
  - 지원 언어 목록에 있는 언어로만 테스트하길 권장함
  - 특정 언어에서만 성능이 좋은 건 아쉬움. 공식적으로는 13개 언어만 강력히 지원함
  - 폴란드어와 우크라이나어를 섞으면 결과가 러시아어로 나옴. 우크라이나어만 말해도 항상 러시아어로 전사돼서 실망스러움
  - 폴란드어는 음운 구조상 **키릴 문자**로 표기하는 게 더 자연스러운데, 역사적 이유로 그렇지 않음. 이런 점이 AI를 혼란스럽게 하는 듯함

- FLEURS 기준 **단어 오류율 4%** , 분당 $0.003이라는 수치가 인상적임  
  [Amazon Transcribe](https://aws.amazon.com/transcribe/pricing/)는 분당 $0.024라 큰 차이임
  - 그런데 이 요금이 오디오 분당인지, **컴퓨트 분당**인지 궁금함  
    예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함

- 이 모델은 **14개 언어**를 이해하는 다국어 모델임  
  하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 **지연 시간**만 늘릴 수 있음  
  앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음  
  관련 논문은 [여기](https://aclanthology.org/2025.findings-acl.87/)에서 볼 수 있음
  - 하지만 언어 간 차용어가 많기 때문에 **다국어 모델**이 오히려 도움이 될 수도 있음  
    예: “voila”, “el camino real” 같은 표현
  - 이 모델은 효율성과 정확도를 동시에 증명한 것 같음
  - Azure, Google, Amazon 같은 기존 STT 서비스는 언어를 명시해야 하지만 품질은 여전히 높음  
    다만 내부적으로는 비슷한 **LLM 기반 구조**를 쓰는 듯함
  - 사람은 한 언어만 쓰지 않음. **코드 스위칭**이 자연스러워서 단일 언어 모델은 한계가 있음
  - 웃긴 건, 위 댓글에서는 언어를 줄이자고 하는데 다른 댓글들은 언어가 부족하다고 불평함

- 성능이 **Deepgram nova-3**보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음  
  내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 **SOTA** 수준임  
  다만 **지연 분포(latency)** 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임

- 어떤 **하드웨어 리소스**가 필요한지 궁금함  
  고급 NVIDIA GPU 여러 개가 필요한지, 아니면 **ESP32** 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음

- 이게 **Nvidia Parakeet V3**보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음
  - 나는 **Nemotron ASR**을 직접 포팅해서 쓰고 있는데 만족스러움  
    [모델 링크](https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b)와 [inference 포트](https://github.com/m1el/nemotron-asr.cpp), [GGUF 버전](https://huggingface.co/m1el/nemotron-speech-streaming-0.6B-gguf) 참고
  - Parakeet V3를 로컬에서 써봤는데, 체감상 이 모델이 약간 느리지만 **정확도**는 더 높음
  - Parakeet v3를 좋아했지만, 가끔 문장을 통째로 누락하는 문제가 있었음
  - Parakeet은 0.6B라 **엣지 디바이스**에서도 돌아감. Voxtral은 4B라 Orin이나 Hailo에서는 실시간 구동이 어려워 보임
  - 나도 같은 질문을 하러 왔음!

- **화자 분리(diarization)** 기능이 기본 탑재된 줄 알았는데, 실시간 버전에는 없었음  
  [Voxtral-Mini-4B-Realtime-2602](https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602)는 약 9GB 모델임
  - 화자 분리는 **Voxtral Mini Transcribe V2** 버전에만 포함되어 있음

- 데모를 써봤는데 영어 인식은 훌륭하고, 언어 전환도 실시간으로 감지함  
  하지만 **우크라이나어**는 전혀 인식하지 못하고 항상 러시아어로 전사함  
  다른 STT 모델들은 우크라이나어를 잘 처리하는데, 이건 학습 데이터에 러시아어만 많은 듯해서 아쉬움
  - 모델이 러시아어만 지원하기 때문에, 입력된 우크라이나어를 가장 가까운 러시아어 단어로 매핑함

- 모델이 좋긴 하지만, 이전 버전은 Parakeet보다 뛰어나지 않았음  
  **Qwen3-ASR** 등 최신 모델과의 객관적 비교가 필요함  
  기업들이 보여주는 **선별된 벤치마크**는 이제 신뢰하기 어려움  
  현재로선 내 용도에서는 Parakeet v3가 가장 빠르고 효율적임
  - [Open ASR Leaderboard](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)가 있지만, 반년째 업데이트가 없음
  - 나도 Parakeet을 좋아해서 Mac에서는 Handy 앱으로 쓰고 있음.  
    휴대폰에서는 어떤 앱을 쓰는지 궁금함