3P by GN⁺ 6시간전 | ★ favorite | 댓글 1개
  • 초저지연 실시간 음성 인식고정밀 화자 분리 기능을 갖춘 차세대 음성-텍스트 변환 모델
  • 두 가지 모델로 구성되며, Voxtral Mini Transcribe V2는 배치 처리용, Voxtral Realtime은 실시간 응용을 위한 구조
  • Realtime 모델은 200ms 이하 지연으로 음성을 스트리밍 방식으로 처리하며, Apache 2.0 오픈 웨이트로 공개
  • Mini Transcribe V2는 한국어 포함 13개 언어 지원, 단어 단위 타임스탬프, 컨텍스트 바이어싱, 화자 분리 등 엔터프라이즈 기능 제공
  • 두 모델 모두 GDPR·HIPAA 준수 배포를 지원하며, 음성 기반 애플리케이션의 정확도·속도·비용 효율성을 크게 향상

Voxtral Transcribe 2 개요

  • Voxtral Transcribe 2는 최신 음성 인식 품질, 정밀 화자 분리(diarization) , 초저지연 처리를 특징으로 하는 두 개의 모델로 구성
    • Voxtral Mini Transcribe V2: 배치 전사용
    • Voxtral Realtime: 실시간 응용용
  • Realtime 모델은 Apache 2.0 라이선스로 공개되어 엣지 환경에서도 배포 가능
  • Mistral Studio 내 오디오 플레이그라운드를 통해 즉시 전사 테스트 가능

주요 기능 요약

  • Voxtral Mini Transcribe V2: 13개 언어 지원, 화자 분리, 컨텍스트 바이어싱, 단어 단위 타임스탬프 제공
  • Voxtral Realtime: 200ms 이하 지연으로 실시간 전사 가능, 음성 에이전트 및 실시간 응용에 적합
  • 효율성: 업계 최저 단가로 최고 수준의 정확도 제공
  • 오픈 웨이트: Realtime 모델은 Apache 2.0 하에 공개되어 프라이버시 중심 배포 가능

Voxtral Realtime

  • 지연(latency) 이 중요한 응용을 위해 설계된 모델로, 오디오를 청크 단위로 처리하지 않고 스트리밍 아키텍처로 실시간 전사 수행
  • 200ms 이하 지연 설정 가능, 2.4초 지연 시 배치 모델과 동일한 정확도, 480ms 지연 시 1~2% 오차율 유지
  • 13개 언어(영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어) 지원
  • 4B 파라미터 규모로 엣지 디바이스에서도 효율적으로 동작하며, 보안·프라이버시 보장
  • 모델 웨이트는 Hugging Face Hub에 공개

Voxtral Mini Transcribe V2

  • 전사 및 화자 분리 품질이 언어와 도메인 전반에서 크게 향상
  • FLEURS 벤치마크 기준 약 4% 단어 오류율, $0.003/분의 비용으로 최고 수준의 가격 대비 성능 제공
  • GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 정확도가 높고, ElevenLabs Scribe v2보다 3배 빠르며 비용은 1/5 수준

엔터프라이즈 기능

  • 화자 분리(Speaker diarization) : 발화자 구분 및 시작/종료 시점 표시, 회의·인터뷰·다자 통화에 적합
  • 컨텍스트 바이어싱(Context biasing) : 최대 100개 단어·구문 지정 가능, 고유명사·전문용어 인식 향상 (영어 최적화, 타 언어는 실험적)
  • 단어 단위 타임스탬프: 자막 생성, 오디오 검색, 콘텐츠 정렬에 활용
  • 확장된 언어 지원: 13개 언어 지원, 비영어권에서도 경쟁 모델 대비 우수 성능
  • 소음 내성: 공장, 콜센터 등 소음 환경에서도 정확도 유지
  • 장시간 오디오 처리: 최대 3시간 녹음 파일 단일 요청 처리 가능

오디오 플레이그라운드

  • Mistral Studio에서 Voxtral Transcribe 2를 직접 테스트 가능
  • 최대 10개의 오디오 파일 업로드, 화자 분리·타임스탬프 단위·컨텍스트 바이어싱 설정 지원
  • 지원 포맷: .mp3, .wav, .m4a, .flac, .ogg, 파일당 최대 1GB

다양한 활용 사례

  • 회의 인텔리전스: 다국어 회의 전사 및 화자 구분으로 대규모 회의 데이터 분석 가능
  • 음성 에이전트·가상 비서: 200ms 이하 지연으로 자연스러운 대화형 인터페이스 구현
  • 컨택센터 자동화: 실시간 통화 전사로 감정 분석, 응답 제안, CRM 자동 입력 지원
  • 미디어·방송: 실시간 다국어 자막 생성, 고유명사·전문용어 인식 강화
  • 규제 준수·문서화: 화자별 타임스탬프 기반 감사 추적 가능
  • 두 모델 모두 GDPR 및 HIPAA 준수 배포를 지원하며, 온프레미스 또는 프라이빗 클라우드 환경에서 안전하게 운영 가능

이용 및 가격

  • Voxtral Mini Transcribe V2: API 이용 시 $0.003/분, Mistral Studio 또는 Le Chat에서 사용 가능
  • Voxtral Realtime: API 이용 시 $0.006/분, Hugging Face에서 오픈 웨이트 제공
  • Mistral의 오디오·전사 기능 문서를 통해 추가 정보 확인 가능
Hacker News 의견들
  • 데모가 정말 인상적이었음
    마이크가 없다고 표시돼도 녹음 버튼을 누르면 브라우저 권한 요청 후 바로 작동함
    빠르게 말하고 전문 용어를 섞어도 정확히 받아적음. WebAssembly 철자까지 완벽했음

    • 지난 3년간 거의 모든 음성 모델을 써봤는데, 이건 지금까지 본 것 중 단연 최고 수준임
      게다가 오픈 웨이트라니 정말 감사한 일임
    • 링크 고마움. Mistral의 기본 playground는 파일 업로드만 돼서 속도와 정확도를 체감하기 어려웠는데, 이 링크는 실시간 성능을 제대로 보여줌
      두 언어를 동시에 말해봤는데도 정확히 인식함. 진짜 놀라움
    • 내 환경에서는 작동하지 않았음. Firefox와 Chromium 모두에서 파형은 보이지만 “Awaiting audio input”만 표시됨
    • 이 API 링크가 404 오류를 냄. UI 오른쪽 상단에 빨간 에러로 표시됨
    • Eminem의 빠른 랩 구간도 실시간으로 받아적을 정도로 속도가 놀라움
  • 영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함
    유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함
    영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음

    • 모델이 폴란드어는 지원하지 않고 러시아어를 지원한다고 명시돼 있음
      13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 파라미터 수나 학습 데이터 요구량이 어떻게 달라질지 궁금함
    • 지원 언어 목록에 있는 언어로만 테스트하길 권장함
    • 특정 언어에서만 성능이 좋은 건 아쉬움. 공식적으로는 13개 언어만 강력히 지원함
    • 폴란드어와 우크라이나어를 섞으면 결과가 러시아어로 나옴. 우크라이나어만 말해도 항상 러시아어로 전사돼서 실망스러움
    • 폴란드어는 음운 구조상 키릴 문자로 표기하는 게 더 자연스러운데, 역사적 이유로 그렇지 않음. 이런 점이 AI를 혼란스럽게 하는 듯함
  • FLEURS 기준 단어 오류율 4% , 분당 $0.003이라는 수치가 인상적임
    Amazon Transcribe는 분당 $0.024라 큰 차이임

    • 그런데 이 요금이 오디오 분당인지, 컴퓨트 분당인지 궁금함
      예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함
  • 이 모델은 14개 언어를 이해하는 다국어 모델임
    하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 지연 시간만 늘릴 수 있음
    앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음
    관련 논문은 여기에서 볼 수 있음

    • 하지만 언어 간 차용어가 많기 때문에 다국어 모델이 오히려 도움이 될 수도 있음
      예: “voila”, “el camino real” 같은 표현
    • 이 모델은 효율성과 정확도를 동시에 증명한 것 같음
    • Azure, Google, Amazon 같은 기존 STT 서비스는 언어를 명시해야 하지만 품질은 여전히 높음
      다만 내부적으로는 비슷한 LLM 기반 구조를 쓰는 듯함
    • 사람은 한 언어만 쓰지 않음. 코드 스위칭이 자연스러워서 단일 언어 모델은 한계가 있음
    • 웃긴 건, 위 댓글에서는 언어를 줄이자고 하는데 다른 댓글들은 언어가 부족하다고 불평함
  • 성능이 Deepgram nova-3보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음
    내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 SOTA 수준임
    다만 지연 분포(latency) 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임

  • 어떤 하드웨어 리소스가 필요한지 궁금함
    고급 NVIDIA GPU 여러 개가 필요한지, 아니면 ESP32 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음

  • 이게 Nvidia Parakeet V3보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음

    • 나는 Nemotron ASR을 직접 포팅해서 쓰고 있는데 만족스러움
      모델 링크inference 포트, GGUF 버전 참고
    • Parakeet V3를 로컬에서 써봤는데, 체감상 이 모델이 약간 느리지만 정확도는 더 높음
    • Parakeet v3를 좋아했지만, 가끔 문장을 통째로 누락하는 문제가 있었음
    • Parakeet은 0.6B라 엣지 디바이스에서도 돌아감. Voxtral은 4B라 Orin이나 Hailo에서는 실시간 구동이 어려워 보임
    • 나도 같은 질문을 하러 왔음!
  • 화자 분리(diarization) 기능이 기본 탑재된 줄 알았는데, 실시간 버전에는 없었음
    Voxtral-Mini-4B-Realtime-2602는 약 9GB 모델임

    • 화자 분리는 Voxtral Mini Transcribe V2 버전에만 포함되어 있음
  • 데모를 써봤는데 영어 인식은 훌륭하고, 언어 전환도 실시간으로 감지함
    하지만 우크라이나어는 전혀 인식하지 못하고 항상 러시아어로 전사함
    다른 STT 모델들은 우크라이나어를 잘 처리하는데, 이건 학습 데이터에 러시아어만 많은 듯해서 아쉬움

    • 모델이 러시아어만 지원하기 때문에, 입력된 우크라이나어를 가장 가까운 러시아어 단어로 매핑함
  • 모델이 좋긴 하지만, 이전 버전은 Parakeet보다 뛰어나지 않았음
    Qwen3-ASR 등 최신 모델과의 객관적 비교가 필요함
    기업들이 보여주는 선별된 벤치마크는 이제 신뢰하기 어려움
    현재로선 내 용도에서는 Parakeet v3가 가장 빠르고 효율적임

    • Open ASR Leaderboard가 있지만, 반년째 업데이트가 없음
    • 나도 Parakeet을 좋아해서 Mac에서는 Handy 앱으로 쓰고 있음.
      휴대폰에서는 어떤 앱을 쓰는지 궁금함