Hacker News 의견들
  • 데모가 정말 인상적이었음
    마이크가 없다고 표시돼도 녹음 버튼을 누르면 브라우저 권한 요청 후 바로 작동함
    빠르게 말하고 전문 용어를 섞어도 정확히 받아적음. WebAssembly 철자까지 완벽했음

    • 지난 3년간 거의 모든 음성 모델을 써봤는데, 이건 지금까지 본 것 중 단연 최고 수준임
      게다가 오픈 웨이트라니 정말 감사한 일임
    • 링크 고마움. Mistral의 기본 playground는 파일 업로드만 돼서 속도와 정확도를 체감하기 어려웠는데, 이 링크는 실시간 성능을 제대로 보여줌
      두 언어를 동시에 말해봤는데도 정확히 인식함. 진짜 놀라움
    • 내 환경에서는 작동하지 않았음. Firefox와 Chromium 모두에서 파형은 보이지만 “Awaiting audio input”만 표시됨
    • 이 API 링크가 404 오류를 냄. UI 오른쪽 상단에 빨간 에러로 표시됨
    • Eminem의 빠른 랩 구간도 실시간으로 받아적을 정도로 속도가 놀라움
  • 영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함
    유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함
    영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음

    • 모델이 폴란드어는 지원하지 않고 러시아어를 지원한다고 명시돼 있음
      13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 파라미터 수나 학습 데이터 요구량이 어떻게 달라질지 궁금함
    • 지원 언어 목록에 있는 언어로만 테스트하길 권장함
    • 특정 언어에서만 성능이 좋은 건 아쉬움. 공식적으로는 13개 언어만 강력히 지원함
    • 폴란드어와 우크라이나어를 섞으면 결과가 러시아어로 나옴. 우크라이나어만 말해도 항상 러시아어로 전사돼서 실망스러움
    • 폴란드어는 음운 구조상 키릴 문자로 표기하는 게 더 자연스러운데, 역사적 이유로 그렇지 않음. 이런 점이 AI를 혼란스럽게 하는 듯함
  • FLEURS 기준 단어 오류율 4% , 분당 $0.003이라는 수치가 인상적임
    Amazon Transcribe는 분당 $0.024라 큰 차이임

    • 그런데 이 요금이 오디오 분당인지, 컴퓨트 분당인지 궁금함
      예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함
  • 이 모델은 14개 언어를 이해하는 다국어 모델임
    하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 지연 시간만 늘릴 수 있음
    앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음
    관련 논문은 여기에서 볼 수 있음

    • 하지만 언어 간 차용어가 많기 때문에 다국어 모델이 오히려 도움이 될 수도 있음
      예: “voila”, “el camino real” 같은 표현
    • 이 모델은 효율성과 정확도를 동시에 증명한 것 같음
    • Azure, Google, Amazon 같은 기존 STT 서비스는 언어를 명시해야 하지만 품질은 여전히 높음
      다만 내부적으로는 비슷한 LLM 기반 구조를 쓰는 듯함
    • 사람은 한 언어만 쓰지 않음. 코드 스위칭이 자연스러워서 단일 언어 모델은 한계가 있음
    • 웃긴 건, 위 댓글에서는 언어를 줄이자고 하는데 다른 댓글들은 언어가 부족하다고 불평함
  • 성능이 Deepgram nova-3보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음
    내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 SOTA 수준임
    다만 지연 분포(latency) 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임

  • 어떤 하드웨어 리소스가 필요한지 궁금함
    고급 NVIDIA GPU 여러 개가 필요한지, 아니면 ESP32 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음

  • 이게 Nvidia Parakeet V3보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음

    • 나는 Nemotron ASR을 직접 포팅해서 쓰고 있는데 만족스러움
      모델 링크inference 포트, GGUF 버전 참고
    • Parakeet V3를 로컬에서 써봤는데, 체감상 이 모델이 약간 느리지만 정확도는 더 높음
    • Parakeet v3를 좋아했지만, 가끔 문장을 통째로 누락하는 문제가 있었음
    • Parakeet은 0.6B라 엣지 디바이스에서도 돌아감. Voxtral은 4B라 Orin이나 Hailo에서는 실시간 구동이 어려워 보임
    • 나도 같은 질문을 하러 왔음!
  • 화자 분리(diarization) 기능이 기본 탑재된 줄 알았는데, 실시간 버전에는 없었음
    Voxtral-Mini-4B-Realtime-2602는 약 9GB 모델임

    • 화자 분리는 Voxtral Mini Transcribe V2 버전에만 포함되어 있음
  • 데모를 써봤는데 영어 인식은 훌륭하고, 언어 전환도 실시간으로 감지함
    하지만 우크라이나어는 전혀 인식하지 못하고 항상 러시아어로 전사함
    다른 STT 모델들은 우크라이나어를 잘 처리하는데, 이건 학습 데이터에 러시아어만 많은 듯해서 아쉬움

    • 모델이 러시아어만 지원하기 때문에, 입력된 우크라이나어를 가장 가까운 러시아어 단어로 매핑함
  • 모델이 좋긴 하지만, 이전 버전은 Parakeet보다 뛰어나지 않았음
    Qwen3-ASR 등 최신 모델과의 객관적 비교가 필요함
    기업들이 보여주는 선별된 벤치마크는 이제 신뢰하기 어려움
    현재로선 내 용도에서는 Parakeet v3가 가장 빠르고 효율적임

    • Open ASR Leaderboard가 있지만, 반년째 업데이트가 없음
    • 나도 Parakeet을 좋아해서 Mac에서는 Handy 앱으로 쓰고 있음.
      휴대폰에서는 어떤 앱을 쓰는지 궁금함