영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함
유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함
영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음
모델이 폴란드어는 지원하지 않고 러시아어를 지원한다고 명시돼 있음
13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 파라미터 수나 학습 데이터 요구량이 어떻게 달라질지 궁금함
지원 언어 목록에 있는 언어로만 테스트하길 권장함
특정 언어에서만 성능이 좋은 건 아쉬움. 공식적으로는 13개 언어만 강력히 지원함
폴란드어와 우크라이나어를 섞으면 결과가 러시아어로 나옴. 우크라이나어만 말해도 항상 러시아어로 전사돼서 실망스러움
폴란드어는 음운 구조상 키릴 문자로 표기하는 게 더 자연스러운데, 역사적 이유로 그렇지 않음. 이런 점이 AI를 혼란스럽게 하는 듯함
FLEURS 기준 단어 오류율 4% , 분당 $0.003이라는 수치가 인상적임 Amazon Transcribe는 분당 $0.024라 큰 차이임
그런데 이 요금이 오디오 분당인지, 컴퓨트 분당인지 궁금함
예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함
이 모델은 14개 언어를 이해하는 다국어 모델임
하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 지연 시간만 늘릴 수 있음
앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음
관련 논문은 여기에서 볼 수 있음
하지만 언어 간 차용어가 많기 때문에 다국어 모델이 오히려 도움이 될 수도 있음
예: “voila”, “el camino real” 같은 표현
이 모델은 효율성과 정확도를 동시에 증명한 것 같음
Azure, Google, Amazon 같은 기존 STT 서비스는 언어를 명시해야 하지만 품질은 여전히 높음
다만 내부적으로는 비슷한 LLM 기반 구조를 쓰는 듯함
사람은 한 언어만 쓰지 않음. 코드 스위칭이 자연스러워서 단일 언어 모델은 한계가 있음
웃긴 건, 위 댓글에서는 언어를 줄이자고 하는데 다른 댓글들은 언어가 부족하다고 불평함
성능이 Deepgram nova-3보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음
내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 SOTA 수준임
다만 지연 분포(latency) 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임
어떤 하드웨어 리소스가 필요한지 궁금함
고급 NVIDIA GPU 여러 개가 필요한지, 아니면 ESP32 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음
이게 Nvidia Parakeet V3보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음
Hacker News 의견들
이 데모가 정말 인상적이었음
마이크가 없다고 표시돼도 녹음 버튼을 누르면 브라우저 권한 요청 후 바로 작동함
빠르게 말하고 전문 용어를 섞어도 정확히 받아적음. WebAssembly 철자까지 완벽했음
게다가 오픈 웨이트라니 정말 감사한 일임
두 언어를 동시에 말해봤는데도 정확히 인식함. 진짜 놀라움
영어 인식은 꽤 좋은데, 폴란드어로 말하면 러시아어나 우크라이나어로 인식함
유럽 기반 회사라면 주요 유럽 언어 지원이 더 좋아야 한다고 생각함
영어와 폴란드어를 섞어 말했더니 완전히 혼합된 결과가 나왔음
13개 언어를 지원하는데, 비슷한 어근을 가진 언어들이 많으면 파라미터 수나 학습 데이터 요구량이 어떻게 달라질지 궁금함
FLEURS 기준 단어 오류율 4% , 분당 $0.003이라는 수치가 인상적임
Amazon Transcribe는 분당 $0.024라 큰 차이임
예를 들어 fal.ai의 Whisper API는 “컴퓨트 초당 $0.00125”인데, 10~25배 실시간 속도로 처리돼 훨씬 저렴함
이 모델은 14개 언어를 이해하는 다국어 모델임
하지만 대부분의 사용 사례에서는 한 언어만 필요하므로, 나머지 언어들이 지연 시간만 늘릴 수 있음
앞으로는 이런 범용 모델에서 불필요한 부분을 줄이는 흐름이 생길 것 같음
관련 논문은 여기에서 볼 수 있음
예: “voila”, “el camino real” 같은 표현
다만 내부적으로는 비슷한 LLM 기반 구조를 쓰는 듯함
성능이 Deepgram nova-3보다 경쟁력 있고, Assembly나 ElevenLabs보다 대부분의 경우 더 좋았음
내부 테스트에서는 영국식 억양이 강한 8kHz 통화 데이터셋으로 평가했는데, 사실상 SOTA 수준임
다만 지연 분포(latency) 가 다소 불안정했음. 로컬 실행 시 개선될 것으로 보임
어떤 하드웨어 리소스가 필요한지 궁금함
고급 NVIDIA GPU 여러 개가 필요한지, 아니면 ESP32 같은 저전력 기기에서도 오프라인으로 가능한지 명시가 없었음
이게 Nvidia Parakeet V3보다 나은지 궁금함. 지금까지는 그 모델이 내 로컬 기준 최고였음
모델 링크와 inference 포트, GGUF 버전 참고
화자 분리(diarization) 기능이 기본 탑재된 줄 알았는데, 실시간 버전에는 없었음
Voxtral-Mini-4B-Realtime-2602는 약 9GB 모델임
데모를 써봤는데 영어 인식은 훌륭하고, 언어 전환도 실시간으로 감지함
하지만 우크라이나어는 전혀 인식하지 못하고 항상 러시아어로 전사함
다른 STT 모델들은 우크라이나어를 잘 처리하는데, 이건 학습 데이터에 러시아어만 많은 듯해서 아쉬움
모델이 좋긴 하지만, 이전 버전은 Parakeet보다 뛰어나지 않았음
Qwen3-ASR 등 최신 모델과의 객관적 비교가 필요함
기업들이 보여주는 선별된 벤치마크는 이제 신뢰하기 어려움
현재로선 내 용도에서는 Parakeet v3가 가장 빠르고 효율적임
휴대폰에서는 어떤 앱을 쓰는지 궁금함