# Cohere Transcribe - SOTA 오픈소스 음성 인식 모델

> Clean Markdown view of GeekNews topic #28165. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28165](https://news.hada.io/topic?id=28165)
- GeekNews Markdown: [https://news.hada.io/topic/28165.md](https://news.hada.io/topic/28165.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-03T18:38:30+09:00
- Updated: 2026-04-03T18:38:30+09:00
- Original source: [cohere.com](https://cohere.com/blog/transcribe)
- Points: 3
- Comments: 2

## Topic Body

- 영어,한국어,중국어 등 14개 언어를 지원하는 **2B(20억)** 파라미터 규모의 **최신 자동 음성 인식(ASR)** 모델  
- **Conformer 기반 인코더-디코더 구조**를 사용하며, **Apache 2.0 라이선스**로 배포됨  
- 영어 기준 **평균 단어 오류율(WER) 5.42%** 로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, **Hugging Face Open ASR Leaderboard 1위**를 기록  
- **실제 환경 평가와 인간 평가** 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지  
- **낮은 지연과 높은 처리 효율**을 동시에 달성해 실시간 제품과 워크플로우에 적합  
  
---  
  
### Cohere Transcribe 개요  
- 음성은 회의 기록, 음성 분석, 실시간 고객 지원 등 **AI 기반 업무 자동화의 핵심 입력 형태**로 부상 중  
- 이 모델은 **단어 오류율(WER)** 최소화를 목표로 처음부터 새로 훈련되었으며, 연구용이 아닌 **실제 서비스 환경에서의 사용**을 염두에 둔 설계  
- **GPU 및 로컬 환경에서도 효율적으로 추론 가능**하며, Cohere의 관리형 추론 플랫폼 **Model Vault**에서도 이용 가능  
- Hugging Face의 **Open ASR Leaderboard에서 정확도 1위**를 기록하며, 실제 환경 전사 성능의 새로운 기준 제시  
  
### 모델 구조  
- 모델명은 **cohere-transcribe-03-2026**, **Conformer 기반 인코더-디코더 구조** 사용  
  - 입력은 **오디오 파형을 log-Mel 스펙트로그램으로 변환**, 출력은 전사된 텍스트  
  - **2B(20억)** 파라미터 규모의 대형 Conformer 인코더가 음향 표현을 추출하고, 경량 Transformer 디코더가 토큰을 생성  
- **표준 교차 엔트로피 손실**을 사용해 처음부터 감독 학습으로 훈련  
- ## 14개 언어 지원  
  - 유럽: 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어  
  - 아시아·태평양: 중국어(표준어), 일본어, 한국어, 베트남어  
  - 중동·북아프리카: 아랍어  
  - **Apache 2.0 라이선스**로 공개  
  
### 모델 성능  
- **영어 음성 인식 정확도에서 최신 표준 달성**, 평균 WER 5.42%로 공개·비공개 ASR 모델 중 최고 성능  
  - Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B 등 주요 경쟁 모델을 능가  
- 다양한 실제 환경(다중 화자, 회의실 음향, 다양한 억양)에서도 강인한 성능 유지  
- 주요 벤치마크 결과  
  - AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87  
  - 평균 WER 5.42로 Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)보다 우수  
- **Hugging Face Open ASR Leaderboard**는 여러 데이터셋에서 표준화된 WER로 평가하며, 낮은 WER이 높은 전사 정확도를 의미  
  
### 인간 평가 결과  
- **벤치마크 외 실제 환경 평가에서도 동일한 우수 성능** 확인  
  - 숙련된 평가자가 실제 오디오 전사 결과를 **정확성, 일관성, 사용성** 기준으로 평가  
  - 자동 평가와 인간 평가 모두에서 일관된 우수 성능을 보임  
- **영어 전사 품질 비교 평가**에서 의미 보존, 환각(hallucination) 방지, 고유명사 인식, 서식 정확성 등에서 높은 선호도 획득  
- **지원 언어별 인간 평가**에서도 50% 이상 선호 비율을 기록, 다국어 환경에서도 안정적 성능 입증  
  
### 처리 속도 및 효율성  
- 실제 서비스 환경에서는 **지연(latency)** 과 **처리량(throughput)** 이 핵심 제약  
  - 정확도가 높더라도 느리거나 자원 소모가 크면 사용자 경험과 비용에 직접 영향  
- Cohere Transcribe는 **1B+ 파라미터 모델군 중 최고 수준의 처리 효율**을 유지하며, **낮은 WER과 높은 RTFx(실시간 처리 배수)** 를 동시에 달성  
- **RTFx**는 오디오 입력을 실시간 대비 얼마나 빠르게 처리하는지를 나타내는 지표로, Transcribe는 정확도와 속도 모두에서 Pareto 최적선 확장  
- ## Radical Ventures의 평가  
  - Radical Ventures 부사장 **Paige Dickie**는 Transcribe의 속도와 품질을 높이 평가  
  - “몇 분짜리 오디오를 몇 초 만에 전사하며, 실시간 제품과 워크플로우의 새로운 가능성을 열었다”고 언급  
  - 일상적 음성에서도 강력하고 신뢰할 수 있는 전사 품질을 제공하며, 사용 경험이 원활했다고 평가  
  
### 향후 발전 방향  
- Cohere는 Transcribe를 **AI 에이전트 오케스트레이션 플랫폼 North**와 통합 예정  
  - 향후 Transcribe는 단순 전사 모델을 넘어 **기업용 음성 인텔리전스 기반**으로 확장될 계획  
  
### 사용 및 배포  
- **Hugging Face**에서 모델 다운로드 가능하며, 로컬 또는 엣지 환경에서도 실행 가능  
- **Cohere API**를 통해 무료로 실험 가능하나, 요청 제한(rate limit) 존재  
  - 사용법과 통합 가이드는 공식 문서에서 제공  
- **Model Vault**를 이용하면 인프라 관리 없이 **저지연·프라이빗 클라우드 추론** 가능  
  - 시간 단위 인스턴스 요금제 적용, 장기 이용 시 할인 제공  
  - 기업용 배포 문의는 Cohere 영업팀을 통해 가능

## Comments


### Comment 54593

- Author: j2sus91
- Created: 2026-04-03T19:24:26+09:00
- Points: 1

오픈소스는 아니고 유료 서비스인건가요?

### Comment 54588

- Author: neo
- Created: 2026-04-03T18:38:30+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47589818) 
- 나는 **ASR(자동 음성 인식)** 이 결국 **OCR**처럼 될까 걱정임  
  멀티모달 대형 AI가 충분히 빠르고 문맥 이해력이 깊다면, 기존 기술들을 다 흡수해버릴 것 같음  
  OCR에서도 문자가 흐릿하게 스캔돼도 AI가 문서의 의미를 추론해서 “주문 ID는 보통 주문 날짜 아래에 있다” 같은 패턴으로 알아내는 식임  
  ASR도 이런 식으로 문맥 기반으로 ‘추측’하게 되면, 실제 음성을 왜곡할 위험이 있음
  - 이건 좋은 점과 나쁜 점이 공존함  
    좋은 ASR은 내가 못 알아듣는 **잡음 섞인 음성**도 이해하지만, 가끔 너무 교정해서 드문 단어를 흔한 단어로 바꿔버림  
    OCR에서도 [Xerox 사건](https://www.dkriesel.com/en/blog/2013/0802_xerox-workcentres...)처럼 그럴듯하지만 틀린 데이터가 생길 수 있음  
    그래서 나는 OCR을 **검색용**으로만 쓰고, 원본 스캔은 항상 보관함
  - 이미 현실이 그렇게 흘러가고 있음  
    **gpt-4o-transcribe** 같은 멀티모달 LLM은 단순 음성 인식보다 훨씬 뛰어남  
    회사의 **전문 용어**나 **조직도**를 프롬프트에 넣을 수 있어서, “Kaitlyn에게 PR 리뷰하라고 해” 같은 문장도 정확히 인물 구분함  
    내가 만든 [Mac용 오픈소스 도구](https://github.com/corlinp/voibe)로 OpenAI API 키와 커스텀 프롬프트를 써볼 수 있음
  - 왜 걱정하는지 모르겠음  
    기술이 발전하면 일부 기술이 사라지더라도 결국 더 나은 방향으로 가는 것 아님?
  - ASR은 이미 유용성이 입증된 기술임  
    **Whisper** 등장 이후 로컬에서 돌아가는 음성 인식 모델이 폭발적으로 늘었음  
    예: [superwhisper.com](https://superwhisper.com), [carelesswhisper.app](https://carelesswhisper.app), [macwhisper.com](https://macwhisper.com)
  - STT(음성→텍스트)는 한동안 **로컬 처리**가 더 유리할 것 같음  
    마이크가 달린 기기에서 직접 처리하면 대역폭을 크게 줄일 수 있고, 클라우드 전송이 필요 없을 수도 있음

- 모델에 **타임스탬프나 화자 분리(diarization)** 기능이 없다는 게 아쉬움  
  WhisperX가 여전히 그 목적에 가장 좋은 선택인지 궁금함
  - 상용 API 중에서도 화자 분리와 단어 단위 타임스탬프를 안정적으로 지원하는 곳이 거의 없음  
    Google **Chirp**는 구간 누락, **환각(hallucination)**, 타임스탬프 불일치 등 문제가 많았음  
    AWS는 조금 낫지만 여전히 단어 단위 동기화가 불안정함  
    Whisper도 환각이 잦고, OpenAI의 새 모델은 정확하지만 타임스탬프를 지원하지 않음  
    결국 후처리로 해결할 수 있지만, 그냥 믿고 쓸 수 있는 API가 있었으면 함
  - WhisperX는 모델이 아니라 Whisper와 다른 모델들을 묶은 **소프트웨어 패키지**임  
    Cohere Transcribe용 통합 버전도 곧 나올 듯함
  - [Qwen-ASR](https://qwen.ai/blog?id=qwen3asr)을 추천함  
    페이지 하단에 타임스탬프 포함 예시가 있음
  - **Mistral Voxtral**은 타임스탬프와 화자 분리를 지원하며 독일어에서 좋은 성능을 보였음
  - [whisper-timestamped](https://github.com/linto-ai/whisper-timestamped)도 있음  
    추가 모델 없이 Whisper의 **cross-attention 가중치**를 이용해 Dynamic Time Warping으로 정렬함

- 나는 **Cohere**의 서비스에 매우 만족함  
  몇 달 전 **clip-style embedding** 모델로 옮겼는데, 지금까지 써본 외부 서비스 중 **P50 지연 시간**이 가장 안정적임
  - 전체 품질은 어떤지 궁금함  
    Cohere 모델은 보통 크기가 작고 성능이 낮은 편이라서

- 많은 STT 모델이 **완벽한 발음의 음성**만 학습해서, **외국 억양**에는 약함  
  프랑스식 영어 억양을 가진 나로서는 이 모델을 꼭 시험해보고 싶음  
  지금까지 내 언어 학습 앱(Copycat Cafe)에서 가장 잘 작동한 건 **Soniox**였고, Whisper 기반 모델들은 오히려 **환각 문장**을 만들어내는 경향이 있었음

- 우리 내부 데이터셋(영국 우편번호 음성 250개)으로 테스트했는데 꽤 경쟁력 있었음  
  Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% 정도였음  
  - [compare-stt.com](https://compare-stt.com/)에서 **Gladia**가 블라인드 테스트 1위를 했다고 함  
  - 표 렌더링은 줄 사이에 두 줄 띄우면 됨  
  - 인간 기준은 248/248인가 궁금함

- 이 모델은 **커스텀 단어 사전**이나 **워드 부스팅**, **프롬프트 추가**를 지원하지 않는 게 아쉬움

- 아마도 또 하나의 **벤치마크 중심 ASR 모델**일 것 같음  
  나는 트위치 스트림 편집본을 유튜브에 올리며 Whisper-large-v3로 자막을 생성함  
  좋은 ASR의 조건은  
  1) 타임스탬프 지원  
  2) **동시 화자 인식**  
  3) 정확한 전사  
  4) [기침], [웃음] 같은 **비언어적 표현** 포함  
  5) 1만 단어 이상 **문맥 주입** 가능  
  WhisperX로는 5분 만에 전사 가능하지만, 여전히 문장 누락이 가장 큰 문제임
  - 3, 4번은 대부분의 고객에게는 오히려 **불필요한 기능**일 수 있음

- “오픈소스”라면 **소스 코드**가 있는 건지, 아니면 모델 가중치만 공개된 건지 궁금함
  - [Hugging Face](https://huggingface.co/CohereLabs/cohere-transcribe-03-2026/)에서 파일을 받을 수 있고,  
    [ONNX 변환 버전](https://huggingface.co/eschmidbauer/cohere-transcribe-03-2026)도 있어서 CPU에서도 실행 가능함
  - 대부분의 경우 “오픈소스”는 **가중치 공개**를 의미함  
    모델 학습은 비용이 너무 크기 때문에, 결과물만 공유해도 충분히 유용함
  - 아마 모델 자체를 의미하는 표현일 것임

- 이 모델이 **동급 크기 내에서 SOTA**인지 궁금함  
  Parakeet보다 나은지 알고 싶음
  - [Hugging Face ASR 리더보드](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)를 보면  
    Parakeet(0.6B)은 속도는 빠르지만 WER 기준으로는 10위권 정도임
  - Cohere 모델은 **2B 파라미터**로 Parakeet(0.6B, 1.1B)보다 크고, 벤치마크에서도 더 좋은 성능을 보임

- 예전에 **Dragon Dictate**를 썼는데, 학습에 오래 걸리고 결과도 별로였음  
  최근 팟캐스트 인터뷰를 했는데, Apple Podcasts가 자동으로 **AI 전사**를 생성했음  
  오류는 많지 않았지만, **화자 구분이 안 되는 점**이 가장 불편했음
  - 그 시절엔 64MB RAM에서도 돌아가던 음성 인식 소프트웨어들이 있었음  
    어릴 때 그런 **TTS/음성 인식 쉐어웨어**를 너무 많이 다운로드했었음