1P by GN⁺ 2시간전 | ★ favorite | 댓글 2개
  • 영어,한국어,중국어 등 14개 언어를 지원하는 2B(20억) 파라미터 규모의 최신 자동 음성 인식(ASR) 모델
  • Conformer 기반 인코더-디코더 구조를 사용하며, Apache 2.0 라이선스로 배포됨
  • 영어 기준 평균 단어 오류율(WER) 5.42% 로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, Hugging Face Open ASR Leaderboard 1위를 기록
  • 실제 환경 평가와 인간 평가 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지
  • 낮은 지연과 높은 처리 효율을 동시에 달성해 실시간 제품과 워크플로우에 적합

Cohere Transcribe 개요

  • 음성은 회의 기록, 음성 분석, 실시간 고객 지원 등 AI 기반 업무 자동화의 핵심 입력 형태로 부상 중
  • 이 모델은 단어 오류율(WER) 최소화를 목표로 처음부터 새로 훈련되었으며, 연구용이 아닌 실제 서비스 환경에서의 사용을 염두에 둔 설계
  • GPU 및 로컬 환경에서도 효율적으로 추론 가능하며, Cohere의 관리형 추론 플랫폼 Model Vault에서도 이용 가능
  • Hugging Face의 Open ASR Leaderboard에서 정확도 1위를 기록하며, 실제 환경 전사 성능의 새로운 기준 제시

모델 구조

  • 모델명은 cohere-transcribe-03-2026, Conformer 기반 인코더-디코더 구조 사용
    • 입력은 오디오 파형을 log-Mel 스펙트로그램으로 변환, 출력은 전사된 텍스트
    • 2B(20억) 파라미터 규모의 대형 Conformer 인코더가 음향 표현을 추출하고, 경량 Transformer 디코더가 토큰을 생성
  • 표준 교차 엔트로피 손실을 사용해 처음부터 감독 학습으로 훈련
  • 14개 언어 지원

    • 유럽: 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어
    • 아시아·태평양: 중국어(표준어), 일본어, 한국어, 베트남어
    • 중동·북아프리카: 아랍어
    • Apache 2.0 라이선스로 공개

모델 성능

  • 영어 음성 인식 정확도에서 최신 표준 달성, 평균 WER 5.42%로 공개·비공개 ASR 모델 중 최고 성능
    • Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B 등 주요 경쟁 모델을 능가
  • 다양한 실제 환경(다중 화자, 회의실 음향, 다양한 억양)에서도 강인한 성능 유지
  • 주요 벤치마크 결과
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • 평균 WER 5.42로 Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)보다 우수
  • Hugging Face Open ASR Leaderboard는 여러 데이터셋에서 표준화된 WER로 평가하며, 낮은 WER이 높은 전사 정확도를 의미

인간 평가 결과

  • 벤치마크 외 실제 환경 평가에서도 동일한 우수 성능 확인
    • 숙련된 평가자가 실제 오디오 전사 결과를 정확성, 일관성, 사용성 기준으로 평가
    • 자동 평가와 인간 평가 모두에서 일관된 우수 성능을 보임
  • 영어 전사 품질 비교 평가에서 의미 보존, 환각(hallucination) 방지, 고유명사 인식, 서식 정확성 등에서 높은 선호도 획득
  • 지원 언어별 인간 평가에서도 50% 이상 선호 비율을 기록, 다국어 환경에서도 안정적 성능 입증

처리 속도 및 효율성

  • 실제 서비스 환경에서는 지연(latency)처리량(throughput) 이 핵심 제약
    • 정확도가 높더라도 느리거나 자원 소모가 크면 사용자 경험과 비용에 직접 영향
  • Cohere Transcribe는 1B+ 파라미터 모델군 중 최고 수준의 처리 효율을 유지하며, 낮은 WER과 높은 RTFx(실시간 처리 배수) 를 동시에 달성
  • RTFx는 오디오 입력을 실시간 대비 얼마나 빠르게 처리하는지를 나타내는 지표로, Transcribe는 정확도와 속도 모두에서 Pareto 최적선 확장
  • Radical Ventures의 평가

    • Radical Ventures 부사장 Paige Dickie는 Transcribe의 속도와 품질을 높이 평가
    • “몇 분짜리 오디오를 몇 초 만에 전사하며, 실시간 제품과 워크플로우의 새로운 가능성을 열었다”고 언급
    • 일상적 음성에서도 강력하고 신뢰할 수 있는 전사 품질을 제공하며, 사용 경험이 원활했다고 평가

향후 발전 방향

  • Cohere는 Transcribe를 AI 에이전트 오케스트레이션 플랫폼 North와 통합 예정
    • 향후 Transcribe는 단순 전사 모델을 넘어 기업용 음성 인텔리전스 기반으로 확장될 계획

사용 및 배포

  • Hugging Face에서 모델 다운로드 가능하며, 로컬 또는 엣지 환경에서도 실행 가능
  • Cohere API를 통해 무료로 실험 가능하나, 요청 제한(rate limit) 존재
    • 사용법과 통합 가이드는 공식 문서에서 제공
  • Model Vault를 이용하면 인프라 관리 없이 저지연·프라이빗 클라우드 추론 가능
    • 시간 단위 인스턴스 요금제 적용, 장기 이용 시 할인 제공
    • 기업용 배포 문의는 Cohere 영업팀을 통해 가능

오픈소스는 아니고 유료 서비스인건가요?

Hacker News 의견들
  • 나는 ASR(자동 음성 인식) 이 결국 OCR처럼 될까 걱정임
    멀티모달 대형 AI가 충분히 빠르고 문맥 이해력이 깊다면, 기존 기술들을 다 흡수해버릴 것 같음
    OCR에서도 문자가 흐릿하게 스캔돼도 AI가 문서의 의미를 추론해서 “주문 ID는 보통 주문 날짜 아래에 있다” 같은 패턴으로 알아내는 식임
    ASR도 이런 식으로 문맥 기반으로 ‘추측’하게 되면, 실제 음성을 왜곡할 위험이 있음

    • 이건 좋은 점과 나쁜 점이 공존함
      좋은 ASR은 내가 못 알아듣는 잡음 섞인 음성도 이해하지만, 가끔 너무 교정해서 드문 단어를 흔한 단어로 바꿔버림
      OCR에서도 Xerox 사건처럼 그럴듯하지만 틀린 데이터가 생길 수 있음
      그래서 나는 OCR을 검색용으로만 쓰고, 원본 스캔은 항상 보관함
    • 이미 현실이 그렇게 흘러가고 있음
      gpt-4o-transcribe 같은 멀티모달 LLM은 단순 음성 인식보다 훨씬 뛰어남
      회사의 전문 용어조직도를 프롬프트에 넣을 수 있어서, “Kaitlyn에게 PR 리뷰하라고 해” 같은 문장도 정확히 인물 구분함
      내가 만든 Mac용 오픈소스 도구로 OpenAI API 키와 커스텀 프롬프트를 써볼 수 있음
    • 왜 걱정하는지 모르겠음
      기술이 발전하면 일부 기술이 사라지더라도 결국 더 나은 방향으로 가는 것 아님?
    • ASR은 이미 유용성이 입증된 기술임
      Whisper 등장 이후 로컬에서 돌아가는 음성 인식 모델이 폭발적으로 늘었음
      예: superwhisper.com, carelesswhisper.app, macwhisper.com
    • STT(음성→텍스트)는 한동안 로컬 처리가 더 유리할 것 같음
      마이크가 달린 기기에서 직접 처리하면 대역폭을 크게 줄일 수 있고, 클라우드 전송이 필요 없을 수도 있음
  • 모델에 타임스탬프나 화자 분리(diarization) 기능이 없다는 게 아쉬움
    WhisperX가 여전히 그 목적에 가장 좋은 선택인지 궁금함

    • 상용 API 중에서도 화자 분리와 단어 단위 타임스탬프를 안정적으로 지원하는 곳이 거의 없음
      Google Chirp는 구간 누락, 환각(hallucination), 타임스탬프 불일치 등 문제가 많았음
      AWS는 조금 낫지만 여전히 단어 단위 동기화가 불안정함
      Whisper도 환각이 잦고, OpenAI의 새 모델은 정확하지만 타임스탬프를 지원하지 않음
      결국 후처리로 해결할 수 있지만, 그냥 믿고 쓸 수 있는 API가 있었으면 함
    • WhisperX는 모델이 아니라 Whisper와 다른 모델들을 묶은 소프트웨어 패키지
      Cohere Transcribe용 통합 버전도 곧 나올 듯함
    • Qwen-ASR을 추천함
      페이지 하단에 타임스탬프 포함 예시가 있음
    • Mistral Voxtral은 타임스탬프와 화자 분리를 지원하며 독일어에서 좋은 성능을 보였음
    • whisper-timestamped도 있음
      추가 모델 없이 Whisper의 cross-attention 가중치를 이용해 Dynamic Time Warping으로 정렬함
  • 나는 Cohere의 서비스에 매우 만족함
    몇 달 전 clip-style embedding 모델로 옮겼는데, 지금까지 써본 외부 서비스 중 P50 지연 시간이 가장 안정적임

    • 전체 품질은 어떤지 궁금함
      Cohere 모델은 보통 크기가 작고 성능이 낮은 편이라서
  • 많은 STT 모델이 완벽한 발음의 음성만 학습해서, 외국 억양에는 약함
    프랑스식 영어 억양을 가진 나로서는 이 모델을 꼭 시험해보고 싶음
    지금까지 내 언어 학습 앱(Copycat Cafe)에서 가장 잘 작동한 건 Soniox였고, Whisper 기반 모델들은 오히려 환각 문장을 만들어내는 경향이 있었음

  • 우리 내부 데이터셋(영국 우편번호 음성 250개)으로 테스트했는데 꽤 경쟁력 있었음
    Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% 정도였음

    • compare-stt.com에서 Gladia가 블라인드 테스트 1위를 했다고 함
    • 표 렌더링은 줄 사이에 두 줄 띄우면 됨
    • 인간 기준은 248/248인가 궁금함
  • 이 모델은 커스텀 단어 사전이나 워드 부스팅, 프롬프트 추가를 지원하지 않는 게 아쉬움

  • 아마도 또 하나의 벤치마크 중심 ASR 모델일 것 같음
    나는 트위치 스트림 편집본을 유튜브에 올리며 Whisper-large-v3로 자막을 생성함
    좋은 ASR의 조건은

    1. 타임스탬프 지원
    2. 동시 화자 인식
    3. 정확한 전사
    4. [기침], [웃음] 같은 비언어적 표현 포함
    5. 1만 단어 이상 문맥 주입 가능
      WhisperX로는 5분 만에 전사 가능하지만, 여전히 문장 누락이 가장 큰 문제임
    • 3, 4번은 대부분의 고객에게는 오히려 불필요한 기능일 수 있음
  • “오픈소스”라면 소스 코드가 있는 건지, 아니면 모델 가중치만 공개된 건지 궁금함

    • Hugging Face에서 파일을 받을 수 있고,
      ONNX 변환 버전도 있어서 CPU에서도 실행 가능함
    • 대부분의 경우 “오픈소스”는 가중치 공개를 의미함
      모델 학습은 비용이 너무 크기 때문에, 결과물만 공유해도 충분히 유용함
    • 아마 모델 자체를 의미하는 표현일 것임
  • 이 모델이 동급 크기 내에서 SOTA인지 궁금함
    Parakeet보다 나은지 알고 싶음

    • Hugging Face ASR 리더보드를 보면
      Parakeet(0.6B)은 속도는 빠르지만 WER 기준으로는 10위권 정도임
    • Cohere 모델은 2B 파라미터로 Parakeet(0.6B, 1.1B)보다 크고, 벤치마크에서도 더 좋은 성능을 보임
  • 예전에 Dragon Dictate를 썼는데, 학습에 오래 걸리고 결과도 별로였음
    최근 팟캐스트 인터뷰를 했는데, Apple Podcasts가 자동으로 AI 전사를 생성했음
    오류는 많지 않았지만, 화자 구분이 안 되는 점이 가장 불편했음

    • 그 시절엔 64MB RAM에서도 돌아가던 음성 인식 소프트웨어들이 있었음
      어릴 때 그런 TTS/음성 인식 쉐어웨어를 너무 많이 다운로드했었음