Apple의 새로운 Speech API, Whisper보다 월등히 빠른 실시간 음성 텍스트 변환 제공

(macstories.net)

16P by neo 8달전 | ★ favorite | 댓글 6개

애플의 SpeechAnalyzer와 SpeechTranscriber는 OpenAI의 Whisper 대비 월등한 속도와 동일한 품질로 실시간 음성 텍스트 변환을 지원함
실제 34분 분량의 7GB 비디오 파일을 Yap 커맨드라인 툴로 변환 시 45초 만에 SRT 파일로 변환, MacWhisper 대비 2.2배 빠른 결과임
MacWhisper, VidCap 등 타 도구와 품질 차이는 거의 없으나, 모두 고유명사 및 합성어 처리에서는 약간의 오류를 보임
장시간 개발자 영상, 강의, 팟캐스트 등 반복 작업 시 누적 시간 절감 효과가 매우 큼
macOS Tahoe 베타(개발자 계정 필요)에서 Yap 설치 후 바로 사용 가능, Apple 플랫폼 전체(아이폰, 아이패드, Mac, Vision Pro)에서 향후 Whisper 대체 기대

Apple Speech API vs Whisper: 새로운 속도 혁신

최근 WWDC에서 공개된 SpeechAnalyzer 및 SpeechTranscriber는 macOS, iOS, iPadOS, Vision Pro의 최신 베타에 포함됨
필자는 기존 Whisper 기반 도구의 느린 속도에 불만이 많았으나, 새로운 API는 실제 사용에서 게임 체인저급 성능을 보임
단순 커맨드라인 툴(Yap)로 오디오/비디오 파일을 SRT, TXT로 빠르게 변환 가능
34분, 7GB 4K 영상 → Yap: 45초 / MacWhisper(V3 Turbo): 1분 41초 / VidCap: 1분 55초 / MacWhisper(V2): 3분 55초
CamelCase(예: AppStories)와 고유명사 인식 문제는 모두에서 비슷하게 나타남(후처리로 쉽게 교정 가능)

실제 속도 비교 및 워크플로우 활용

단일 영상만 보면 1~2분 차이가 적어 보이지만, 여러 시간 분량 영상 처리 시 누적 시간 절감 효과가 큼
YouTube 영상 등 대량 일괄 변환 작업 시 yt-dlp 등과 연계해 효율적 자동화 가능
제작자/유튜버/학생 등 다양한 사용자에게 자막·강의·요약 등 빠른 워크플로우 제공
SpeechAnalyzer/SpeechTranscriber 조합이 Whisper를 빠르게 대체할 것으로 기대

실제 적용 및 설치 방법

macOS Tahoe 베타(현재는 개발자 계정 필요) 설치
Yap 깃허브 저장소에서 커맨드라인 툴 다운로드 및 설치
Yap 실행 후 오디오/비디오 파일 입력 → SRT/TXT 변환 파일 바로 생성
Apple 공식 Speech API 문서 및 WWDC 영상(277번)에서 추가 기술 정보 확인 가능

결론 및 전망

Apple Speech API는 Whisper 대비 속도에서 압도적 우위를 보이면서 품질도 동일 수준 유지
Apple 플랫폼에서 음성 인식/변환 워크플로우를 주로 사용하는 사용자에게 표준 모델로 자리잡을 가능성이 높음
자주 반복되는 자동화 작업에서 누적 효율성 극대화 및 업무 생산성 증대 효과 기대

brainer 8달전 [-]

나중에 한국어도 한번 테스트 해봐야겠네요.

howudoin 8달전 [-]

애플 플랫폼이라는 거 자체가 폐쇄 마인드라서 손이 안감

gera1d 8달전 [-]

반말 댓글 보기 싫은데 차단이 없네

jk34011 8달전 [-]

그렇게 따지면 님이 다신 댓글도 반말인데요;;

crawler 8달전 [-]

애플을 까는 게 본인 맘에 안 들 순 있어도 저게 반말은 아니죠.
저건 음슴체고, 긱뉴스 기본 요약 자체가 음슴체인데 글들은 어떻게 보고 계신 건지...

copstyle 8달전 [-]

프로 불편러...