OpenAI는 분당 요금을 청구하니, 오디오 속도를 올려서 시간 단축하기

(george.mand.is)

16P by GN⁺ 4달전 | ★ favorite | 댓글 2개

OpenAI의 오디오 트랜스크립션 요금은 입력 오디오의 길이에 따라 산정됨
ffmpeg 같은 도구로 오디오를 2~3배 속도로 변환한 뒤 업로드하면 트랜스크립션 품질 저하 없이 처리 속도와 비용 절감 가능함
실제 40분 오디오를 2배, 3배로 속도 변환 시 비용이 23~33% 절감됨
gpt-4o-transcribe 모델은 25분 미만 오디오만 지원하므로, 속도 올리기가 유용한 우회책임
2~3배까지는 결과 품질이 유지되나 4배 속도에서는 트랜스크립션 정확도 급락 현상 발생함

요약 소개

OpenAI의 트랜스크립션 및 오디오 요금 정책을 더 효율적으로 활용할 수 있는 간단한 방법
오디오 변환 속도를 높여 더 짧은 시간 안에 동일한 내용을 처리하도록 해 요금과 시간을 모두 절약하는 전략
ffmpeg와 같은 오픈소스 도구로 오디오 파일을 2~3배 빠르게 변환한 후 OpenAI API에 업로드하면 품질 손실 없이 가격과 소요 시간을 낮출 수 있음
이 방법은 특히 입력 길이(via gpt-4o-transcribe 모델의 25분 제한)가 긴 오디오에 더 효과적

트랜스크립션 속도/비용 절약의 핵심 방법

OpenAI의 오디오 트랜스크립션 서비스는 받아들이는 오디오의 길이를 기준으로 요금을 책정함
따라서 음성 파일을 ffmpeg 등으로 미리 2~3배 가속하여 업로드하면, 입력 토큰 수가 크게 줄어들고, 트랜스크립션 처리 시간 역시 짧아지는 효과가 있음
이 방법을 실제로 적용하면 40분 분량 오디오 기준 입력 토큰 비용이 33% 이상 절감됨 (3x 적용 시 $0.07, 2x 적용 시 $0.09)
출력 토큰 비용은 오디오 속도와 무관하게 거의 동일하게 나타남(입력 요약 길이 기준 자동 할당 결과임)
2배, 3배 속도는 트랜스크립션 정확도가 안정적이지만 4배 속도에서는 모델이 내용을 제대로 인식하지 못하는 한계가 발생함

사용 스크립트 예시

다음 오픈소스 도구 사용 필요:

yt-dlp : YouTube 등에서 오디오 추출
ffmpeg : 오디오 변환 및 속도 조절
llm : 텍스트 요약 자동화

참고용 전체 워크플로우:

yt-dlp로 오디오 추출 후,
ffmpeg로 오디오를 2~3배로 변환하여 mp3 저장
OpenAI API(gpt-4o-transcribe)로 mp3 업로드 및 트랜스크립션 텍스트 획득
해당 결과 텍스트를 llm에 입력해 원하는 요약문 자동 생성

실제 경험담 및 시행착오

처음에는 YouTube의 자동 트랜스크립션을 받으려 했으나, yt-dlp의 구버전(2025.04.03)이어서 다운로드 오류 발생
프로그램 업데이트 이후에는 정상 작동했으나, 그 사이 수동 추출 및 ffmpeg 가속→OpenAI API 처리 방식에 도전하게 됨
M3 MacBook Air에서 로컬 Whisper로 실행 시 배터리 부하와 실행 속도 이슈 발생, 클라우드(OpenAI API)로 오프로드하는 것이 더 빠르고 효율적임

트랜스크립션 품질과 알고리듬 특성

오디오 속도를 2배~3배로 높여도, 사람이 원본 음성을 빠르게 재생해 듣는 것과 비슷하게 AI 모델도 본질 정보 인식이 거의 가능함
이미지 파일 용량 최적화(손실/비손실 포맷)와 비슷하게, 청취 정보의 일부분 손실(높은 속도에서 간헐적 단어 손실 등)이 생겨도 요약과 이해에는 큰 지장 없음
두뇌가 잘못된 스펠링, 일부 단어 생략된 텍스트도 보완해 인식하듯, 트랜스크립션 알고리듬 역시 가속된 오디오에서도 대부분 주요 정보를 잘 추출함

실제 요금 비교 및 절감 폭

OpenAI의 gpt-4o-transcribe 기준, 오디오 속도별 비용은 다음과 같이 계산됨
- 2배속(1,186초): $0.09
- 3배속(791초): $0.07
- 입력 오디오가 길 경우(예: 2,372초 원본)은 모델 요건상 처리 불가
- Whisper-1 모델 기준 $0.006/분, 결과적으로 이 방법을 쓰면 최대 67% 가량 비용 절감이 가능함
출력 토큰 비용은 입력 속도와 상관없이 거의 동일 (모델의 컨텍스트 윈도 및 요약 방식 영향)
4배속 적용 시에는 출력 결과가 반복 문장 등으로 심각히 저하됨

권장 사항 및 결론

OpenAI의 음성 트랜스크립션을 빠르고 저렴하게 이용하려면 2~3배로 오디오 가속이 가장 효율적임
너무 빠른 속도(4x)는 정확도 저하 문제 있음
간단하고 실행이 쉬운 방법이며, 품질 유지와 비용 절감 모두에 유리함
일반적인 비즈니스 오디오 요약, 회의록 등 장시간 음성 데이터 처리가 필요한 스타트업과 IT 실무자에게 직접적인 비용/시간 절감 수단으로 활용 가능함

요약(TL;DR)

OpenAI는 오디오 길이 또는 입력/출력 토큰 기준으로 요금 청구함
ffmpeg로 음성을 2~3배 빠르게 변환해 입력하면 시간과 비용 모두 절약 가능함
입력 토큰(또는 시간) 감소로 요금이 낮아짐
2배, 3배까지는 최적 속도이며, 4배 이상부터는 트랜스크립션 품질 저하 현상 있음

▲

mbsahg 4달전 [-]

Can you use gpt-4o-transcribe?
I asked OpenAI yesterday, and they told me that only the Whisper model can be called using the API key.
I’m thinking of trying Whisper with a faster setting to see if the quality can still be maintained.

답변달기

▲

GN⁺ 4달전 [-]

Hacker News 의견

Andrej가 진행한 강연의 속도는 원래 일반인보다 최소 1.5배 빠른 자연스러운 속도라서, 따라가려면 유튜브 재생 속도를 꼭 1x로 낮춰야 한다는 느낌 받음. OpenAI minute를 더 효율적으로 만들고 싶으면, 침묵 구간을 아예 빼고 처리하는 방법 제안.
ffmpeg 명령어 예시로 -50dB 이하 20ms 이상의 모든 침묵을 20ms 정지로 치환해 39분 31초 영상을 31분 34초로 단축 가능성 경험. 본문의 취지에 따라 길이만 재서 효과 측정, 짧아진 버전의 품질은 따로 확인하지 않음
- 나는 늘 2x 속도로 모든 영상을 보고 Andrej의 강연도 2x가 자연스럽게 느껴짐. 다만 내가 만든 영상은 주변 사람들이 너무 빨라서 0.75x로 봐야겠다고 종종 얘기함. 내 입장에서 2x가 아니면 너무 느린 체감. 참고로 John Carmack의 말 빠르기는 2x도 완벽히 자연스럽다고 느낌. 최근 내 영상이 궁금하면 여기서 확인 가능하며, 대부분 즉석에서 주제만 정하고 녹음하는 식으로 250~300편 이상 진행. 혹시 내 영상이 지나치게 빠르다고 느끼는지, 아니면 충분히 평범한 속도인지 궁금
- 굳이 품질을 확인하지 않았다면, 두 버전의 결과물을 diffchecker 같은 걸로 비교하면 간단했을 것 같다는 생각
- 일반인 기준 2.25x 유튜브 속도가 있었으면 하는 바람 있음. 나는 항상 단축키를 쓰고, 2x로 90% 정도 듣는데, Andrej의 강연만은 1.25x보다 빠르게 돌리기가 힘듦
- Andrej가 일반인보다 1.5배 이상 빠르게 말한다는 점에서, 유튜브 속도를 원래대로 돌려야 한다는 말에 공감. 사람의 말하기 속도를 자동으로 감지할 수 있는 방법이 있을지 궁금. 속도는 주관적이고 사람마다 다르지만, OP가 시도한 방법이 실패했을 때를 탐지할 수 있다면 재미있을 것 같음. (예: x4 속도에서 품질 망가져버린 것처럼)
- ffmpeg 마법을 더 활용할 수 있다는 생각에 기대감. 나중에 꼭 시도해보고 싶어 아이디어에 감사
대충 훑어보기와 시간을 내서 제대로 읽어보기에 대한 생각.
Andrej 강연의 transcript와 요약본만 읽었을 땐 평범하게 느껴져 그냥 넘겼는데, 유튜브에서 전체 영상을 보니까 엄청 다양한 아이디어, 생각과 결정으로 이어지는 경험을 함. 이런 일은 다른 주제에서도 자주 겪음. 직접 컨퍼런스에 참석해서 들으면 온라인 강연보다 훨씬 더 유용함. 온라인으로 보는 것도 요약만 읽는 것보다 훨씬 유익. 심지어 10분 만에 대충 생각하고 마는 것보다 산책하면서 깊이 생각하는 편이 훨씬 나음. 생각을 위해서는 천천히 하는 게 보통 더 좋다는 체감
- 이게 진짜 신기하게 느껴짐. 학교에서 획일적으로 지식을 던져주는 걸 싫어했던 개발자로서, 지금은 그런 형태의 경험에 기꺼이 돈까지 내고 있다는 현실이 이상. 읽기 자체가 즐거움이고, 강연을 보면서 생각이 맞아 들어가는 감각도 멋짐. 세상의 의미를 우리 스스로 생각하는 게 인간다움이라 보는 입장. 그런데 오히려 이런 경향이 모두를 어리석게 만드는 길 같아 전혀 공감할 수 없음
- 위 의견에 매우 공감. 강연이 주는 가치는 공개된 사실이나 아이디어 그 자체보다, 그걸 계기로 생기는 다양한 부가적 영감이 더 크다고 생각. 세상에는 정말 무수히 많은 정보가 존재하고, 맥락이 전부임. 만약 조금만 더 구체적인 맥락이 붙었다면 시간을 내서 봤을 텐데, 맥락 없는 링크로만 받으니까 그냥 ‘핵심’만 빠르게 파악해서 대응하려는 태도. 결국 이번에는 덕분에 흥미 생겨서 다시 볼지도 모르겠음. “천천히 생각하는 게 보통 더 좋다”에 다시 한 번 동의
- 천천히 생각하는 게 중요한 건 맞지만, 강연 내용을 조금 들었다가 나중에 다시 보면서 더 깊게 숙고하는 방식도 꽤 쓸모 있을지도 생각
- 과연 영상의 속도가 중요했는지, 아니면 영상과 오디오가 주는 부가 정보 때문인지 질문. 말을 잘하는 연사는 똑같은 메시지도 오디오/비디오에서 훨씬 더 잘 전달하는 체감 있음. 오디오는 특정 부분에 힘을 실고, 영상은 제스처나 표정으로도 메시지를 보탤 수 있기 때문
- 나는 오히려 팟캐스트나 오디오북을 2~3x로 듣는 사람들을 보면, 내 경우엔 0.8x로 느리게 돌릴 때가 더 집중할 수 있고 생각할 시간이 더 많아진다고 느낌. 혹시 내가 예외적인 사례인지 궁금
OpenAI의 transcription API로 40분짜리 강연 요약을 시도했지만 길이가 길어 ffmpeg로 3배속 압축 후 25분 제한 내로 구동. 실제로 효과를 봤고, 비용과 시간 모두 절약되어 글로 공유함. 전체 스크립트와 비용 구성 포함
- 이런 비법을 조용히 활용해서 OpenAI보다 더 싼 transcription 사업도 시작 가능했을 것 같다는 농담
"정확도는?" "모르겠음, 원래 그게 요점"이라는 원작자 느낌 그대로 멋진 작업이라는 생각과, 이 미래가 왠지 불안하게 느껴진다는 감상
- 원래 인간이 만든 음성 기록도 정확 보장 없었음. 이런 변환 과정엔 늘 오류가 존재했고, 앞으로도 기대치에 포함. 오히려 더 걱정되는 건 생성형 AI가 사실인 양 해석하거나, 'AI가 더 믿을 만하다'는 사회적 관념 자체임. 인간, 전문가, 기자보다 AI가 더 신뢰성/공정성을 갖췄다는 대중적 생각도 위험함
Gemini 2.0 전 버전에서는 이미지 한 장에 258토큰 요금을 고정으로 받던 방식이 있었는데, 이미지에 훨씬 더 많은 텍스트를 우겨넣으면 그만큼 저렴하게 처리 가능했던 트릭도 있었음
Chrome 확장 프로그램을 만들었는데, huggingface/transformers.js에서 OpenAI Whisper 모델을 WebGPU로 돌려 브라우저에서 바로 오디오를 텍스트로 변환 가능. 예시 리스트 참고. 예컨대, 대통령 소셜미디어의 영상을 듣거나 보긴 싫지만, 경제에 큰 영향을 미치는 망언이 등장할 때는 빠르게 감지해야 하므로, 1분마다 새 포스트를 크롤링해 OCR과 오디오 트랜스크립션을 로컬에서 자동 처리하고, 텍스트 분석까지 수행, 경제적으로 중요할 때만 알림. 프로젝트 링크
- 놀라운 구현이라는 평
OpenAI Whisper API 대신 Groq(저렴하게 distil-large-v3가 시간당 $0.02, whisper-large-v3-turbo가 $0.04, OpenAI는 $0.36/hr)도 추천. 내부적으로 시의회 회의가 유튜브에 올라오면 자동으로 Groq, Replicate, Deepgram 등을 활용해 트랜스크립션 처리
- Hugging Face의 Inference API를 사용하면 여러 API 제공업체를 한 번에 쉽게 바꿀 수 있어서 편하다는 팁. 예시는 여기서 직접 확인 가능
- 시간당 $0.02~$0.04 단가라서 별다른 최적화 필요 없을 듯하지만, 오디오를 더 빠르게 돌려서 비용을 더 줄일 수 있지 않을까 하는 궁금증. 유튜브가 이미 대부분 하루 이내에 자동 자막 기능 제공한다는 궁금증도 동반
- 최신 맥북 유저라면 Whisper 모델을 완전히 무료로 로컬에서 돌릴 수 있다는 사실을 강조. 실제로 본인 소유 하드웨어의 컴퓨팅 자원이 이미 굉장히 저렴하다는 점을 잘 모른다는 느낌
- cloudflare workers ai에서도 whisper-large-v3-turbo 모델을 시간당 약 $0.03에 사용할 수 있는 옵션도 안내 (링크)
Google AI studio에서 유튜브 링크만 던지면 자동으로 speaker label 포함 트랜스크립션, 시각적 단서까지 추출해 주는 기능 강조. 비디오에 멀티모달 지원도 언급
나는 OpenAI에서 API 관련 업무를 하고 있는데, 2~3x 빠른 속도에도 결과가 꽤 괜찮게 나와 놀라움. 실제로 전화 채널용으로는 8khz 오디오를 24khz로 업샘플링해서 잘 사용함. 다만 1x에서 멀어질수록 정확도 저하가 분명히 존재한다는 점, 장기적으론 더 긴 파일 업로드 지원이 필요함
- 내부적으로 이런 속도 최적화를 연구해 정확도 손실이 최소인 배수 포인트를 찾으면 좋겠다는 피드백. 간단한 전처리만으로 API 가격을 낮추는 효과 가능성도 시사
바로 본론으로 들어가는 글쓰기 스타일이 마음에 든다는 의견. 많은 글이 괜히 장황해지는데, 이런 접근법이 참신함. 절반의 저자들은 사실상 핵심 메시지 자체가 없다는 사실도 깨달을 것 같음

답변달기