6P by GN⁺ 8시간전 | ★ favorite | 댓글 1개
  • OpenAI의 오디오 트랜스크립션 요금은 입력 오디오의 길이에 따라 산정됨
  • ffmpeg 같은 도구로 오디오를 2~3배 속도로 변환한 뒤 업로드하면 트랜스크립션 품질 저하 없이 처리 속도와 비용 절감 가능함
  • 실제 40분 오디오를 2배, 3배로 속도 변환 시 비용이 23~33% 절감
  • gpt-4o-transcribe 모델은 25분 미만 오디오만 지원하므로, 속도 올리기가 유용한 우회책임
  • 2~3배까지는 결과 품질이 유지되나 4배 속도에서는 트랜스크립션 정확도 급락 현상 발생함

요약 소개

  • OpenAI의 트랜스크립션 및 오디오 요금 정책을 더 효율적으로 활용할 수 있는 간단한 방법
  • 오디오 변환 속도를 높여 더 짧은 시간 안에 동일한 내용을 처리하도록 해 요금과 시간을 모두 절약하는 전략
  • ffmpeg와 같은 오픈소스 도구로 오디오 파일을 2~3배 빠르게 변환한 후 OpenAI API에 업로드하면 품질 손실 없이 가격과 소요 시간을 낮출 수 있음
  • 이 방법은 특히 입력 길이(via gpt-4o-transcribe 모델의 25분 제한)가 긴 오디오에 더 효과적

트랜스크립션 속도/비용 절약의 핵심 방법

  • OpenAI의 오디오 트랜스크립션 서비스는 받아들이는 오디오의 길이를 기준으로 요금을 책정함
  • 따라서 음성 파일을 ffmpeg 등으로 미리 2~3배 가속하여 업로드하면, 입력 토큰 수가 크게 줄어들고, 트랜스크립션 처리 시간 역시 짧아지는 효과가 있음
  • 이 방법을 실제로 적용하면 40분 분량 오디오 기준 입력 토큰 비용이 33% 이상 절감됨 (3x 적용 시 $0.07, 2x 적용 시 $0.09)
  • 출력 토큰 비용은 오디오 속도와 무관하게 거의 동일하게 나타남(입력 요약 길이 기준 자동 할당 결과임)
  • 2배, 3배 속도는 트랜스크립션 정확도가 안정적이지만 4배 속도에서는 모델이 내용을 제대로 인식하지 못하는 한계가 발생함

사용 스크립트 예시

다음 오픈소스 도구 사용 필요:

  • yt-dlp : YouTube 등에서 오디오 추출
  • ffmpeg : 오디오 변환 및 속도 조절
  • llm : 텍스트 요약 자동화

참고용 전체 워크플로우:

  • yt-dlp로 오디오 추출 후,
  • ffmpeg로 오디오를 2~3배로 변환하여 mp3 저장
  • OpenAI API(gpt-4o-transcribe)로 mp3 업로드 및 트랜스크립션 텍스트 획득
  • 해당 결과 텍스트를 llm에 입력해 원하는 요약문 자동 생성

실제 경험담 및 시행착오

  • 처음에는 YouTube의 자동 트랜스크립션을 받으려 했으나, yt-dlp의 구버전(2025.04.03)이어서 다운로드 오류 발생
  • 프로그램 업데이트 이후에는 정상 작동했으나, 그 사이 수동 추출 및 ffmpeg 가속→OpenAI API 처리 방식에 도전하게 됨
  • M3 MacBook Air에서 로컬 Whisper로 실행 시 배터리 부하와 실행 속도 이슈 발생, 클라우드(OpenAI API)로 오프로드하는 것이 더 빠르고 효율적임

트랜스크립션 품질과 알고리듬 특성

  • 오디오 속도를 2배~3배로 높여도, 사람이 원본 음성을 빠르게 재생해 듣는 것과 비슷하게 AI 모델도 본질 정보 인식이 거의 가능함
  • 이미지 파일 용량 최적화(손실/비손실 포맷)와 비슷하게, 청취 정보의 일부분 손실(높은 속도에서 간헐적 단어 손실 등)이 생겨도 요약과 이해에는 큰 지장 없음
  • 두뇌가 잘못된 스펠링, 일부 단어 생략된 텍스트도 보완해 인식하듯, 트랜스크립션 알고리듬 역시 가속된 오디오에서도 대부분 주요 정보를 잘 추출함

실제 요금 비교 및 절감 폭

  • OpenAI의 gpt-4o-transcribe 기준, 오디오 속도별 비용은 다음과 같이 계산됨
    • 2배속(1,186초): $0.09
    • 3배속(791초): $0.07
    • 입력 오디오가 길 경우(예: 2,372초 원본)은 모델 요건상 처리 불가
    • Whisper-1 모델 기준 $0.006/분, 결과적으로 이 방법을 쓰면 최대 67% 가량 비용 절감이 가능함
  • 출력 토큰 비용은 입력 속도와 상관없이 거의 동일 (모델의 컨텍스트 윈도 및 요약 방식 영향)
  • 4배속 적용 시에는 출력 결과가 반복 문장 등으로 심각히 저하됨

권장 사항 및 결론

  • OpenAI의 음성 트랜스크립션을 빠르고 저렴하게 이용하려면 2~3배로 오디오 가속이 가장 효율적임
  • 너무 빠른 속도(4x)는 정확도 저하 문제 있음
  • 간단하고 실행이 쉬운 방법이며, 품질 유지와 비용 절감 모두에 유리함
  • 일반적인 비즈니스 오디오 요약, 회의록 등 장시간 음성 데이터 처리가 필요한 스타트업과 IT 실무자에게 직접적인 비용/시간 절감 수단으로 활용 가능함

요약(TL;DR)

  • OpenAI는 오디오 길이 또는 입력/출력 토큰 기준으로 요금 청구함
  • ffmpeg로 음성을 2~3배 빠르게 변환해 입력하면 시간과 비용 모두 절약 가능함
  • 입력 토큰(또는 시간) 감소로 요금이 낮아짐
  • 2배, 3배까지는 최적 속도이며, 4배 이상부터는 트랜스크립션 품질 저하 현상 있음
Hacker News 의견
  • Andrej가 진행한 강연의 속도는 원래 일반인보다 최소 1.5배 빠른 자연스러운 속도라서, 따라가려면 유튜브 재생 속도를 꼭 1x로 낮춰야 한다는 느낌 받음. OpenAI minute를 더 효율적으로 만들고 싶으면, 침묵 구간을 아예 빼고 처리하는 방법 제안.
    ffmpeg 명령어 예시로 -50dB 이하 20ms 이상의 모든 침묵을 20ms 정지로 치환해 39분 31초 영상을 31분 34초로 단축 가능성 경험. 본문의 취지에 따라 길이만 재서 효과 측정, 짧아진 버전의 품질은 따로 확인하지 않음

    • 나는 늘 2x 속도로 모든 영상을 보고 Andrej의 강연도 2x가 자연스럽게 느껴짐. 다만 내가 만든 영상은 주변 사람들이 너무 빨라서 0.75x로 봐야겠다고 종종 얘기함. 내 입장에서 2x가 아니면 너무 느린 체감. 참고로 John Carmack의 말 빠르기는 2x도 완벽히 자연스럽다고 느낌. 최근 내 영상이 궁금하면 여기서 확인 가능하며, 대부분 즉석에서 주제만 정하고 녹음하는 식으로 250~300편 이상 진행. 혹시 내 영상이 지나치게 빠르다고 느끼는지, 아니면 충분히 평범한 속도인지 궁금

    • 굳이 품질을 확인하지 않았다면, 두 버전의 결과물을 diffchecker 같은 걸로 비교하면 간단했을 것 같다는 생각

    • 일반인 기준 2.25x 유튜브 속도가 있었으면 하는 바람 있음. 나는 항상 단축키를 쓰고, 2x로 90% 정도 듣는데, Andrej의 강연만은 1.25x보다 빠르게 돌리기가 힘듦

    • Andrej가 일반인보다 1.5배 이상 빠르게 말한다는 점에서, 유튜브 속도를 원래대로 돌려야 한다는 말에 공감. 사람의 말하기 속도를 자동으로 감지할 수 있는 방법이 있을지 궁금. 속도는 주관적이고 사람마다 다르지만, OP가 시도한 방법이 실패했을 때를 탐지할 수 있다면 재미있을 것 같음. (예: x4 속도에서 품질 망가져버린 것처럼)

    • ffmpeg 마법을 더 활용할 수 있다는 생각에 기대감. 나중에 꼭 시도해보고 싶어 아이디어에 감사

  • 대충 훑어보기와 시간을 내서 제대로 읽어보기에 대한 생각.
    Andrej 강연의 transcript와 요약본만 읽었을 땐 평범하게 느껴져 그냥 넘겼는데, 유튜브에서 전체 영상을 보니까 엄청 다양한 아이디어, 생각과 결정으로 이어지는 경험을 함. 이런 일은 다른 주제에서도 자주 겪음. 직접 컨퍼런스에 참석해서 들으면 온라인 강연보다 훨씬 더 유용함. 온라인으로 보는 것도 요약만 읽는 것보다 훨씬 유익. 심지어 10분 만에 대충 생각하고 마는 것보다 산책하면서 깊이 생각하는 편이 훨씬 나음. 생각을 위해서는 천천히 하는 게 보통 더 좋다는 체감

    • 이게 진짜 신기하게 느껴짐. 학교에서 획일적으로 지식을 던져주는 걸 싫어했던 개발자로서, 지금은 그런 형태의 경험에 기꺼이 돈까지 내고 있다는 현실이 이상. 읽기 자체가 즐거움이고, 강연을 보면서 생각이 맞아 들어가는 감각도 멋짐. 세상의 의미를 우리 스스로 생각하는 게 인간다움이라 보는 입장. 그런데 오히려 이런 경향이 모두를 어리석게 만드는 길 같아 전혀 공감할 수 없음

    • 위 의견에 매우 공감. 강연이 주는 가치는 공개된 사실이나 아이디어 그 자체보다, 그걸 계기로 생기는 다양한 부가적 영감이 더 크다고 생각. 세상에는 정말 무수히 많은 정보가 존재하고, 맥락이 전부임. 만약 조금만 더 구체적인 맥락이 붙었다면 시간을 내서 봤을 텐데, 맥락 없는 링크로만 받으니까 그냥 ‘핵심’만 빠르게 파악해서 대응하려는 태도. 결국 이번에는 덕분에 흥미 생겨서 다시 볼지도 모르겠음. “천천히 생각하는 게 보통 더 좋다”에 다시 한 번 동의

    • 천천히 생각하는 게 중요한 건 맞지만, 강연 내용을 조금 들었다가 나중에 다시 보면서 더 깊게 숙고하는 방식도 꽤 쓸모 있을지도 생각

    • 과연 영상의 속도가 중요했는지, 아니면 영상과 오디오가 주는 부가 정보 때문인지 질문. 말을 잘하는 연사는 똑같은 메시지도 오디오/비디오에서 훨씬 더 잘 전달하는 체감 있음. 오디오는 특정 부분에 힘을 실고, 영상은 제스처나 표정으로도 메시지를 보탤 수 있기 때문

    • 나는 오히려 팟캐스트나 오디오북을 2~3x로 듣는 사람들을 보면, 내 경우엔 0.8x로 느리게 돌릴 때가 더 집중할 수 있고 생각할 시간이 더 많아진다고 느낌. 혹시 내가 예외적인 사례인지 궁금

  • OpenAI의 transcription API로 40분짜리 강연 요약을 시도했지만 길이가 길어 ffmpeg로 3배속 압축 후 25분 제한 내로 구동. 실제로 효과를 봤고, 비용과 시간 모두 절약되어 글로 공유함. 전체 스크립트와 비용 구성 포함

    • 이런 비법을 조용히 활용해서 OpenAI보다 더 싼 transcription 사업도 시작 가능했을 것 같다는 농담
  • "정확도는?" "모르겠음, 원래 그게 요점"이라는 원작자 느낌 그대로 멋진 작업이라는 생각과, 이 미래가 왠지 불안하게 느껴진다는 감상

    • 원래 인간이 만든 음성 기록도 정확 보장 없었음. 이런 변환 과정엔 늘 오류가 존재했고, 앞으로도 기대치에 포함. 오히려 더 걱정되는 건 생성형 AI가 사실인 양 해석하거나, 'AI가 더 믿을 만하다'는 사회적 관념 자체임. 인간, 전문가, 기자보다 AI가 더 신뢰성/공정성을 갖췄다는 대중적 생각도 위험함
  • Gemini 2.0 전 버전에서는 이미지 한 장에 258토큰 요금을 고정으로 받던 방식이 있었는데, 이미지에 훨씬 더 많은 텍스트를 우겨넣으면 그만큼 저렴하게 처리 가능했던 트릭도 있었음

  • Chrome 확장 프로그램을 만들었는데, huggingface/transformers.js에서 OpenAI Whisper 모델을 WebGPU로 돌려 브라우저에서 바로 오디오를 텍스트로 변환 가능. 예시 리스트 참고. 예컨대, 대통령 소셜미디어의 영상을 듣거나 보긴 싫지만, 경제에 큰 영향을 미치는 망언이 등장할 때는 빠르게 감지해야 하므로, 1분마다 새 포스트를 크롤링해 OCR과 오디오 트랜스크립션을 로컬에서 자동 처리하고, 텍스트 분석까지 수행, 경제적으로 중요할 때만 알림. 프로젝트 링크

    • 놀라운 구현이라는 평
  • OpenAI Whisper API 대신 Groq(저렴하게 distil-large-v3가 시간당 $0.02, whisper-large-v3-turbo가 $0.04, OpenAI는 $0.36/hr)도 추천. 내부적으로 시의회 회의가 유튜브에 올라오면 자동으로 Groq, Replicate, Deepgram 등을 활용해 트랜스크립션 처리

    • Hugging Face의 Inference API를 사용하면 여러 API 제공업체를 한 번에 쉽게 바꿀 수 있어서 편하다는 팁. 예시는 여기서 직접 확인 가능

    • 시간당 $0.02~$0.04 단가라서 별다른 최적화 필요 없을 듯하지만, 오디오를 더 빠르게 돌려서 비용을 더 줄일 수 있지 않을까 하는 궁금증. 유튜브가 이미 대부분 하루 이내에 자동 자막 기능 제공한다는 궁금증도 동반

    • 최신 맥북 유저라면 Whisper 모델을 완전히 무료로 로컬에서 돌릴 수 있다는 사실을 강조. 실제로 본인 소유 하드웨어의 컴퓨팅 자원이 이미 굉장히 저렴하다는 점을 잘 모른다는 느낌

    • cloudflare workers ai에서도 whisper-large-v3-turbo 모델을 시간당 약 $0.03에 사용할 수 있는 옵션도 안내 (링크)

  • Google AI studio에서 유튜브 링크만 던지면 자동으로 speaker label 포함 트랜스크립션, 시각적 단서까지 추출해 주는 기능 강조. 비디오에 멀티모달 지원도 언급

  • 나는 OpenAI에서 API 관련 업무를 하고 있는데, 2~3x 빠른 속도에도 결과가 꽤 괜찮게 나와 놀라움. 실제로 전화 채널용으로는 8khz 오디오를 24khz로 업샘플링해서 잘 사용함. 다만 1x에서 멀어질수록 정확도 저하가 분명히 존재한다는 점, 장기적으론 더 긴 파일 업로드 지원이 필요함

    • 내부적으로 이런 속도 최적화를 연구해 정확도 손실이 최소인 배수 포인트를 찾으면 좋겠다는 피드백. 간단한 전처리만으로 API 가격을 낮추는 효과 가능성도 시사
  • 바로 본론으로 들어가는 글쓰기 스타일이 마음에 든다는 의견. 많은 글이 괜히 장황해지는데, 이런 접근법이 참신함. 절반의 저자들은 사실상 핵심 메시지 자체가 없다는 사실도 깨달을 것 같음