OpenAI는 분당 요금을 청구하니, 오디오 속도를 올

▲

GN⁺ 10달전 | parent | ★ favorite | on: OpenAI는 분당 요금을 청구하니, 오디오 속도를 올려서 시간 단축하기(george.mand.is)

Hacker News 의견

Andrej가 진행한 강연의 속도는 원래 일반인보다 최소 1.5배 빠른 자연스러운 속도라서, 따라가려면 유튜브 재생 속도를 꼭 1x로 낮춰야 한다는 느낌 받음. OpenAI minute를 더 효율적으로 만들고 싶으면, 침묵 구간을 아예 빼고 처리하는 방법 제안.
ffmpeg 명령어 예시로 -50dB 이하 20ms 이상의 모든 침묵을 20ms 정지로 치환해 39분 31초 영상을 31분 34초로 단축 가능성 경험. 본문의 취지에 따라 길이만 재서 효과 측정, 짧아진 버전의 품질은 따로 확인하지 않음
- 나는 늘 2x 속도로 모든 영상을 보고 Andrej의 강연도 2x가 자연스럽게 느껴짐. 다만 내가 만든 영상은 주변 사람들이 너무 빨라서 0.75x로 봐야겠다고 종종 얘기함. 내 입장에서 2x가 아니면 너무 느린 체감. 참고로 John Carmack의 말 빠르기는 2x도 완벽히 자연스럽다고 느낌. 최근 내 영상이 궁금하면 여기서 확인 가능하며, 대부분 즉석에서 주제만 정하고 녹음하는 식으로 250~300편 이상 진행. 혹시 내 영상이 지나치게 빠르다고 느끼는지, 아니면 충분히 평범한 속도인지 궁금
- 굳이 품질을 확인하지 않았다면, 두 버전의 결과물을 diffchecker 같은 걸로 비교하면 간단했을 것 같다는 생각
- 일반인 기준 2.25x 유튜브 속도가 있었으면 하는 바람 있음. 나는 항상 단축키를 쓰고, 2x로 90% 정도 듣는데, Andrej의 강연만은 1.25x보다 빠르게 돌리기가 힘듦
- Andrej가 일반인보다 1.5배 이상 빠르게 말한다는 점에서, 유튜브 속도를 원래대로 돌려야 한다는 말에 공감. 사람의 말하기 속도를 자동으로 감지할 수 있는 방법이 있을지 궁금. 속도는 주관적이고 사람마다 다르지만, OP가 시도한 방법이 실패했을 때를 탐지할 수 있다면 재미있을 것 같음. (예: x4 속도에서 품질 망가져버린 것처럼)
- ffmpeg 마법을 더 활용할 수 있다는 생각에 기대감. 나중에 꼭 시도해보고 싶어 아이디어에 감사
대충 훑어보기와 시간을 내서 제대로 읽어보기에 대한 생각.
Andrej 강연의 transcript와 요약본만 읽었을 땐 평범하게 느껴져 그냥 넘겼는데, 유튜브에서 전체 영상을 보니까 엄청 다양한 아이디어, 생각과 결정으로 이어지는 경험을 함. 이런 일은 다른 주제에서도 자주 겪음. 직접 컨퍼런스에 참석해서 들으면 온라인 강연보다 훨씬 더 유용함. 온라인으로 보는 것도 요약만 읽는 것보다 훨씬 유익. 심지어 10분 만에 대충 생각하고 마는 것보다 산책하면서 깊이 생각하는 편이 훨씬 나음. 생각을 위해서는 천천히 하는 게 보통 더 좋다는 체감
- 이게 진짜 신기하게 느껴짐. 학교에서 획일적으로 지식을 던져주는 걸 싫어했던 개발자로서, 지금은 그런 형태의 경험에 기꺼이 돈까지 내고 있다는 현실이 이상. 읽기 자체가 즐거움이고, 강연을 보면서 생각이 맞아 들어가는 감각도 멋짐. 세상의 의미를 우리 스스로 생각하는 게 인간다움이라 보는 입장. 그런데 오히려 이런 경향이 모두를 어리석게 만드는 길 같아 전혀 공감할 수 없음
- 위 의견에 매우 공감. 강연이 주는 가치는 공개된 사실이나 아이디어 그 자체보다, 그걸 계기로 생기는 다양한 부가적 영감이 더 크다고 생각. 세상에는 정말 무수히 많은 정보가 존재하고, 맥락이 전부임. 만약 조금만 더 구체적인 맥락이 붙었다면 시간을 내서 봤을 텐데, 맥락 없는 링크로만 받으니까 그냥 ‘핵심’만 빠르게 파악해서 대응하려는 태도. 결국 이번에는 덕분에 흥미 생겨서 다시 볼지도 모르겠음. “천천히 생각하는 게 보통 더 좋다”에 다시 한 번 동의
- 천천히 생각하는 게 중요한 건 맞지만, 강연 내용을 조금 들었다가 나중에 다시 보면서 더 깊게 숙고하는 방식도 꽤 쓸모 있을지도 생각
- 과연 영상의 속도가 중요했는지, 아니면 영상과 오디오가 주는 부가 정보 때문인지 질문. 말을 잘하는 연사는 똑같은 메시지도 오디오/비디오에서 훨씬 더 잘 전달하는 체감 있음. 오디오는 특정 부분에 힘을 실고, 영상은 제스처나 표정으로도 메시지를 보탤 수 있기 때문
- 나는 오히려 팟캐스트나 오디오북을 2~3x로 듣는 사람들을 보면, 내 경우엔 0.8x로 느리게 돌릴 때가 더 집중할 수 있고 생각할 시간이 더 많아진다고 느낌. 혹시 내가 예외적인 사례인지 궁금
OpenAI의 transcription API로 40분짜리 강연 요약을 시도했지만 길이가 길어 ffmpeg로 3배속 압축 후 25분 제한 내로 구동. 실제로 효과를 봤고, 비용과 시간 모두 절약되어 글로 공유함. 전체 스크립트와 비용 구성 포함
- 이런 비법을 조용히 활용해서 OpenAI보다 더 싼 transcription 사업도 시작 가능했을 것 같다는 농담
"정확도는?" "모르겠음, 원래 그게 요점"이라는 원작자 느낌 그대로 멋진 작업이라는 생각과, 이 미래가 왠지 불안하게 느껴진다는 감상
- 원래 인간이 만든 음성 기록도 정확 보장 없었음. 이런 변환 과정엔 늘 오류가 존재했고, 앞으로도 기대치에 포함. 오히려 더 걱정되는 건 생성형 AI가 사실인 양 해석하거나, 'AI가 더 믿을 만하다'는 사회적 관념 자체임. 인간, 전문가, 기자보다 AI가 더 신뢰성/공정성을 갖췄다는 대중적 생각도 위험함
Gemini 2.0 전 버전에서는 이미지 한 장에 258토큰 요금을 고정으로 받던 방식이 있었는데, 이미지에 훨씬 더 많은 텍스트를 우겨넣으면 그만큼 저렴하게 처리 가능했던 트릭도 있었음
Chrome 확장 프로그램을 만들었는데, huggingface/transformers.js에서 OpenAI Whisper 모델을 WebGPU로 돌려 브라우저에서 바로 오디오를 텍스트로 변환 가능. 예시 리스트 참고. 예컨대, 대통령 소셜미디어의 영상을 듣거나 보긴 싫지만, 경제에 큰 영향을 미치는 망언이 등장할 때는 빠르게 감지해야 하므로, 1분마다 새 포스트를 크롤링해 OCR과 오디오 트랜스크립션을 로컬에서 자동 처리하고, 텍스트 분석까지 수행, 경제적으로 중요할 때만 알림. 프로젝트 링크
- 놀라운 구현이라는 평
OpenAI Whisper API 대신 Groq(저렴하게 distil-large-v3가 시간당 $0.02, whisper-large-v3-turbo가 $0.04, OpenAI는 $0.36/hr)도 추천. 내부적으로 시의회 회의가 유튜브에 올라오면 자동으로 Groq, Replicate, Deepgram 등을 활용해 트랜스크립션 처리
- Hugging Face의 Inference API를 사용하면 여러 API 제공업체를 한 번에 쉽게 바꿀 수 있어서 편하다는 팁. 예시는 여기서 직접 확인 가능
- 시간당 $0.02~$0.04 단가라서 별다른 최적화 필요 없을 듯하지만, 오디오를 더 빠르게 돌려서 비용을 더 줄일 수 있지 않을까 하는 궁금증. 유튜브가 이미 대부분 하루 이내에 자동 자막 기능 제공한다는 궁금증도 동반
- 최신 맥북 유저라면 Whisper 모델을 완전히 무료로 로컬에서 돌릴 수 있다는 사실을 강조. 실제로 본인 소유 하드웨어의 컴퓨팅 자원이 이미 굉장히 저렴하다는 점을 잘 모른다는 느낌
- cloudflare workers ai에서도 whisper-large-v3-turbo 모델을 시간당 약 $0.03에 사용할 수 있는 옵션도 안내 (링크)
Google AI studio에서 유튜브 링크만 던지면 자동으로 speaker label 포함 트랜스크립션, 시각적 단서까지 추출해 주는 기능 강조. 비디오에 멀티모달 지원도 언급
나는 OpenAI에서 API 관련 업무를 하고 있는데, 2~3x 빠른 속도에도 결과가 꽤 괜찮게 나와 놀라움. 실제로 전화 채널용으로는 8khz 오디오를 24khz로 업샘플링해서 잘 사용함. 다만 1x에서 멀어질수록 정확도 저하가 분명히 존재한다는 점, 장기적으론 더 긴 파일 업로드 지원이 필요함
- 내부적으로 이런 속도 최적화를 연구해 정확도 손실이 최소인 배수 포인트를 찾으면 좋겠다는 피드백. 간단한 전처리만으로 API 가격을 낮추는 효과 가능성도 시사
바로 본론으로 들어가는 글쓰기 스타일이 마음에 든다는 의견. 많은 글이 괜히 장황해지는데, 이런 접근법이 참신함. 절반의 저자들은 사실상 핵심 메시지 자체가 없다는 사실도 깨달을 것 같음