Hacker News 의견
  • Andrej가 진행한 강연의 속도는 원래 일반인보다 최소 1.5배 빠른 자연스러운 속도라서, 따라가려면 유튜브 재생 속도를 꼭 1x로 낮춰야 한다는 느낌 받음. OpenAI minute를 더 효율적으로 만들고 싶으면, 침묵 구간을 아예 빼고 처리하는 방법 제안.
    ffmpeg 명령어 예시로 -50dB 이하 20ms 이상의 모든 침묵을 20ms 정지로 치환해 39분 31초 영상을 31분 34초로 단축 가능성 경험. 본문의 취지에 따라 길이만 재서 효과 측정, 짧아진 버전의 품질은 따로 확인하지 않음

    • 나는 늘 2x 속도로 모든 영상을 보고 Andrej의 강연도 2x가 자연스럽게 느껴짐. 다만 내가 만든 영상은 주변 사람들이 너무 빨라서 0.75x로 봐야겠다고 종종 얘기함. 내 입장에서 2x가 아니면 너무 느린 체감. 참고로 John Carmack의 말 빠르기는 2x도 완벽히 자연스럽다고 느낌. 최근 내 영상이 궁금하면 여기서 확인 가능하며, 대부분 즉석에서 주제만 정하고 녹음하는 식으로 250~300편 이상 진행. 혹시 내 영상이 지나치게 빠르다고 느끼는지, 아니면 충분히 평범한 속도인지 궁금

    • 굳이 품질을 확인하지 않았다면, 두 버전의 결과물을 diffchecker 같은 걸로 비교하면 간단했을 것 같다는 생각

    • 일반인 기준 2.25x 유튜브 속도가 있었으면 하는 바람 있음. 나는 항상 단축키를 쓰고, 2x로 90% 정도 듣는데, Andrej의 강연만은 1.25x보다 빠르게 돌리기가 힘듦

    • Andrej가 일반인보다 1.5배 이상 빠르게 말한다는 점에서, 유튜브 속도를 원래대로 돌려야 한다는 말에 공감. 사람의 말하기 속도를 자동으로 감지할 수 있는 방법이 있을지 궁금. 속도는 주관적이고 사람마다 다르지만, OP가 시도한 방법이 실패했을 때를 탐지할 수 있다면 재미있을 것 같음. (예: x4 속도에서 품질 망가져버린 것처럼)

    • ffmpeg 마법을 더 활용할 수 있다는 생각에 기대감. 나중에 꼭 시도해보고 싶어 아이디어에 감사

  • 대충 훑어보기와 시간을 내서 제대로 읽어보기에 대한 생각.
    Andrej 강연의 transcript와 요약본만 읽었을 땐 평범하게 느껴져 그냥 넘겼는데, 유튜브에서 전체 영상을 보니까 엄청 다양한 아이디어, 생각과 결정으로 이어지는 경험을 함. 이런 일은 다른 주제에서도 자주 겪음. 직접 컨퍼런스에 참석해서 들으면 온라인 강연보다 훨씬 더 유용함. 온라인으로 보는 것도 요약만 읽는 것보다 훨씬 유익. 심지어 10분 만에 대충 생각하고 마는 것보다 산책하면서 깊이 생각하는 편이 훨씬 나음. 생각을 위해서는 천천히 하는 게 보통 더 좋다는 체감

    • 이게 진짜 신기하게 느껴짐. 학교에서 획일적으로 지식을 던져주는 걸 싫어했던 개발자로서, 지금은 그런 형태의 경험에 기꺼이 돈까지 내고 있다는 현실이 이상. 읽기 자체가 즐거움이고, 강연을 보면서 생각이 맞아 들어가는 감각도 멋짐. 세상의 의미를 우리 스스로 생각하는 게 인간다움이라 보는 입장. 그런데 오히려 이런 경향이 모두를 어리석게 만드는 길 같아 전혀 공감할 수 없음

    • 위 의견에 매우 공감. 강연이 주는 가치는 공개된 사실이나 아이디어 그 자체보다, 그걸 계기로 생기는 다양한 부가적 영감이 더 크다고 생각. 세상에는 정말 무수히 많은 정보가 존재하고, 맥락이 전부임. 만약 조금만 더 구체적인 맥락이 붙었다면 시간을 내서 봤을 텐데, 맥락 없는 링크로만 받으니까 그냥 ‘핵심’만 빠르게 파악해서 대응하려는 태도. 결국 이번에는 덕분에 흥미 생겨서 다시 볼지도 모르겠음. “천천히 생각하는 게 보통 더 좋다”에 다시 한 번 동의

    • 천천히 생각하는 게 중요한 건 맞지만, 강연 내용을 조금 들었다가 나중에 다시 보면서 더 깊게 숙고하는 방식도 꽤 쓸모 있을지도 생각

    • 과연 영상의 속도가 중요했는지, 아니면 영상과 오디오가 주는 부가 정보 때문인지 질문. 말을 잘하는 연사는 똑같은 메시지도 오디오/비디오에서 훨씬 더 잘 전달하는 체감 있음. 오디오는 특정 부분에 힘을 실고, 영상은 제스처나 표정으로도 메시지를 보탤 수 있기 때문

    • 나는 오히려 팟캐스트나 오디오북을 2~3x로 듣는 사람들을 보면, 내 경우엔 0.8x로 느리게 돌릴 때가 더 집중할 수 있고 생각할 시간이 더 많아진다고 느낌. 혹시 내가 예외적인 사례인지 궁금

  • OpenAI의 transcription API로 40분짜리 강연 요약을 시도했지만 길이가 길어 ffmpeg로 3배속 압축 후 25분 제한 내로 구동. 실제로 효과를 봤고, 비용과 시간 모두 절약되어 글로 공유함. 전체 스크립트와 비용 구성 포함

    • 이런 비법을 조용히 활용해서 OpenAI보다 더 싼 transcription 사업도 시작 가능했을 것 같다는 농담
  • "정확도는?" "모르겠음, 원래 그게 요점"이라는 원작자 느낌 그대로 멋진 작업이라는 생각과, 이 미래가 왠지 불안하게 느껴진다는 감상

    • 원래 인간이 만든 음성 기록도 정확 보장 없었음. 이런 변환 과정엔 늘 오류가 존재했고, 앞으로도 기대치에 포함. 오히려 더 걱정되는 건 생성형 AI가 사실인 양 해석하거나, 'AI가 더 믿을 만하다'는 사회적 관념 자체임. 인간, 전문가, 기자보다 AI가 더 신뢰성/공정성을 갖췄다는 대중적 생각도 위험함
  • Gemini 2.0 전 버전에서는 이미지 한 장에 258토큰 요금을 고정으로 받던 방식이 있었는데, 이미지에 훨씬 더 많은 텍스트를 우겨넣으면 그만큼 저렴하게 처리 가능했던 트릭도 있었음

  • Chrome 확장 프로그램을 만들었는데, huggingface/transformers.js에서 OpenAI Whisper 모델을 WebGPU로 돌려 브라우저에서 바로 오디오를 텍스트로 변환 가능. 예시 리스트 참고. 예컨대, 대통령 소셜미디어의 영상을 듣거나 보긴 싫지만, 경제에 큰 영향을 미치는 망언이 등장할 때는 빠르게 감지해야 하므로, 1분마다 새 포스트를 크롤링해 OCR과 오디오 트랜스크립션을 로컬에서 자동 처리하고, 텍스트 분석까지 수행, 경제적으로 중요할 때만 알림. 프로젝트 링크

    • 놀라운 구현이라는 평
  • OpenAI Whisper API 대신 Groq(저렴하게 distil-large-v3가 시간당 $0.02, whisper-large-v3-turbo가 $0.04, OpenAI는 $0.36/hr)도 추천. 내부적으로 시의회 회의가 유튜브에 올라오면 자동으로 Groq, Replicate, Deepgram 등을 활용해 트랜스크립션 처리

    • Hugging Face의 Inference API를 사용하면 여러 API 제공업체를 한 번에 쉽게 바꿀 수 있어서 편하다는 팁. 예시는 여기서 직접 확인 가능

    • 시간당 $0.02~$0.04 단가라서 별다른 최적화 필요 없을 듯하지만, 오디오를 더 빠르게 돌려서 비용을 더 줄일 수 있지 않을까 하는 궁금증. 유튜브가 이미 대부분 하루 이내에 자동 자막 기능 제공한다는 궁금증도 동반

    • 최신 맥북 유저라면 Whisper 모델을 완전히 무료로 로컬에서 돌릴 수 있다는 사실을 강조. 실제로 본인 소유 하드웨어의 컴퓨팅 자원이 이미 굉장히 저렴하다는 점을 잘 모른다는 느낌

    • cloudflare workers ai에서도 whisper-large-v3-turbo 모델을 시간당 약 $0.03에 사용할 수 있는 옵션도 안내 (링크)

  • Google AI studio에서 유튜브 링크만 던지면 자동으로 speaker label 포함 트랜스크립션, 시각적 단서까지 추출해 주는 기능 강조. 비디오에 멀티모달 지원도 언급

  • 나는 OpenAI에서 API 관련 업무를 하고 있는데, 2~3x 빠른 속도에도 결과가 꽤 괜찮게 나와 놀라움. 실제로 전화 채널용으로는 8khz 오디오를 24khz로 업샘플링해서 잘 사용함. 다만 1x에서 멀어질수록 정확도 저하가 분명히 존재한다는 점, 장기적으론 더 긴 파일 업로드 지원이 필요함

    • 내부적으로 이런 속도 최적화를 연구해 정확도 손실이 최소인 배수 포인트를 찾으면 좋겠다는 피드백. 간단한 전처리만으로 API 가격을 낮추는 효과 가능성도 시사
  • 바로 본론으로 들어가는 글쓰기 스타일이 마음에 든다는 의견. 많은 글이 괜히 장황해지는데, 이런 접근법이 참신함. 절반의 저자들은 사실상 핵심 메시지 자체가 없다는 사실도 깨달을 것 같음