Hacker News 의견
  • OpenAI Whisper 저장소를 사용하는 것 같음. 진정한 비교를 위해서는 MLX를 4090에서 실행되는 faster-whisper나 insanely-fast-whisper와 비교해야 함.

    • 실제 사용 사례에서 faster whisper가 이전 세그먼트 텍스트를 포함할 때 품질이 더 좋다는 것을 발견함.
    • faster whisper는 OpenAI/whisper보다 대략 4-5배 빠르며, insanely-fast-whisper는 faster whisper보다 또 다시 3-4배 빠름.
    • 4090에서 실행된 Whisper가 매우 최적화되지 않았다면 이러한 결과는 의심스러움.
  • Apple MLX의 최신 릴리스를 활용하고 있으며, Apple 특화 최적화를 사용하는 코드임.

    • MLX가 Mac과 iOS에서 Swift 바인딩이 출시되면 주목을 받을 것으로 예상됨.
    • 현재 C++20 컴파일 문제가 있을 수 있음.
  • Whisper가 순차적인 특성과 정수 수학 때문에 선택되었는지, 다른 모델에도 이러한 결과가 적용되는지 의문.

    • MLX에서 아직 최적화되지 않은 연산이 있음.
    • CPU/GPU에 직접 연결된 매우 빠른 RAM의 장점과 이로 인한 지연 시간/공동 접근성 관점에서 인상적인 숫자임.
    • M3 Max 시스템의 비용이 4090의 약 2배임을 고려할 가치가 있음.
  • Mac M1에서 Whisper를 실행하는 것은 쉬우나 MLX를 기본적으로 사용하지 않음.

    • MLX를 사용하도록 설정하는 데 필요한 것을 파악하기 위해 몇 시간을 소비함.
    • GPU가 있는 VM을 빌려 몇 분 만에 Whisper를 시작함.
  • 어떤 것이 X 작업에 대해 최고의 선택인지에 대한 많은 논쟁이 있겠지만, 낮은 전력 소비에서 이러한 성능 수준을 제공하는 것이 매력적임.

  • Apple의 Vision Pro를 고려할 때, 노트북에서는 큰 의미가 없을 수 있지만 전력을 많이 소모하는 헤드셋에서는 큰 이점임.

  • 좋은 오픈 소스 필사 및 발화자 식별 앱이나 워크플로우에 대한 도움 요청.

    • 몇 가지를 살펴봤지만 잘 작동하지 않고 충돌함.
  • 대부분의 GPU에서 1시간 분량의 오디오를 1분 이내에 필사할 수 있는 Whisper 파생 저장소 사용 권장.