Hacker News 의견
  • MahmoudAshraf97의 Whisper-diarization을 사용하여 인터뷰를 전사했음

    • 여러 화자의 발언을 화자 번호로 구분하여 파일 생성
    • 타임스탬프가 포함된 파일도 생성하여 자막으로 사용 가능함
  • OTranscribe는 자동 음성 인식 도구가 아닌 수동 전사를 돕는 UI임

  • 실시간으로 단어 단위 전사, 로컬에서 작동, 최신 오픈소스 모델 사용 가능한 앱을 찾고 있음

    • otter.ai를 사용 중이지만 인터넷 연결 필요 및 전사 지연 문제 있음
    • Whisper 기반 앱들은 전체 녹음을 한 번에 처리해야 함
    • Apple의 음성 인식 프레임워크는 현재 기능이 다소 부족함
  • AI 통합이 없다는 점이 놀라움

    • AI 결과도 출판 품질을 위해 검수 및 QA 필요
    • 화자 식별, 특이한 성씨 수정 등 작업 필요
  • oTranscribe는 자동으로 오디오를 텍스트로 변환하지 않음

    • 수동 전사를 덜 고통스럽게 만드는 도구임
  • TurboScribe 서비스 추천

    • 하루에 최대 3개의 파일(파일당 30분) 무료 전사
    • 유료 플랜은 파일당 최대 10시간 전사 가능
    • 화자 인식, 다양한 내보내기 형식 지원, AI 도구 포함
  • Gemini-1.5-Pro-Experiment-0801을 사용하여 인터뷰 전사 실험

    • 결과가 거의 완벽함
    • 특정 단어를 인용 부호로 표시한 점이 인상적임
  • Aiko의 무료 iOS 앱 사용 중

    • OpenAI의 Whisper 모델 사용
    • SRT, TXT, CSV, JSON 등 형식으로 내보내기 가능
  • Whisper와 pyannote를 사용한 macOS 오픈소스 앱 개발 중

    • 기능은 있지만 속도가 느림
    • Pyannote를 CoreML로 변환하는 데 어려움 겪고 있음
    • 기여 환영
  • AI 포함 도구 개발 중

    • YouTube에서 다운로드, Vosk로 전사, pyannote로 화자 구분
    • 전사 내용을 검색 엔진에 저장, 웹앱 구현 필요
    • 협력 희망