OTranscribe: 무료/오픈소스 오디오 인터뷰 전사 도구

(otranscribe.com)

2P by GN⁺ 2024-08-10 | ★ favorite | 댓글 3개

무료 "웹앱"으로 녹음된 인터뷰를 쉽게 필사할 수 있음
주요 기능
- 영상 플레이어와 문서 편집기 사이를 전환할 필요없음. 브라우저에서 바로 처리
- 키보드에서 손을 떼지 않고 일시 정지, 되감기 및 빨리 감기 가능
- 대화형 타임스탬프로 필사본을 쉽게 탐색할 수 있음
- 매 초마다 브라우저 저장소에 자동 저장됨
- 개인 정보 보호 - 오디오 파일과 필사본이 컴퓨터를 떠나지 않음
- Markdown, 일반 텍스트 및 Google Docs로 내보내기 가능
- 통합 플레이어를 통한 비디오 파일 지원
- MIT 라이선스 하에 오픈 소스

GN⁺의 정리

oTranscribe는 인터뷰 녹음을 필사하는 과정을 간소화하는 무료 웹 앱임
사용자는 키보드에서 손을 떼지 않고도 오디오를 제어할 수 있으며, 필사본은 매 초마다 자동으로 저장됨
이 앱은 개인 정보 보호를 중시하며, 오디오 파일과 필사본이 컴퓨터를 떠나지 않음
Markdown, 일반 텍스트 및 Google Docs로 내보내기 기능을 제공하여 다양한 형식으로 필사본을 활용할 수 있음
비슷한 기능을 제공하는 다른 프로젝트로는 Express Scribe와 TranscribeMe가 있음

▲

xguru 2024-08-11 [-]

음? 브라우저에서 어떻게 가능한가 했더니.. AI 없이 그냥 듣고 필사하는 도구로군요.
요즘 Whisper로 한국어 인식도 잘 되는데 꼭 이런 걸 쓸 이유가..

답변달기

▲

znjadong 2024-08-14 [-]

화자가 많은 경우나 발음이 불명확한 경우, 녹음 품질이 좋지 않을 경우에는 AI의 도움을 받기 힘들 수 있어요. 그리고 '충분히 잘' 작동하는 것 이상의 품질이 필요한 경우도 왕왕 있습니다.

답변달기

▲

GN⁺ 2024-08-10 [-]

Hacker News 의견

MahmoudAshraf97의 Whisper-diarization을 사용하여 인터뷰를 전사했음
- 여러 화자의 발언을 화자 번호로 구분하여 파일 생성
- 타임스탬프가 포함된 파일도 생성하여 자막으로 사용 가능함
OTranscribe는 자동 음성 인식 도구가 아닌 수동 전사를 돕는 UI임
실시간으로 단어 단위 전사, 로컬에서 작동, 최신 오픈소스 모델 사용 가능한 앱을 찾고 있음
- otter.ai를 사용 중이지만 인터넷 연결 필요 및 전사 지연 문제 있음
- Whisper 기반 앱들은 전체 녹음을 한 번에 처리해야 함
- Apple의 음성 인식 프레임워크는 현재 기능이 다소 부족함
AI 통합이 없다는 점이 놀라움
- AI 결과도 출판 품질을 위해 검수 및 QA 필요
- 화자 식별, 특이한 성씨 수정 등 작업 필요
oTranscribe는 자동으로 오디오를 텍스트로 변환하지 않음
- 수동 전사를 덜 고통스럽게 만드는 도구임
TurboScribe 서비스 추천
- 하루에 최대 3개의 파일(파일당 30분) 무료 전사
- 유료 플랜은 파일당 최대 10시간 전사 가능
- 화자 인식, 다양한 내보내기 형식 지원, AI 도구 포함
Gemini-1.5-Pro-Experiment-0801을 사용하여 인터뷰 전사 실험
- 결과가 거의 완벽함
- 특정 단어를 인용 부호로 표시한 점이 인상적임
Aiko의 무료 iOS 앱 사용 중
- OpenAI의 Whisper 모델 사용
- SRT, TXT, CSV, JSON 등 형식으로 내보내기 가능
Whisper와 pyannote를 사용한 macOS 오픈소스 앱 개발 중
- 기능은 있지만 속도가 느림
- Pyannote를 CoreML로 변환하는 데 어려움 겪고 있음
- 기여 환영
AI 포함 도구 개발 중
- YouTube에서 다운로드, Vosk로 전사, pyannote로 화자 구분
- 전사 내용을 검색 엔진에 저장, 웹앱 구현 필요
- 협력 희망

답변달기