Omni SenseVoice - 단어별 타임스탬프 가능한 고속 음성 인식
(github.com/lifeiteng)- 자동 음성 인식(ASR), 음성 언어 식별(LID), 음성 감정 인식(SER), 오디오 이벤트 감지(AED) 등의 기능을 갖춘 다국어 음성 이해 모델 SenseVoice 기반
- 초고속 추론과 정확한 타임스탬프에 최적화되어 있어 더 스마트하고 빠르게 오디오 트랜스크립션을 처리할 수 있음
- 주요 옵션
-
--language
: 언어를 자동으로 감지/지정(auto, zh, en, yue, ja, ko) -
--textnorm
: 역 텍스트 정규화 적용 여부 선택(역 정규화된 경우 withitn, 원시 텍스트의 경우 woitn) -
--device-id
: 특정 GPU에서 실행(기본값: CPU의 경우 -1) -
--quantize
: 빠른 처리를 위해 양자화된 모델을 사용
-