13P by xguru 1달전 | favorite | 댓글 1개
  • 자동 음성 인식(ASR), 음성 언어 식별(LID), 음성 감정 인식(SER), 오디오 이벤트 감지(AED) 등의 기능을 갖춘 다국어 음성 이해 모델 SenseVoice 기반
  • 초고속 추론과 정확한 타임스탬프에 최적화되어 있어 더 스마트하고 빠르게 오디오 트랜스크립션을 처리할 수 있음
  • 주요 옵션
    • --language: 언어를 자동으로 감지/지정(auto, zh, en, yue, ja, ko)
    • --textnorm: 역 텍스트 정규화 적용 여부 선택(역 정규화된 경우 withitn, 원시 텍스트의 경우 woitn)
    • --device-id: 특정 GPU에서 실행(기본값: CPU의 경우 -1)
    • --quantize: 빠른 처리를 위해 양자화된 모델을 사용

한국어가 옵션에 있으니 테스트 해보고싶네요 ㅎ