Ask GN: 한국어 다중화자 구분을 잘하는 모델이 있을까요??

Open AI의 Whisper 도 써보고, NCP의 Clova도 써봤는데, 한국어 다중화자 구분이 생각보다 많이 어려운거 같아요.
혹시 사용해보신 로컬 or 클라우드, 상용 모델 중에 추천해 주실 만한 것들이 있을까요?

예상 프로세스는

콘텐츠 수집 > 오디오 분리(Music와 Effect, Voice) > 오디오 파형분석 > 오디오 내 다중 화자 분리 > 다중 화자 기준 STT 진행 > 타임코드 정보 기반 대본 제작 이런 순으로 해볼 예정입니다.

결과물에 따라 더빙/자막제작 까지도 확장이 가능해 보입니다.

제가 보는 기준은 다음과 같습니다.

많은 고견 부탁드립니다!

제가 최근에 이것 저것 시도해 본 바로는 다중 화자는 Cloava가 잘 해 줍니다.
적당한 품질이면 위에 추천해 주신 리턴제로도 괜찮습니다.
stt가 살짝 품질이 딸려도 결과물을 성능 좋은 llm에 전달한다면 어느 정도 만족할만한 결과를 보여줍니다.

저의 경우에 화자 인식이 중요하지 않아 Gemini로 채택했는데.
각 솔루션이 장단점이 있기 때문에 결국 님께서 풀고자하는 데이터를 몇개 샘플링 해서 선택하는걸 추천 드립니다.

https://developers.rtzr.ai/docs/stt-file/diarization/
다중 화자 구분만 쓸수는 없지만 STT랑 함께 엮어서 API가 제공됩니다.(OpenAI나 클로바도 비슷)

화자 구분은 다글로가 잘하는거 같았어요.

오! 그런가죠?! 이거 플랫폼인가요? 전 로컬LLM 이나 API 기반으로 작동되는 형태를 찾고 있습니다!

네, 아쉽게도 다글로에서 로컬 LLM을 제공하고 있지는 않네요!
유료이지만 API 제공도 하는 듯 합니다. (https://developers.daglo.ai/guide/)

함께 보면 좋은 글 β