# Ask GN: 한국어 다중화자 구분을 잘하는 모델이 있을까요??

> Clean Markdown view of GeekNews topic #29417. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29417](https://news.hada.io/topic?id=29417)
- GeekNews Markdown: [https://news.hada.io/topic/29417.md](https://news.hada.io/topic/29417.md)
- Type: ask
- Author: [somang04](https://news.hada.io/@somang04)
- Published: 2026-05-12T10:58:41+09:00
- Updated: 2026-05-12T10:58:41+09:00
- Points: 1
- Comments: 2

## Topic Body

Open AI의 Whisper 도 써보고, NCP의 Clova도 써봤는데, 한국어 다중화자 구분이 생각보다 많이 어려운거 같아요.  
혹시 사용해보신 로컬 or 클라우드, 상용 모델 중에 추천해 주실 만한 것들이 있을까요?  
  
예상 프로세스는  
  
1. 콘텐츠 수집 > 오디오 분리(Music와 Effect, Voice) > 오디오 파형분석 > 오디오 내 다중 화자 분리 > 다중 화자 기준 STT 진행 > 타임코드 정보 기반 대본 제작 이런 순으로 해볼 예정입니다.   
  
결과물에 따라 더빙/자막제작 까지도 확장이 가능해 보입니다.  
  
제가 보는 기준은 다음과 같습니다.  
  
- 오디오 분리의 산출물의 결과가 어떻나?  
- 오디오 기준으로 동일 인물의 목소리 인지 구분이 가능한가?  
  
많은 고견 부탁드립니다!

## Comments



### Comment 57282

- Author: yunsub2
- Created: 2026-05-12T11:04:05+09:00
- Points: 1

화자 구분은 다글로가 잘하는거 같았어요.

### Comment 57301

- Author: somang04
- Created: 2026-05-12T14:17:48+09:00
- Points: 1
- Parent comment: 57282
- Depth: 1

오! 그런가죠?!  이거 플랫폼인가요? 전 로컬LLM 이나 API 기반으로 작동되는 형태를 찾고 있습니다!
