2P by somang04 | ★ favorite | 댓글 5개

이게 ASK GN에 맞는지는 모르겠네요..! 근데 뉴스나 Show는 아닌거 같아서 여기에 올립니다.

일전에 주셨던 의견들 기반으로 만들어보고 있습니다.
우연히도 같이 근무하는 사업 담당자 친구도 그런 아이디어가 있어서 비개발자 둘이서 MVP 해보자고 삽질 중이예요.
(클로드 코드 5X + API 비용 모두 자비부담 중입니다.. 사업담당자 친구는 술과 음식을 주고있어요..ㅎㅎ)

드라마/예능/영화 등 콘텐츠를 기준으로 만들고 있다보니, 쓸 수 있는 모델이 제한적이더라구요.
그래서 찾다 찾다가, Whisper(Open AI API) 와 Pyannote, Assembly AI 이렇게 사용하고 있습니다.

pyannote는 무료 기간이 끝나서 결제를 해야하는데 사용량 과금이 아니라 구독 ($19/month)다 보니 패스하고,
Deepgram Nova-3로 테스트 중에 있습니다. (회원 가입하면 $200 줍니다.)

하지만.. 역시 pyannote를 안쓰니 화자 분리가 어려워 replicate.com 에서 meronym/speaker-diarization 이걸로 화자 분리를 하고 있습니다.

최종 결과 보면 그래도 얼추 화자 분리가 되긴 합니다.
Clova랑 비교 할 예정인데, 비교 결과도 공유 드릴께요!

이제 여기서 다음 고민은

  1. 화자 분리는 오디오 기반으로 진행되는데, 여기에 얼굴인식 기능을 추가하면 더 정교 해질까?
  2. 얼굴인식에 필요한 메타데이터는 어떻게 수집을 해야하나?
  3. 드라마/영화/예능 등의 콘텐츠를 기반으로 한다면, 메타는 어디서 얻지? (네이버, 나무위키 등등)
  4. 메타를 수집하는게 비용과 시간대비 품질이 좋아질까?

혹시 이런 쪽으로 고민 하셨던 선배님들이 계셨다면 많은 조언 부탁드립니다...!!!

댓글과 토론

화자분리 관련 연구를 한 적 있어서 제가 아는 바로 말씀을 드리자면

  1. 네, 정교해집니다. 다만 기술적으로 난이도가 좀 있을거에요. 입모양 변화와 음성 싱크까지 매칭이 가능한거니까요. TalkNet-ASD, 3D-Speaker-Toolkit 등 관련 오픈소스가 많으니 잘 참고해보셔도 됩니다. 또한 최근에는 LLM과 결합해서 이미지와 비디오를 함께 Input으로 제공해 화자분리 및 자막생성을 동시에 할 수 있게 하는 SpeakerLM 같은 연구들도 있습니다.
  2. 이건 제가 글쓴 분께서 하시는 사업의 맥락을 잘 모르니 쓰여 있는 정보로만 말씀드리면, 드라마나 영화, 예능 같은 콘텐츠에 나오는 얼굴들은 같은 사람이라도 분장이나 상황에 따라 얼굴이 다 다르게 추출되기 때문에 각 콘텐츠별로 나오는 인물의 얼굴을 다 따놓고 얼굴별로 Clutering을 해서 해당 콘텐츠의 출연진과 1:1로 매칭시키는 작업을 해주셔야합니다. 이건 멀티모달 모델로도 가능은 하겠지만 정확도를 위해선 사람이 라벨링을 해주는 작업이 필요하고 그래서 비용과 시간이 많이 소요됩니다. 돈주고 알바 고용하는 이유기도 하고요. 참고로 음성만 있는 경우에도 이 음성 데이터를 미리 따와서 사람이 라벨링해 임베딩하면 화자분리 품질이 많이 향상됩니다.
  3. 이런 콘텐츠의 db는 tmdb, imdb, kmdb 등 관련된 api가 많이 있기 때문에 무료든 유료든 누구나 어느 정도 받아올 수 있습니다. 그걸 db화하는건 직접 하시는게 필요할거구요. 크롤링도 방법이라면 방법입니다.
  4. 무엇을 하려고 하시는진 모르겠지만, 제가 위에서 말씀드린건 말은 쉽지만 실제로 정확도를 높이기엔 많은 시간과 비용이 필요한 작업들입니다. 제가 했던 연구들도 여러가지 이유로 꽤 길어졌었구요. 8~90%의 정확도를 만드는건 쉽지만 누구나 할 수 있는 일입니다. 그래서 이 나머지 10%의 디테일을 채우는게 사업화의 본질이고 핵심 가치이겠죠. "품질이 좋아지냐"고 물으신다면 당연히 좋아집니다. 다만 "비용과 시간대비" 좋아지냐고 하면 그건 잘 모르겠습니다. 말씀드린대로 10% 정도의 향상이거든요.

어찌됐든 비개발자분들께서 이런 도전을 하시는건 대단한거고, 멋진겁니다. 잘 되었으면 좋겠네요.

감사합니다!! 역시 자동화로는 한계가 있고, 테깅과 맵핑은 사람 손을 태워야하는게 맞는거네요..

노예 1을 더 섭외해야겠네요.. 너무 많은 도움이 되었습니다!!

감사합니다!!

diarization 좋긴하던데 아쉬운 부분들이 좀 있어서 공개되있는 모델들 중에서 더 깊게 들어가려면 아래 댓글처럼 아예 리서치 영역으로 빠지는 것 같아요.

뭣 모르고 헤딩하는 중입니다..ㅎㅎ 역시 모르니 그냥 하게 되네요.
아래 분 말씀처럼 사람 손을 태워야하니, 노예 1을 섭외 중 입니다.. ㅎㅎ

오.... 도전하시는게 멋지십니다... 저도 시너지 받고갑니다!! 파이팅!!!