Dia - 현실적인 대화를 생성하는 오픈 웨이트 TTS

GN⁺ 2025-04-22 | parent | ★ favorite | on: Dia - 현실적인 대화를 생성하는 오픈 웨이트 TTS 모델(github.com/nari-labs)

Hacker News 의견

기술적 감탄 및 칭찬

단 두 명이 3개월 만에 만든 프로젝트임에도 매우 높은 퀄리티를 보여줌
대형 기업에 비해 작은 팀이 오디오 모델 분야에서 경쟁력 있는 결과를 낸다는 점이 인상적임
"진짜 사람처럼 들린다", "TTS의 미래를 보는 듯하다", "예시가 놀랍다" 등의 반응
여러 사용자가 The Office 장면을 기반으로 만든 오디오 예시를 특히 인상적으로 평가함

음성 품질 및 특징에 대한 평가

대부분 "사람처럼 자연스럽다", "감정 표현이 잘된다", "웃음, 기침, 외침 등 디테일이 살아있다"는 긍정적인 반응
일부는 과장된 감정, 광고같은 느낌, 초반 잡음 등의 단점도 언급
특정 성우 스타일(예: NPR 톤)이나 과거 YouTube 플래시 애니 느낌과 유사하다는 의견도 있음

데모 사용 후기 및 직접 테스트

M2 MacBook 등 다양한 하드웨어에서 실행 성공 사례 공유
HuggingFace Spaces를 통해 온라인에서 바로 체험 가능하다는 점에 호평
Docker와 CUDA 컨테이너로도 쉽게 실행 가능하다는 피드백 공유

오디오북, 소설 활용 관련 논의

다양한 사용자들이 오디오북 제작, 캐릭터별 성우 분리, 감정 풍부한 대사 구현 등에서 잠재력 탐색
다만, 일부는 "그래도 인간 성우가 낫다"는 의견, "좋은 성우는 작품에 고유한 질감을 부여한다"는 주장도 있음
AI가 제대로 감정과 캐릭터를 해석한다면 오히려 더 낫다는 반론도 존재

음성 합성 관련 기능 요청 및 질문

다음과 같은 기능/지원 요청이 나옴:
- 다국어 지원 (중국어, 핀란드어 등)
- 2인 이상 대화 지원
- 음성 클로닝(본인 목소리)
- 단어 단위 타이밍 정보
- AMD GPU 지원
- 스트리밍 출력 지원
이에 대해 개발자 측에서는 기능별로 개발 중이거나 향후 지원 계획 공유

라이선스 및 오픈소스 관련

Apache 2.0으로 배포 중이며, 원래 문구(연구 목적 한정)는 “shady stuff 하지 말라”는 의미였음을 개발자가 직접 설명
일부 사용자는 혼란을 줄 수 있으므로 더 명확히 해야 한다고 지적

학습 데이터 및 훈련 과정 관련 질문

다수의 사용자가 "데이터셋은 어디서 왔나", "어떻게 훈련했나" 질문
개발자 측에서는 기술 리포트에서 고수준 개요 제공 예정이라고 응답

이름 중복 논란

GNOME의 다이어그램 툴(Dia), diabrowser.com 등과의 이름 충돌 지적
"AI 프로젝트가 기존 오픈소스 이름을 일부러 차용한다"는 비판도 있음
이에 개발자 측은 "몰랐다, 앞으로 명확히 구분할 것"이라고 답변

사용성과 개선 피드백

데모 사이트가 Notion 기반이라 느리고 링크 공유 불편하다는 의견 → GitHub Pages 같은 가벼운 페이지 제안
"join waitlist" 문구 혼동, 불필요한 venv 명시 등 README 개선 제안
서버 캐시 미사용으로 모델을 매번 다운로드하는 문제 등 설정 관련 피드백

개발/응용 및 통합 사례

E5-F2, Sesame-TTS 등 다른 TTS 모델들과 비교
특정 도메인(의료 용어 등) 정확성 강조하는 사용자 존재
iOS 실행을 위한 codec 정보 요청 및 응용 가능성 제시
실제 서비스 적용 시 스트리밍 및 초기 응답 속도 등 고려 요소 공유

기타

HuggingFace 링크 오류나 접근 문제에 대한 안내 및 수정 공유
데모 인터페이스의 북마크 기능 등 부가적인 작은 기능 발견
사용자의 하드웨어 제약, TTS 활용에 대한 일반적인 기대와 우려도 함께 언급됨