# Hibiki - 고품질 동시 음성-to-음성 번역 모델

> Clean Markdown view of GeekNews topic #19169. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19169](https://news.hada.io/topic?id=19169)
- GeekNews Markdown: [https://news.hada.io/topic/19169.md](https://news.hada.io/topic/19169.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-11T09:53:55+09:00
- Updated: 2025-02-11T09:53:55+09:00
- Original source: [github.com/kyutai-labs](https://github.com/kyutai-labs/hibiki)
- Points: 13
- Comments: 2

## Summary

Hibiki는 고충실도의 실시간 스트리밍 음성 번역 모델로, 사용자가 말하는 동안 실시간으로 번역된 음성을 생성하며, 텍스트 번역과 원본 음성의 스타일을 유지하는 음성 변환 기능도 제공합니다. 이 모델은 Decoder-only 구조와 Moshi의 멀티스트림 아키텍처를 활용하여 원본 및 번역 음성을 동시에 모델링하며, 합성 데이터를 통해 학습을 진행합니다. 현재 프랑스어에서 영어로의 번역만 지원하며, Hibiki-M과 같은 경량 모델은 스마트폰에서도 실행 가능합니다.

## Topic Body

- 고충실도(High Fidelity) 실시간 스트리밍 음성 번역(Speech-to-Speech Translation) 모델  
- 일반적인 오프라인 번역과 달리, 사용자가 말하는 동안 "실시간으로 번역된 음성을 생성"함  
- 텍스트 번역도 함께 제공하며, 원본 음성의 스타일을 유지하는 음성 변환 기능도 포함됨  
  
### 아키텍처  
  
- "Decoder-only 모델"로, 동시 음성 번역을 위해 설계됨  
- [Moshi](https://arxiv.org/abs/2410.00037)의 **멀티스트림(multistream) 아키텍처**를 활용하여 원본 및 번역 음성을 동시에 모델링함  
- 초당 12.5Hz의 일정한 프레임 속도로 **연속적인 출력 스트림**을 생성하며, 타임스탬프가 포함된 텍스트 번역도 제공함  
  
### 학습 방법  
  
- 원본 및 번역 음성과 텍스트가 정렬된 데이터가 필요하지만, 실제로 이러한 데이터는 많지 않음  
- 그래서 **합성 데이터(synthetic data)를 생성**하여 학습을 진행  
- [MADLAD](https://huggingface.co/google/madlad400-3b-mt) 기계 번역 시스템을 활용하여 원본과 번역 텍스트를 **약한 지도학습 방식으로 정렬**함  
- 번역이 원본에서 예측 가능해지는 시점에만 단어가 나타나도록 **정렬 규칙 적용**  
  - 방법 1: **침묵 삽입(silence insertion)**  
  - 방법 2: **정렬을 반영한 음성 합성(alignment-aware TTS)**  
  
### 추론 (Inference)  
  
- Hibiki는 실시간으로 원본 음성을 인코딩하고 번역된 음성을 생성함  
- 복잡한 추론 방식 없이 **온도 샘플링(temperature sampling) 방식**을 사용하여 배치 처리와 호환됨  
- **Classifier-Free Guidance** 계수를 조정하여 음성 유사도를 조절 가능  
  - 계수가 높을수록 원본과 비슷한 음성을 생성하지만, 너무 높으면 번역 품질이 저하될 수 있음  
- 현재 Hibiki는 **프랑스어 → 영어 번역만 지원**  
- 경량 모델인 **Hibiki-M**은 스마트폰에서도 실행 가능  
  
### 모델 실행 방법  
  
- PyTorch, Rust, MLX(macOS), MLX-Swift(iOS)에서 실행 가능  
- **Hibiki의 코드는 Moshi 프로젝트와 거의 동일**하며, 실제 구현은 [kyutai-labs/moshi](https://github.com/kyutai-labs/moshi) 저장소에서 확인 가능  
- 현재 **프랑스어 → 영어(FR → EN) 번역**을 지원하는 두 가지 모델만 제공  
  - **Hibiki 2B**: 더 깊은 Transformer 구조, 스트림당 16 RVQ  
  - **Hibiki 1B**: 경량 버전, 스트림당 8 RVQ, **온디바이스(In-device) 실행 가능**

## Comments



### Comment 34410

- Author: sftblw
- Created: 2025-02-11T13:36:32+09:00
- Points: 1

Rust 배포는 [candle](https://github.com/huggingface/candle/)을 쓰네요. ([Cargo.toml](https://github.com/kyutai-labs/hibiki/blob/19b4d2b9c12ef85f5e8a49e0bb1d11c59d3b94fa/hibiki-rs/Cargo.toml#L14-L16))

### Comment 34398

- Author: dbs0829
- Created: 2025-02-11T09:58:41+09:00
- Points: 2

어순이 완전 다른 언어들은 실시간 번역이 좀 어려울 것 같은데, 논문을 한번 살펴봐야겠네요.
