# 메타의 1,600개 언어용 Omnilingual MT

> Clean Markdown view of GeekNews topic #27731. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27731](https://news.hada.io/topic?id=27731)
- GeekNews Markdown: [https://news.hada.io/topic/27731.md](https://news.hada.io/topic/27731.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-03-22T12:37:25+09:00
- Updated: 2026-03-22T12:37:25+09:00
- Original source: [ai.meta.com](https://ai.meta.com/research/publications/omnilingual-mt-machine-translation-for-1600-languages/?_fb_noscript=1)
- Points: 4
- Comments: 1

## Topic Body

- **Meta AI**가 개발한 **Omnilingual Machine Translation(OMT)** 은 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섬
- **공개 코퍼스·역번역·데이터 마이닝**을 결합해 저자원 및 소수 언어까지 포괄하는 **대규모 다국어 데이터셋**을 구축
- **BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET** 등 다양한 **품질·유해성 평가 도구**를 통합해 신뢰도 높은 번역 성능을 측정
- **LLaMA3 기반 decoder-only 모델**과 **encoder–decoder 구조의 OMT-NLLB**를 병행해, **저연산 환경에서도 고품질 번역**을 구현
- **1,600개 언어 전반의 일관된 문장 생성과 교차언어 전이 향상**을 달성하며, **글로벌 언어 포용성 확대**의 중요한 진전으로 평가됨

---

### Omnilingual MT 개요
- **Omnilingual Machine Translation (OMT)** 는 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로 **Meta AI**가 개발
- 기존 **No Language Left Behind (NLLB)** 프로젝트가 200개 언어까지 확장했던 성과를 기반으로, 훨씬 더 많은 언어를 포괄
- 기존 대형언어모델(LLM) 기반 번역은 품질은 높았지만 언어 범위가 제한적이었으며, 특히 **저자원·소수 언어의 생성 능력 부족**이 문제로 지적됨
- OMT는 이러한 한계를 극복하기 위해 **데이터 전략, 모델 구조, 평가 체계**를 전면적으로 확장

### 데이터 전략과 언어 커버리지 확장
- OMT는 **공개 다국어 코퍼스**와 **신규 생성 데이터셋**을 통합해 언어 범위를 대폭 확장
  - **MeDLEY bitext**(수동 정제 병렬 데이터), **역번역(synthetic backtranslation)**, **데이터 마이닝(mining)** 기법을 결합
  - 이를 통해 **소수 언어(long-tail languages)** 와 다양한 **도메인 및 문체(register)** 까지 포괄
- 이러한 데이터 전략은 기존 시스템이 다루지 못했던 **7,000여 개 언어 중 상당수의 표현 가능성**을 확보하는 기반이 됨

### 평가 체계와 품질 측정
- 신뢰성과 확장성을 위해 **표준 지표**와 함께 여러 평가 도구를 결합
  - ### BLASER 3**: 참조 문장 없이 품질을 추정하는**reference-free 평가 모델
    - **OmniTOX**: 번역 결과의 **유해성(toxicity)** 을 판별하는 분류기
    - **BOUQuET**: 다양한 언어군을 포함한 **대규모 다국어 평가 데이터셋**, 수작업으로 구축
    - **Met-BOUQuET**: **대규모 다국어 품질 추정**을 위한 확장형 데이터셋
    - 이들 데이터셋은 **지속적으로 업데이트되는 공개 리더보드**와 함께 제공되어 연구자들이 자유롭게 활용 가능

### 모델 구조와 학습 접근법
- OMT는 두 가지 방식으로 LLM을 번역에 특화
  - ### OMT-LLaMA
    - **LLaMA3** 기반의 **decoder-only 모델**
    - **다국어 지속 사전학습(multilingual continual pretraining)** 과 **검색 기반 번역(retrieval-augmented translation)** 을 통해 추론 시 적응성 강화
  - ### OMT-NLLB
    - **encoder–decoder 구조**로, **OmniSONAR**라는 다국어 정렬 공간 위에 구축
    - **비병렬 데이터(non-parallel data)** 를 활용할 수 있는 학습 방법을 도입
    - decoder-only 사전학습 데이터를 encoder–decoder 학습에 통합 가능
    - **1B~8B 파라미터 모델**이 **70B LLM 기준 모델과 동등하거나 우수한 번역 성능**을 달성해, **저연산 환경에서도 고품질 번역 가능성**을 입증

### 성능 및 언어 생성 능력
- **영어→1,600개 언어 번역 평가**에서 기존 모델은 저자원 언어를 이해는 하지만 **의미 있는 문장 생성에는 실패**하는 경우가 많았음
- **OMT-LLaMA 모델**은 이러한 언어들에 대해 **일관된 문장 생성(coherent generation)** 을 크게 확장
- **교차언어 전이(cross-lingual transfer)** 성능도 향상되어, 1,600개 언어에 대한 **이해(understanding) 측면의 문제를 거의 해결**
- **미세조정(finetuning)** 과 **검색증강생성(RAG)** 을 통해 특정 언어나 도메인에서 추가 품질 향상 가능

### 공개 리소스와 연구 확장
- **BOUQuET** 및 **Met-BOUQuET** 데이터셋은 **무료 공개**되어 있으며, **Omnilinguality**를 향해 지속적으로 확장 중
- 연구팀은 **저자원 언어 접근성 향상**과 **다국어 AI 연구의 기반 확립**을 목표로 함
- OMT는 **대규모 언어 다양성**을 포괄하는 최초의 실질적 번역 시스템으로, **글로벌 언어 포용성**을 위한 중요한 진전으로 평가됨

## Comments


### Comment 53540

- Author: neo
- Created: 2026-03-22T12:37:26+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47421749) 
- 메타의 번역 품질이 다른 서비스에 비해 **상당히 떨어짐**을 느꼈음  
  특히 잘 알려지지 않은 언어에서는 더 심함  
  구글 번역은 기본값으로 괜찮지만, **LLM 기반 번역**은 문맥 이해와 문화적 뉘앙스 전달이 훨씬 뛰어남  
  나는 캄보디아에 살고 있어서 크메르어 번역 품질을 자주 비교해봄
  - 시엠립에서 인사함! 같은 캄보디아 기술 애호가를 만나 반가움  
    내 경험상 Facebook 번역이 구글보다 **긴 문장에서는 더 자연스러움**  
    크메르어는 문맥 의존적이고 장황한 언어라 LLM이 큰 도움이 될 것 같음  
    반대로 영어에서 크메르어로 번역할 때는 **형식적이고 로봇 같은 어투**가 된다고 현지인들이 말함, 흥미로움
  - **Kagi Translate**가 정말 훌륭함  
    다국어 지원은 LLM의 가장 멋진 장점 중 하나라고 생각함
  - LLM이 크메르어 번역에서 구글보다 낫다는 게 흥미로움  
    구글이 왜 Gemini를 내부적으로 쓰지 않는지 궁금함, 아마 **환각 문제** 때문일 수도 있음  
    여러 LLM과 번역 API를 비교한 **정량 테스트**를 보고 싶음
  - 중국어 번역도 별로임
  - 오타 지적임 (*they're*)

- 1600개 언어를 번역할 수 있다고 하지만, 영어 초록 첫 문장에서 **주어-동사 일치**도 못 맞춤  
  NLLB(No Language Left Behind) 프로젝트를 통해 200개 언어로 확장된 고품질 번역을 달성했다고 주장함

- 비슷한 일을 하는 회사를 시작했음 — [6k.ai](https://6k.ai)  
  **저자원 언어 데이터 수집**에 집중 중임  
  Common Crawl, finepdfs, fineweb 같은 데이터셋을 보면 (1) 품질 좋은 데이터가 거의 없고, (2) 처리 방식이 너무 거침  
  예를 들어 finepdfs는 PDF 페이지마다 단일 언어로 분류하지만, 실제로는 **언어쌍 데이터**가 많음
  - 나도 마찬가지로 저자원 언어, 특히 **Mayan 계열 언어**에 집중해 연구 중임  
    [wikilangs.org](https://wikilangs.org), [omneitylabs.com](https://omneitylabs.com), [관련 블로그](https://huggingface.co/blog/omarkamali/gherbal-multilingual-...)에 자료를 공개했음  
    가장 큰 병목은 텍스트 수집이 아니라 **언어 식별 정확도**임  
    Common Crawl이나 Fineweb 같은 데이터셋에서 언어 구분이 모호함  
    Fineweb 2에서 내 모국어 관련 개선 작업을 했는데, 영감을 줄 수도 있을 것 같음  
    비슷한 문제들이 여러 지역에서 반복되니, 나중에 **협업**해보고 싶음
  - Common Crawl도 1년 반째 저자원 언어 프로젝트를 진행 중임, 정말 어려운 문제임
  - 여러 국가 기관들도 이 문제를 연구 중임  
    혹시 그런 **공공 데이터셋**을 검토해봤는지, 그리고 어떤 언어를 우선순위로 두는지 궁금함

- 모델 **가중치 다운로드 링크**를 찾느라 오래 걸렸음  
  오픈웨이트라면 왜 바로 접근 가능한 링크가 없는지 의문임
  - 이번 모델은 오픈웨이트라는 언급이 없음 (이전 NLLB는 공개였음)  
    대신 **리더보드와 평가 데이터셋**은 공개되어 있음  
    논문에서는 “우리의 번역 모델은 자유롭게 이용 가능한 모델 위에 구축되었다”고만 언급함

- 2026년인데 왜 아직 **음성 메시지 자동 전사 기능**이 없는지 모르겠음

- 1600개 언어를 번역할 수 있다면서 기본적인 **문단 구분**도 안 되어 있음  
  - 논문 초록은 원래 한 문단으로 작성하는 게 규칙임

- 1600개 언어는 많지만, “Omni”라 부르기엔 아직 멀었음  
  보통 언어 수는 4천~8천 개로 추정되고, **첫 1천 개 언어 확보**가 가장 어려움
  - 마케팅에서는 “프런티어”, “엣지” 같은 단어를 써야 **프로급 느낌**이 남

- 예전 연구(Lauscher 2020)에서는 언어 수가 늘수록 번역 품질이 떨어지는 **다언어의 저주**가 있다고 했음  
  그런데 Meta는 이를 극복한 듯함  
  논문 초록을 보면 **훈련 데이터 품질 개선**과 **새로운 평가 도구**를 도입했다고 함  
  또 OMT-LLaMA가 기존 모델보다 **텍스트 생성 품질**이 더 좋다고 주장함

- 흥미로운 점으로, Meta가 소개한 **BOUQuET 벤치마크**가 있음  
  번역 품질을 범언어적으로 평가하기 위한 오픈 이니셔티브임  
  [huggingface.co/spaces/facebook/bouquet](https://huggingface.co/spaces/facebook/bouquet)

- AI 열풍 이후 MS 문서 번역이 엉망이 됨  
  예를 들어 try/catch를 독일어로 “versuchen/fangen”으로 번역함  
  - 이런 번역은 오히려 **가치가 마이너스**임  
    특히 회사 환경에서는 로캘 설정을 바꾸기 어려워 더 불편함  
    “shortly”를 “short”로 번역하는 식의 **기초적인 오류**도 많음