메타의 1,600개 언어용 Omnilingual MT

(ai.meta.com)

4P by GN⁺ 1달전 | ★ favorite | 댓글 1개

Meta AI가 개발한 Omnilingual Machine Translation(OMT) 은 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섬
공개 코퍼스·역번역·데이터 마이닝을 결합해 저자원 및 소수 언어까지 포괄하는 대규모 다국어 데이터셋을 구축
BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET 등 다양한 품질·유해성 평가 도구를 통합해 신뢰도 높은 번역 성능을 측정
LLaMA3 기반 decoder-only 모델과 encoder–decoder 구조의 OMT-NLLB를 병행해, 저연산 환경에서도 고품질 번역을 구현
1,600개 언어 전반의 일관된 문장 생성과 교차언어 전이 향상을 달성하며, 글로벌 언어 포용성 확대의 중요한 진전으로 평가됨

Omnilingual MT 개요

Omnilingual Machine Translation (OMT) 는 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로 Meta AI가 개발
기존 No Language Left Behind (NLLB) 프로젝트가 200개 언어까지 확장했던 성과를 기반으로, 훨씬 더 많은 언어를 포괄
기존 대형언어모델(LLM) 기반 번역은 품질은 높았지만 언어 범위가 제한적이었으며, 특히 저자원·소수 언어의 생성 능력 부족이 문제로 지적됨
OMT는 이러한 한계를 극복하기 위해 데이터 전략, 모델 구조, 평가 체계를 전면적으로 확장

데이터 전략과 언어 커버리지 확장

OMT는 공개 다국어 코퍼스와 신규 생성 데이터셋을 통합해 언어 범위를 대폭 확장
- MeDLEY bitext(수동 정제 병렬 데이터), 역번역(synthetic backtranslation), 데이터 마이닝(mining) 기법을 결합
- 이를 통해 소수 언어(long-tail languages) 와 다양한 도메인 및 문체(register) 까지 포괄
이러한 데이터 전략은 기존 시스템이 다루지 못했던 7,000여 개 언어 중 상당수의 표현 가능성을 확보하는 기반이 됨

평가 체계와 품질 측정

신뢰성과 확장성을 위해 표준 지표와 함께 여러 평가 도구를 결합
- BLASER 3**: 참조 문장 없이 품질을 추정하는**reference-free 평가 모델
  - OmniTOX: 번역 결과의 유해성(toxicity) 을 판별하는 분류기
  - BOUQuET: 다양한 언어군을 포함한 대규모 다국어 평가 데이터셋, 수작업으로 구축
  - Met-BOUQuET: 대규모 다국어 품질 추정을 위한 확장형 데이터셋
  - 이들 데이터셋은 지속적으로 업데이트되는 공개 리더보드와 함께 제공되어 연구자들이 자유롭게 활용 가능

모델 구조와 학습 접근법

OMT는 두 가지 방식으로 LLM을 번역에 특화
- OMT-LLaMA
  - LLaMA3 기반의 decoder-only 모델
  - 다국어 지속 사전학습(multilingual continual pretraining) 과 검색 기반 번역(retrieval-augmented translation) 을 통해 추론 시 적응성 강화
- OMT-NLLB
  - encoder–decoder 구조로, OmniSONAR라는 다국어 정렬 공간 위에 구축
  - 비병렬 데이터(non-parallel data) 를 활용할 수 있는 학습 방법을 도입
  - decoder-only 사전학습 데이터를 encoder–decoder 학습에 통합 가능
  - 1B~8B 파라미터 모델이 70B LLM 기준 모델과 동등하거나 우수한 번역 성능을 달성해, 저연산 환경에서도 고품질 번역 가능성을 입증

성능 및 언어 생성 능력

영어→1,600개 언어 번역 평가에서 기존 모델은 저자원 언어를 이해는 하지만 의미 있는 문장 생성에는 실패하는 경우가 많았음
OMT-LLaMA 모델은 이러한 언어들에 대해 일관된 문장 생성(coherent generation) 을 크게 확장
교차언어 전이(cross-lingual transfer) 성능도 향상되어, 1,600개 언어에 대한 이해(understanding) 측면의 문제를 거의 해결
미세조정(finetuning) 과 검색증강생성(RAG) 을 통해 특정 언어나 도메인에서 추가 품질 향상 가능

공개 리소스와 연구 확장

BOUQuET 및 Met-BOUQuET 데이터셋은 무료 공개되어 있으며, Omnilinguality를 향해 지속적으로 확장 중
연구팀은 저자원 언어 접근성 향상과 다국어 AI 연구의 기반 확립을 목표로 함
OMT는 대규모 언어 다양성을 포괄하는 최초의 실질적 번역 시스템으로, 글로벌 언어 포용성을 위한 중요한 진전으로 평가됨

▲

GN⁺ 1달전 [-]

Hacker News 의견들

메타의 번역 품질이 다른 서비스에 비해 상당히 떨어짐을 느꼈음
특히 잘 알려지지 않은 언어에서는 더 심함
구글 번역은 기본값으로 괜찮지만, LLM 기반 번역은 문맥 이해와 문화적 뉘앙스 전달이 훨씬 뛰어남
나는 캄보디아에 살고 있어서 크메르어 번역 품질을 자주 비교해봄
- 시엠립에서 인사함! 같은 캄보디아 기술 애호가를 만나 반가움
  내 경험상 Facebook 번역이 구글보다 긴 문장에서는 더 자연스러움
  크메르어는 문맥 의존적이고 장황한 언어라 LLM이 큰 도움이 될 것 같음
  반대로 영어에서 크메르어로 번역할 때는 형식적이고 로봇 같은 어투가 된다고 현지인들이 말함, 흥미로움
- Kagi Translate가 정말 훌륭함
  다국어 지원은 LLM의 가장 멋진 장점 중 하나라고 생각함
- LLM이 크메르어 번역에서 구글보다 낫다는 게 흥미로움
  구글이 왜 Gemini를 내부적으로 쓰지 않는지 궁금함, 아마 환각 문제 때문일 수도 있음
  여러 LLM과 번역 API를 비교한 정량 테스트를 보고 싶음
- 중국어 번역도 별로임
- 오타 지적임 (they're)
1600개 언어를 번역할 수 있다고 하지만, 영어 초록 첫 문장에서 주어-동사 일치도 못 맞춤
NLLB(No Language Left Behind) 프로젝트를 통해 200개 언어로 확장된 고품질 번역을 달성했다고 주장함
비슷한 일을 하는 회사를 시작했음 — 6k.ai
저자원 언어 데이터 수집에 집중 중임
Common Crawl, finepdfs, fineweb 같은 데이터셋을 보면 (1) 품질 좋은 데이터가 거의 없고, (2) 처리 방식이 너무 거침
예를 들어 finepdfs는 PDF 페이지마다 단일 언어로 분류하지만, 실제로는 언어쌍 데이터가 많음
- 나도 마찬가지로 저자원 언어, 특히 Mayan 계열 언어에 집중해 연구 중임
  wikilangs.org, omneitylabs.com, 관련 블로그에 자료를 공개했음
  가장 큰 병목은 텍스트 수집이 아니라 언어 식별 정확도임
  Common Crawl이나 Fineweb 같은 데이터셋에서 언어 구분이 모호함
  Fineweb 2에서 내 모국어 관련 개선 작업을 했는데, 영감을 줄 수도 있을 것 같음
  비슷한 문제들이 여러 지역에서 반복되니, 나중에 협업해보고 싶음
- Common Crawl도 1년 반째 저자원 언어 프로젝트를 진행 중임, 정말 어려운 문제임
- 여러 국가 기관들도 이 문제를 연구 중임
  혹시 그런 공공 데이터셋을 검토해봤는지, 그리고 어떤 언어를 우선순위로 두는지 궁금함
모델 가중치 다운로드 링크를 찾느라 오래 걸렸음
오픈웨이트라면 왜 바로 접근 가능한 링크가 없는지 의문임
- 이번 모델은 오픈웨이트라는 언급이 없음 (이전 NLLB는 공개였음)
  대신 리더보드와 평가 데이터셋은 공개되어 있음
  논문에서는 “우리의 번역 모델은 자유롭게 이용 가능한 모델 위에 구축되었다”고만 언급함
2026년인데 왜 아직 음성 메시지 자동 전사 기능이 없는지 모르겠음
1600개 언어를 번역할 수 있다면서 기본적인 문단 구분도 안 되어 있음
- 논문 초록은 원래 한 문단으로 작성하는 게 규칙임
1600개 언어는 많지만, “Omni”라 부르기엔 아직 멀었음
보통 언어 수는 4천~8천 개로 추정되고, 첫 1천 개 언어 확보가 가장 어려움
- 마케팅에서는 “프런티어”, “엣지” 같은 단어를 써야 프로급 느낌이 남
예전 연구(Lauscher 2020)에서는 언어 수가 늘수록 번역 품질이 떨어지는 다언어의 저주가 있다고 했음
그런데 Meta는 이를 극복한 듯함
논문 초록을 보면 훈련 데이터 품질 개선과 새로운 평가 도구를 도입했다고 함
또 OMT-LLaMA가 기존 모델보다 텍스트 생성 품질이 더 좋다고 주장함
흥미로운 점으로, Meta가 소개한 BOUQuET 벤치마크가 있음
번역 품질을 범언어적으로 평가하기 위한 오픈 이니셔티브임
huggingface.co/spaces/facebook/bouquet
AI 열풍 이후 MS 문서 번역이 엉망이 됨
예를 들어 try/catch를 독일어로 “versuchen/fangen”으로 번역함
- 이런 번역은 오히려 가치가 마이너스임
  특히 회사 환경에서는 로캘 설정을 바꾸기 어려워 더 불편함
  “shortly”를 “short”로 번역하는 식의 기초적인 오류도 많음

답변달기

메타의 1,600개 언어용 Omnilingual MT

Omnilingual MT 개요

데이터 전략과 언어 커버리지 확장

평가 체계와 품질 측정

BLASER 3**: 참조 문장 없이 품질을 추정하는**reference-free 평가 모델

모델 구조와 학습 접근법

OMT-LLaMA

OMT-NLLB

성능 및 언어 생성 능력

공개 리소스와 연구 확장

함께 보면 좋은 글 β

Hacker News 의견들

BLASER 3: 참조 문장 없이 품질을 추정하는reference-free 평가 모델