# NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)

> Clean Markdown view of GeekNews topic #6943. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=6943](https://news.hada.io/topic?id=6943)
- GeekNews Markdown: [https://news.hada.io/topic/6943.md](https://news.hada.io/topic/6943.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-07-10T09:26:02+09:00
- Updated: 2022-07-10T09:26:02+09:00
- Original source: [ai.facebook.com](https://ai.facebook.com/research/no-language-left-behind/ko/)
- Points: 8
- Comments: 0

## Topic Body

- 페이스북의 '이전과 전혀 다른 형태의 혁신적인' AI 프로젝트  
- 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델  
- NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표  
- 실제 적용  
  - 리소스가 적은 언어의 번역을 위해 Facebook 및 Instagram에 AI 기술 적용하기  
  - 위키백과를 모든 언어로 제공하기  
- AI 번역 데모 프로그램 : '번역으로 만나는 이야기(Stories Told Through Translation)'  
  - 향후 몇 달 안에는 백 수십여 개 언어로 번역 범위가 확대될 예정  
  - 이로써 NLLB-200은 문학을 대규모로 번역할 수 있는 최초의 AI 모델이 되는 것  
- 기술 : 오픈 소스 NLLB 모델은 어떻게 200개 언어를 바로 번역하는 걸까?  
  - 1 자동 데이터 세트 구성 : 입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집  
  - 2 학습 : 수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입  
    - 내부 벡터 표현으로 변환하는 인코더와 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더  
  - 3 평가 : 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인  
    - 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링  
    - 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생

## Comments


_No public comments on this page._