NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)

xguru · 2022-07-10T09:26:02+09:00

페이스북의 '이전과 전혀 다른 형태의 혁신적인' AI 프로젝트 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델 NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표 실제 적용 리소스가 적은 언어의 번역을 위해 Facebook 및 Instagram에 AI 기술 적용하기 위키백과를 모든 언어로 제공하기 AI 번역 데모 프로그램 : '번역으로 만나는 이야기(Stories Told Through Translation)' 향후 몇 달 안에는 백 수십여 개 언어로 번역 범위가 확대될 예정 이로써 NLLB-200은 문학을 대규모로 번역할 수 있는 최초의 AI 모델이 되는 것 기술 : 오픈 소스 NLLB 모델은 어떻게 200개 언어를 바로 번역하는 걸까? 1 자동 데이터 세트 구성 : 입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집 2 학습 : 수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입 내부 벡터 표현으로 변환하는 인코더와 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더 3 평가 : 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생

(ai.facebook.com)

8P by xguru 2022-07-10 | ★ favorite | 댓글과 토론

페이스북의 '이전과 전혀 다른 형태의 혁신적인' AI 프로젝트
아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델
NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표
실제 적용
- 리소스가 적은 언어의 번역을 위해 Facebook 및 Instagram에 AI 기술 적용하기
- 위키백과를 모든 언어로 제공하기
AI 번역 데모 프로그램 : '번역으로 만나는 이야기(Stories Told Through Translation)'
- 향후 몇 달 안에는 백 수십여 개 언어로 번역 범위가 확대될 예정
- 이로써 NLLB-200은 문학을 대규모로 번역할 수 있는 최초의 AI 모델이 되는 것
기술 : 오픈 소스 NLLB 모델은 어떻게 200개 언어를 바로 번역하는 걸까?
- 1 자동 데이터 세트 구성 : 입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집
- 2 학습 : 수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입
  - 내부 벡터 표현으로 변환하는 인코더와 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더
- 3 평가 : 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인
  - 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링
  - 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생

NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)

함께 보면 좋은 글 β

댓글과 토론