8P by xguru 2022-07-10 | favorite | 댓글과 토론
  • 페이스북의 '이전과 전혀 다른 형태의 혁신적인' AI 프로젝트
  • 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델
  • NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표
  • 실제 적용
    • 리소스가 적은 언어의 번역을 위해 Facebook 및 Instagram에 AI 기술 적용하기
    • 위키백과를 모든 언어로 제공하기
  • AI 번역 데모 프로그램 : '번역으로 만나는 이야기(Stories Told Through Translation)'
    • 향후 몇 달 안에는 백 수십여 개 언어로 번역 범위가 확대될 예정
    • 이로써 NLLB-200은 문학을 대규모로 번역할 수 있는 최초의 AI 모델이 되는 것
  • 기술 : 오픈 소스 NLLB 모델은 어떻게 200개 언어를 바로 번역하는 걸까?
    • 1 자동 데이터 세트 구성 : 입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집
    • 2 학습 : 수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입
      • 내부 벡터 표현으로 변환하는 인코더와 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더
    • 3 평가 : 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인
      • 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링
      • 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생