8P by xguru 2023-03-10 | favorite | 댓글 1개
  • 작년 11월에 시작한 "1,000개 언어 이니셔티브(1000개 언어를 지원하는 머신러닝 모델 만들기)"를 진행중
  • 현재 USM은 2B(20억)개의 파라미터로 300개가 넘는 언어, 1200만 시간의 음성, 280억개의 문장으로 훈련됨
  • 유튜브에서 자막 생성을 위해 사용. 영어/중국어뿐만 아니라, Amharic, Cebuano, Assamese, Azerbaijani 같은 언어까지 지원
  • 목표 달성을 위한 두가지 중요한 과제
    • 기존의 감독 학습방법은 확장성이 부족
    • 언어를 늘리기 위해서 모델을 효율적으로 생성
  • 접근 방식 : Self-supervised learning with fine-tuning(미세 조정을 통한 자기주도 학습)
  • 논문과 API(연구자들만 신청가능) 공개

사라져가는 언어와 방언같은것들을 후세에서도 쓸 수 있게 하는 좋은 기술이라고 생각합니다.