5P by ironlung 4달전 | favorite | 댓글 1개

1.아마존 '알렉사'

  • 알렉사 AI 팀은 2019년 합성 데이터 생성 도구를 개발함
  • 이 도구들은 아마존 AI 비서인 ‘알렉사’를 힌디어, 미국에서 쓰이는 스페인어, 브라질에서 사용하는 포르투갈어 버전으로 선보이는 데 쓰임
  • 아마존에서는 믿을 수 있는 자연어 이해 모델을 학습시키는 데 있어 데이터가 불충분 할 때가 있었음
  • 이를 보완하기 위해 합성 데이터를 만들기로 함
  • 아마존의 합성 데이터 생성 도구 중 하나는 ‘문법 유도’라는 기술을 사용함
  • 이는 소수의 참조 명령어를 분석해 일반 구문, 의미 양식(패턴)을 배움
  • 그 양식에서 새롭고 비슷한 문장을 수천개 생성함
  • 다른 도구는 이용가능한 데이터의 사례에서 단어와 구를 재결합해 새 문장을 만듦

2.아마존 '저스트 워크 아웃' 기술

  • 아마존은 ‘저스트 워크 아웃(Just Walk Out·JWO)’ 기술을 고도화하는 데에도 합성 데이터를 활용함
  • 이는 고객이 출입구에서 신용카드나 앱을 스캔한 다음, 매장 안에 들어가서 자신이 원하는 상품을 들고 나오면 결제가 자동으로 이뤄지는 기술로, 현금없는 매장인 ‘아마존 고’ 운영 기술로도 유명함
  • JWO 기술에는 딥러닝 기술, 컴퓨터 비전 기술, 센서 융합이 집약됨
  • 이는 매장에서 ‘누가 뭘 가져갔는지’ 확인함
  • 아마존에서는 AI 모델이 더 높은 정확도를 보장하려면 다양한 학습 데이터가 필요하다고 판단했고, 합성 데이터로 이를 보완하기로 함
  • JWO 기술과 관련해서는 현실적인 쇼핑 시나리오의 여러 변형을 모방한 합성 데이터셋을 구축함
  • 예를 들어, 아마존은 매장에서 한번에 많은 고객을 처리하도록 보장하기 위해 합성 데이터를 활용해서 합성 캐릭터를 다수 생성함
  • 또 매장 규모를 키우기 전에 합성 데이터를 사용해 시험용으로 더 큰 식료품점의 가상 모델도 만듦

3.J.P. 모건

  • J.P. 모건에서는 AI 리서치 팀이 금융 관련 합성 데이터를 생성함
  • 자금세탁 방지 행동, 고객 이동 행적, 시장 실행 데이터, 사기 탐지를 위한 결제 데이터를 합성 데이터셋으로 개발함
  • J.P. 모건은 “금융 서비스 산업에서 유용한 데이터가 많이 나오지만 이는 이용하기가 종종 어려웠다”고 함
  • 그들은 데이터에 의존하는 새 상품과 서비스를 혁신하고 구축하는 수단으로 합성 데이터에 주목함
  • 금융 서비스에서 연구와 모델 개발을 가속화하고자 합성 데이터셋을 만듦

4.앤썸

  • 미국 건강보험 기업인 앤썸은 합성 데이터 플랫폼을 개발하기 위해 구글 클라우드와 협업 중
  • 이 회사는 알고리즘과 통계모델을 사용해서 약 1.5~2페타바이트 규모의 합성 데이터를 생성한다는 계획
  • 해당 데이터는 병력, 의료 보험금 청구, 다른 핵심 의료 데이터를 인공적으로 만든 데이터셋을 포함함
  • 합성 데이터는 사기 보험금 청구나 사람들의 건강 기록에서 이상 문제를 확인하는 AI 알고리즘을 검증하고, 학습시키는 데 쓰일 예정
  • 앤썸은 사기를 더 잘 탐지하고, 회원들에게 개인화된 관리를 제공하는 합성 데이터 플랫폼을 만든다는 계획

Synthetic data를 합성데이터로 번역했나보네요. 인공데이터가 더 알맞다고 생각합니다.