15P by xguru 2023-03-08 | favorite | 댓글 1개
  • 대규모 언어 모델은 복잡한 작업을 수행 가능하지만, 로봇공학 문제처럼 실제 세계에서 일반적인 추론을 가능하게 하려면 근거를 마련해야함
  • 실세계의 연속된 센서 양식들을 언어 모델에 직접 통합해서, 단어와 지각(Percepts)사이의 연결을 구축하기 위한 EMLM을 제안
  • 비주얼, 연속 상태 추정, 텍스트 입력 인코딩을 결합한 다중 모달 문장을 입력받아서 처리
    • "서랍에서 쌀칩 좀 가져다줘" : 이동하여 서랍열고 찾아서 집은후 서랍닫고 가져오는 동작까지 가능. 중간에 사람이 슬쩍 방해해도 재시도
  • 가장 큰 언어모델인 PaLM-E 562B + OK-VQA(dataset for visual question answering)

Embodied AI란 무엇인가?

시뮬레이터(Simulator)라는 3D 가상환경(Environment)에 에이전트를 생성하여 여러가지 과제(Task)를 수행시켜 학습시킨 후, 현실의 로봇과 같은 기계에 전이하여(Sim2Real) 현실에서도 특정 과제(Task)를 잘 수행할 수 있도록 하는 분야입니다.