PaLM-E : Embodied Multimodal Language Model
(palm-e.github.io)- 대규모 언어 모델은 복잡한 작업을 수행 가능하지만, 로봇공학 문제처럼 실제 세계에서 일반적인 추론을 가능하게 하려면 근거를 마련해야함
- 실세계의 연속된 센서 양식들을 언어 모델에 직접 통합해서, 단어와 지각(Percepts)사이의 연결을 구축하기 위한 EMLM을 제안
- 비주얼, 연속 상태 추정, 텍스트 입력 인코딩을 결합한 다중 모달 문장을 입력받아서 처리
- "서랍에서 쌀칩 좀 가져다줘" : 이동하여 서랍열고 찾아서 집은후 서랍닫고 가져오는 동작까지 가능. 중간에 사람이 슬쩍 방해해도 재시도
- 가장 큰 언어모델인 PaLM-E 562B + OK-VQA(dataset for visual question answering)
시뮬레이터(Simulator)라는 3D 가상환경(Environment)에 에이전트를 생성하여 여러가지 과제(Task)를 수행시켜 학습시킨 후, 현실의 로봇과 같은 기계에 전이하여(Sim2Real) 현실에서도 특정 과제(Task)를 잘 수행할 수 있도록 하는 분야입니다.