PaLM-E : Embodied Multimodal Language Model

xguru · 2023-03-08T12:11:57+09:00

대규모 언어 모델은 복잡한 작업을 수행 가능하지만, 로봇공학 문제처럼 실제 세계에서 일반적인 추론을 가능하게 하려면 근거를 마련해야함 실세계의 연속된 센서 양식들을 언어 모델에 직접 통합해서, 단어와 지각(Percepts)사이의 연결을 구축하기 위한 EMLM을 제안 비주얼, 연속 상태 추정, 텍스트 입력 인코딩을 결합한 다중 모달 문장을 입력받아서 처리 "서랍에서 쌀칩 좀 가져다줘" : 이동하여 서랍열고 찾아서 집은후 서랍닫고 가져오는 동작까지 가능. 중간에 사람이 슬쩍 방해해도 재시도 가장 큰 언어모델인 PaLM-E 562B + OK-VQA(dataset for visual question answering)

(palm-e.github.io)

15P by xguru 2023-03-08 | ★ favorite | 댓글 1개

대규모 언어 모델은 복잡한 작업을 수행 가능하지만, 로봇공학 문제처럼 실제 세계에서 일반적인 추론을 가능하게 하려면 근거를 마련해야함
실세계의 연속된 센서 양식들을 언어 모델에 직접 통합해서, 단어와 지각(Percepts)사이의 연결을 구축하기 위한 EMLM을 제안
비주얼, 연속 상태 추정, 텍스트 입력 인코딩을 결합한 다중 모달 문장을 입력받아서 처리
- "서랍에서 쌀칩 좀 가져다줘" : 이동하여 서랍열고 찾아서 집은후 서랍닫고 가져오는 동작까지 가능. 중간에 사람이 슬쩍 방해해도 재시도
가장 큰 언어모델인 PaLM-E 562B + OK-VQA(dataset for visual question answering)

xguru 2023-03-08 [-]

Embodied AI란 무엇인가?

시뮬레이터(Simulator)라는 3D 가상환경(Environment)에 에이전트를 생성하여 여러가지 과제(Task)를 수행시켜 학습시킨 후, 현실의 로봇과 같은 기계에 전이하여(Sim2Real) 현실에서도 특정 과제(Task)를 잘 수행할 수 있도록 하는 분야입니다.

답변달기

PaLM-E : Embodied Multimodal Language Model

함께 보면 좋은 글 β

댓글과 토론