# PaLM-E : Embodied Multimodal Language Model

> Clean Markdown view of GeekNews topic #8645. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8645](https://news.hada.io/topic?id=8645)
- GeekNews Markdown: [https://news.hada.io/topic/8645.md](https://news.hada.io/topic/8645.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-03-08T12:11:57+09:00
- Updated: 2023-03-08T12:11:57+09:00
- Original source: [palm-e.github.io](https://palm-e.github.io/)
- Points: 15
- Comments: 1

## Topic Body

- 대규모 언어 모델은 복잡한 작업을 수행 가능하지만, 로봇공학 문제처럼 실제 세계에서 일반적인 추론을 가능하게 하려면 근거를 마련해야함   
- 실세계의 연속된 센서 양식들을 언어 모델에 직접 통합해서, 단어와 지각(Percepts)사이의 연결을 구축하기 위한 EMLM을 제안   
- 비주얼, 연속 상태 추정, 텍스트 입력 인코딩을 결합한 다중 모달 문장을 입력받아서 처리   
  - "서랍에서 쌀칩 좀 가져다줘" : 이동하여 서랍열고 찾아서 집은후 서랍닫고 가져오는 동작까지 가능. 중간에 사람이 슬쩍 방해해도 재시도   
- 가장 큰 언어모델인 PaLM-E 562B + OK-VQA(dataset for visual question answering)

## Comments



### Comment 15104

- Author: xguru
- Created: 2023-03-08T12:12:04+09:00
- Points: 2

[Embodied AI란 무엇인가?](https://mindw96.tistory.com/4)  
> 시뮬레이터(Simulator)라는 3D 가상환경(Environment)에 에이전트를 생성하여 여러가지 과제(Task)를 수행시켜 학습시킨 후, 현실의 로봇과 같은 기계에 전이하여(Sim2Real) 현실에서도 특정 과제(Task)를 잘 수행할 수 있도록 하는 분야입니다.
