[논문] 레고 매뉴얼을 머신이 실행 가능한 계획으로 번역하기
(cs.stanford.edu)- 2D 이미지로 구성된 Lego의 비쥬얼 조립 매뉴얼을 머신이 해석 가능하도록 번역
- 연속된 예측(prediction) 작업으로 보고, 단계별로 모델이 매뉴얼을 읽고 현재 모양에 추가될 컴포넌트를 찾은 후 3차원 형태를 추론
- 매뉴얼의 2D 이미지와 실제 3D 개체간의 2D-3D 일치 문제 및 본적 없는(Unseen) 3D 개체의 형태 추론 작업등이 필요
- 이를 해결하기 위한 학습 기반 프레임워크인 MEPNet(Manual-to-Executable-Plan Network)을 제시
- 핵심 아이디어는 2D 키포인트 감지 모듈과 고정밀 예측을 위한 2D-3D 프로젝션 알고리듬, 그리고 Unseen 컴포넌트에 대한 강력한 일반화(Generalization)