Shoggoth Mini – GPT-4o와 RL로 구동되는 소프트 촉수 로봇
(matthieulc.com)- Shoggoth Mini는 GPT-4o와 강화학습을 활용하여 자연스럽고 표현력 있는 동작을 구현한 소프트 촉수 로봇임
- 기존 가정용 로봇과 달리 인간과 상호작용 시 내부 상태나 의도를 표현할 수 있도록 설계됨
- 하드웨어 설계부터 소프트웨어, 카메라 인식 및 제어 시스템까지 세부적으로 전 과정을 설명함
- 2D 트랙패드 입력을 3D 촉수 제어에 직관적으로 매핑하여 사용성을 높였으며, 최신 컴퓨터 비전과 RL 기술 접목으로 동작 정밀도와 표현력을 확보함
- 마무리에서는 로봇의 생동감, 예측 불가능성과 인간 친화성의 균형점에 대한 고민과 향후 확장 아이디어를 제시함
서론 및 배경
- 최근 1년간 로보틱스 분야가 대형 언어 모델(LLM) 시대와 접목되면서 빠르게 발전함
- 대표적으로 π0.5, Tesla Optimus 등은 언어로 명령을 이해하여 실제 동작을 수행하지만, 대부분 기능적 로봇의 수준에 머무름
- 인간-로봇 상호작용의 자연스러움과 내부 상태(의도, 주의, 확신 등) 전달에는 '표현력(expressiveness)' 이 핵심이라는 점을 지적함
- Pixar 느낌의 램프(Apple ELEGNT)와 단순 동작만으로 이상하게 ‘살아있는’ 느낌을 주는 SpiRobs 등에서 착안, 의도적 표현 설계와 우연적 생명감의 차이에 관심을 가짐
- 이를 실험하기 위해 Shoggoth Mini 제작을 시작, 우연과 실험을 통한 설계 과정과 깨달음을 공유함
하드웨어
- 테스트베드 첫 버전은 3개의 모터와 촉수를 고정할 판, 돔형 커버의 단순 구조로 시작함
- 3D 프린팅 중 필라멘트가 모자라 돔 일부분 색상이 달라져 볼, 입이 붙은 얼굴 모양 탄생, ChatGPT로 시각적 시안을 탐색하여 형태 확정함
- 돔에 스테레오 카메라 장착하여 촉수 추적, 로봇 눈의 ‘예측 오류’가 시선을 집중시키는 효과 유발
- 오픈 스풀 설계는 케이블이 쉽게 빠지고 얽히는 단점이 있어, 간단한 스풀 커버 추가로 문제 해결 및 반복 실험 속도 개선
- 캘리브레이션 스크립트 및 예비 와이어 길이 추가로 유지보수와 모터 장력 조절을 빠르게 처리함
- 촉수의 처짐 현상 최소화를 위해 등뼈(스파인)를 적당히 두껍게 조정함
- CAD 조립도와 3D 프린팅용 STL 파일 모두 GitHub 저장소에 공개함
수동 제어
- 초기에는 트랙패드를 이용한 2D 조작으로 촉수를 직관적으로 움직일 수 있도록 3개의 힘줄(텐던) 길이 제어를 2차원 컨트롤로 단순화함
- 각 힘줄은 2D 평면상에서 주 방향을 가지며, 커서 방향 벡터를 각 축에 투영해 필요한 장력만큼 길이 변화량 계산
- 양수는 힘줄 단축, 음수는 연장 의미
- 이 2D→3D 변환 방식을 자동화 제어(강화학습 등)에서도 기준 projection layer로 재사용함
- 제한된 조작 범위이지만 직관적 제어 가능, 머리응답성 및 사용자 경험 크게 향상
시스템 설계
- 두 개의 계층적 제어 구조:
- 저수준에서는 오픈 루프 정책(예:
<yes>
,<shake>
) 및 클로즈드-루프 RL 정책(예: 손가락 추적)으로 동작, 촉수 팁/손 위치 추적은 스테레오 비전 기반 파이프라인에서 담당 - 고수준에서는 GPT-4o가 실시간 음성/텍스트(아직 비전 미공개) 처리, 비디오 이벤트(손 흔들기 등)는 텍스트 cue로 GPT-4o에 전달되어 API 호출 결정
- 저수준에서는 오픈 루프 정책(예:
- 대형 모델 기반의 직접적 end-to-end 비전-언어-액션(VLA) 통합보다는, 전용 비전과 경량화된 개별 컨트롤러의 계단식 구조로 설계
- RL 관측 범위 조절 및 자연스러운 호밍 동작, API 호출 사이 idle(숨쉬기 모드) 적용해 로봇의 ‘살아있는 느낌’ 강화
- VLA의 실질적 한계(예: 시간 보정 문제)로 프롬프트 엔지니어링이 중요 요소로 작용함
인지 퍼셉션
- 손 추적용 MediaPipe, 촉수 팁 추적용 커스텀 데이터셋 및 YOLO 모델 결합
- k-means 클러스터링과 Roboflow의 자동 라벨링/액티브 러닝, Segment Anything 활용해 데이터셋 증강 및 정밀 라벨링
- Ultralytics YOLO로 훈련, DeepLabCut notebook으로 카메라 내부/외부 파라미터 추정 및 3D 삼각측량 구현
- 실시간 3D 손-촉수 위치 추적으로 강건한 폐루프 제어 실현
저수준 제어 API
- 소프트 로봇은 강체와 다르게 역기구학이 잘 통하지 않으므로, 2D control projection 방식을 일관되게 적용
- 등뼈를 두껍게 만들어 세션 간 동작 재현성도 확보
- 물체 집기(그랩) 동작 등 실험을 통해 소프트 로봇만의 기계적 강건성(잡는 물체 모양/무게 다양성 흡수) 발견
- 고주파 미세 조작은 어렵지만, 기본 조작은 기계적 설계만으로 의외로 안정적임
강화학습(RL)
- 사용자 손가락 추적과 같은 단순 정책부터 RL 적용, MuJoCo 시뮬레이터에서 동적 임의화(PPO, MLP, frame stacking, 질량/마찰/감쇠 랜덤화)로 sim-to-real 전환성 향상
- 초기엔 tendon 길이 자체를 액션 스페이스로 썼으나, reward hacking 및 실제 이식 실패
- 2D projection 방식으로 액션 제한하여 비현실적 동작(혼란, 진동 등) 억제, curriculum learning으로 점진적 고차원 확장 가능성 제시
- 급격한 액션 변화로 인한 진동(jitter) 보완을 위해 reward에 penalty 항목 추가, EMA로 액션 평활화
결론 및 미래 방향
- 초기에 느꼈던 예측 불가, 해석의 여지가 ‘살아있음’(aliveness) 느낌을 주었으나, 분석·내면화가 진행될수록 피드백의 신선함은 점차 사라졌음
- 표현력(의도 전달) 자체와 생명감(예측 불가능성)의 균형이 로봇-인간 상호작용에 결정적임을 강조
- 향후 확장 아이디어:
- 비인간적 목소리 부여
- 2D 제약 해제
- RLHF 등으로 표현 동작 다양화
- 촉수 추가 및 자가 이동 구현
- 직구동 모터 채택 통한 소음 저감
- 소스코드 및 파일은 GitHub 저장소에서 제공하며, 협업 및 논의 환영
Hacker News 의견
-
기술과 인간 심리의 흥미로운 만남임을 느꼈음, 로봇이 처음에는 매우 생동감 있게 느껴졌으나 사용 시간이 지나면서 동작 예측이 쉬워지자 점차 덜 살아있는 느낌이 들었음, ‘표현력’은 내부 상태를 전달하는 것에 관한 것이지만 ‘생명력’은 예측 불가능성과 어느 정도의 불투명함에서 비롯함, 실제 살아있는 시스템이 복잡하고 다양한 변수를 추적하기 때문임, Shoggoth Mini는 그런 수준이 아님, 우리가 정말 살아있는 것처럼 느껴지길 바라는 로봇을 원하는지, 아니면 너무 예측 불가능해져서 인간 곁에 두기 불편해질 수 있는 한계점이 존재하는지 궁금함
-
Furby가 생각남, 비슷한 형태와 크기, 두 개의 눈과 움직이는 귀 때문임, 초반에는 신기하지만 조금만 만져보면 아주 단순한 자극과 내부 상태 조합에 따라 제한된 동작을 보임, 많은 사람들이 “사람들도 똑같은 거 아님?”이라고 농담을 하긴 하지만 실제로 금방 반복 패턴을 깨달음
-
게임 시스템의 규칙을 이해하게 되면 더 이상 재미를 못 느끼는 것과 비슷함, 규칙 적용만으로 복잡해 보이더라도 결과가 정해진 느낌을 받음, 그 마법 같은 재미가 사라짐
-
인간이 불에, 흐르는 물에, 18세기 오토마타에, 원시 챗봇에, ChatGPT에 – 심지어 여러 기계들에까지 의인성과 자율성을 부여해왔음, 기계가 때로는 ‘기분’까지 있는 것처럼 보일 때도 있음
-
음성비서나 인공언어와 관련된 경험을 공유함, 음성비서는 영국식 악센트로 설정하는데, 적당히 이질적으로 느껴져서 훨씬 신뢰할 수 있음, 영국인한텐 아닐 수 있지만 본인은 그렇게 느낀다는 견해임, 과거 게임 개발에 참여하면서 NPC의 대사를 동적으로 생성하려 해봤지만, 영어로 현실감 있게 만드는 건 매우 어려웠음, 결국 NPC들이 허구의 언어로 말하게 했고, 유저가 그 언어를 배우도록 퍼즐 요소를 더했을 때 훨씬 현실감 있는 캐릭터로 느껴졌음, 사실 번역에 에너지를 쓰니 인공언어라는 사실을 잠시 잊게 해 ‘언캐니 밸리’를 피하는 셈이었음, 다만 게임에 익숙해지고 언어 숙련도가 올라가면 조작된 인공시스템임을 결국 알아채게 될지 지금은 궁금함
-
-
“아, 망설였네”라기보단 어느 질문이나 항상 비슷한 망설임이 느껴짐, GPT가 반응을 생성하는 딜레이가 상당히 신경 쓰이며, 뉴스 중계 연결 지연보다 더 불편한 느낌임, 눈에 LED 같은 걸 달아서 동작 중임을 표시하면 좀 나을까라는 생각임, GPT에 질의를 넘기면 어쩔 수 없이 지연이 발생함, 특히 클라우드로 요청을 보내면 더욱 그렇다는 아쉬움 공유, GPT-4o가 오디오 스트림 전체를 항상 듣는 설정은 문제의 소지가 있다고 봄
-
이런 간단한 과제라면 Qwen 0.6B 같은 소형 LLM으로 충분하다고 봄, 대형 모델의 zero-shot 성능을 이용해 자체 데이터셋을 만들고 훨씬 빠른 별도 모델을 훈련시키는 방법이 있다고 생각함
-
GPT-4o가 계속 음성을 듣는 부분에 대해선 wake word 라이브러리(예: openWakeWord, porcupine)를 사용하면 해결할 수 있다고 봄, 사용자가 특정 호출어로 깨운 다음 프롬프트를 보낼 수 있게 하면 보안·프라이버시 이슈도 줄일 수 있음, 평소에는 ‘자고 있음’ 애니메이션을 표시하다 호출하면 깨어나 반응하는 식으로 만들 수 있을 것이라고 제안함, 이와 관련된 오픈소스 링크 공유 openWakeWord porcupine
-
GPT가 응답할 때 딜레이가 불편하다는 의견엔 공감하지 않음, 촉수가 멈추고 곧장 세워질 때 마치 집중해서 듣고 생각하는 듯한 인상을 주기 때문에 오히려 귀엽게 느껴짐
-
Johnny 5처럼 눈썹이 필요하다고 생각함 Johnny 5 예시 영상
-
프로토타입 단계 이후에는 작은 최적화 모델을 로컬 디바이스에 직접 올릴 수도 있다고 봄, 이렇게 하면 훨씬 빠르고 안전하며 최종 제품에 적합함(다만 프로토타입에서는 유연성은 떨어짐)
-
-
이 아이디어에 영감을 준 SpiRobs의 멋진 영상을 공유함 SpiRobs 유튜브 영상
-
디자인이 너무 귀여움, 작년에 촉수(텐타클) 로봇을 연구했을 때, 공식 용어는 “continuum robots”라는 걸 알게 되었고, 특히 의료로봇 분야에서 많은 연구가 이루어지고 있음, 더 알고 싶다면 좋은 개론 강의가 있으니 참고하면 좋겠음 관련 강의 영상
-
정말 멋진 프로젝트라고 생각함, AI 능력이 이렇게 많아졌고 로보틱스도 발전하는 요즘, 왜 항상 인간 형태만 만드는지 아쉬움, 집안에 거미-오징어 하이브리드 로봇 같이 독특한 형태의 로봇이 나타나길 바람
-
AI 안전 논쟁이 많은데, 나는 거미-오징어 하이브리드 로봇이 집 안을 돌아다니길 원함
-
로보틱스를 인간형 세계와 가장 호환되게 만들려는 경향임, 하지만 다리 형태를 바꿔 다양한 옵션을 시도하는 것도 충분히 흥미로울 것 같음
-
-
절대 안됨, 이런 영화 봤음, 페이스허거(생명체)가 책상 위에 앉아있는 건 절대 원하지 않음
-
Hentai 팬들은 오히려 반길 수도 있음
-
만약 촉수가 더 길고, 동료마다 장난칠 수 있는 프로그램이라면 오히려 재미있을 거라는 아이디어임
-
-
러브크래프트(소설가) 레퍼런스 좋다고 생각함, 소형 모델로도 충분하지 않을까 궁금함
-
Shoggoth 밈에 대해 참고할 만한 링크 공유함 Shoggoth With Smiley Face Meme NYT Shoggoth Meme 기사
-
나도 비슷한 의견임, 사실 더 단순해질 수 있을 것 같음, 개발자가 “엔드투엔드 VLA 모델 훈련을 고민했지만, 케이블로 구동하는 연질 로봇은 같은 팁 위치에 다양한 케이블 길이 조합이 생겨 예측 불가능성이 커서 시연 기반 학습(데모 기반)이 잘 확장되지 않는다”며, 최종적으로는 특화된 비전이 경량 컨트롤러에 입력되는 계단식 설계로 갔다는 이야기를 인용함, 그럼에도 소형 모델로 다시 시도하면 참 멋질 것 같고, 로컬 모델을 얹는다면 펜타그램 안에 두는 게 안심될 거라고 농담함
-
-
일본에서 온 미디어를 충분히 봐서 이게 어떤 쪽으로 갈지 예측할 수 있음
- 다행히 안전을 위한 플레어드 베이스가 있음
-
발상 자체가 너무 멋짐, 비언어적·비인간형 존재에 표현력을 더하는 시도에 끌림
- Pixar의 램프 로봇이 좋은 영감이 될 수 있다고 봄, 로봇이 구부러지거나 몸을 움직이며, 고개를 끄덕이거나(예/아니오), 호기심, 짜증 같은 감정 표현을 하는 것, LED로 표정까지 변화할 수 있게 하는 여러 아이디어를 나눔
-
정말 아름다운 작업이라고 생각함, 이 로봇이 자연계의 어떤 생명체도 닮지 않게 디자인된 것이 특히 인상적임, 로보틱스와 현실의 경계가 모호해지는 미래는 원하지 않음, 지금까지는 휴머노이드 로봇도 여전히 인공적으로 보이기 때문에 그 트렌드가 계속됐으면 함