Shoggoth Mini – GPT-4o와 RL로 구동

▲

GN⁺ 9달전 | parent | ★ favorite | on: Shoggoth Mini – GPT-4o와 RL로 구동되는 소프트 촉수 로봇(matthieulc.com)

Hacker News 의견

기술과 인간 심리의 흥미로운 만남임을 느꼈음, 로봇이 처음에는 매우 생동감 있게 느껴졌으나 사용 시간이 지나면서 동작 예측이 쉬워지자 점차 덜 살아있는 느낌이 들었음, ‘표현력’은 내부 상태를 전달하는 것에 관한 것이지만 ‘생명력’은 예측 불가능성과 어느 정도의 불투명함에서 비롯함, 실제 살아있는 시스템이 복잡하고 다양한 변수를 추적하기 때문임, Shoggoth Mini는 그런 수준이 아님, 우리가 정말 살아있는 것처럼 느껴지길 바라는 로봇을 원하는지, 아니면 너무 예측 불가능해져서 인간 곁에 두기 불편해질 수 있는 한계점이 존재하는지 궁금함
- Furby가 생각남, 비슷한 형태와 크기, 두 개의 눈과 움직이는 귀 때문임, 초반에는 신기하지만 조금만 만져보면 아주 단순한 자극과 내부 상태 조합에 따라 제한된 동작을 보임, 많은 사람들이 “사람들도 똑같은 거 아님?”이라고 농담을 하긴 하지만 실제로 금방 반복 패턴을 깨달음
- 게임 시스템의 규칙을 이해하게 되면 더 이상 재미를 못 느끼는 것과 비슷함, 규칙 적용만으로 복잡해 보이더라도 결과가 정해진 느낌을 받음, 그 마법 같은 재미가 사라짐
- 인간이 불에, 흐르는 물에, 18세기 오토마타에, 원시 챗봇에, ChatGPT에 – 심지어 여러 기계들에까지 의인성과 자율성을 부여해왔음, 기계가 때로는 ‘기분’까지 있는 것처럼 보일 때도 있음
- 음성비서나 인공언어와 관련된 경험을 공유함, 음성비서는 영국식 악센트로 설정하는데, 적당히 이질적으로 느껴져서 훨씬 신뢰할 수 있음, 영국인한텐 아닐 수 있지만 본인은 그렇게 느낀다는 견해임, 과거 게임 개발에 참여하면서 NPC의 대사를 동적으로 생성하려 해봤지만, 영어로 현실감 있게 만드는 건 매우 어려웠음, 결국 NPC들이 허구의 언어로 말하게 했고, 유저가 그 언어를 배우도록 퍼즐 요소를 더했을 때 훨씬 현실감 있는 캐릭터로 느껴졌음, 사실 번역에 에너지를 쓰니 인공언어라는 사실을 잠시 잊게 해 ‘언캐니 밸리’를 피하는 셈이었음, 다만 게임에 익숙해지고 언어 숙련도가 올라가면 조작된 인공시스템임을 결국 알아채게 될지 지금은 궁금함
“아, 망설였네”라기보단 어느 질문이나 항상 비슷한 망설임이 느껴짐, GPT가 반응을 생성하는 딜레이가 상당히 신경 쓰이며, 뉴스 중계 연결 지연보다 더 불편한 느낌임, 눈에 LED 같은 걸 달아서 동작 중임을 표시하면 좀 나을까라는 생각임, GPT에 질의를 넘기면 어쩔 수 없이 지연이 발생함, 특히 클라우드로 요청을 보내면 더욱 그렇다는 아쉬움 공유, GPT-4o가 오디오 스트림 전체를 항상 듣는 설정은 문제의 소지가 있다고 봄
- 이런 간단한 과제라면 Qwen 0.6B 같은 소형 LLM으로 충분하다고 봄, 대형 모델의 zero-shot 성능을 이용해 자체 데이터셋을 만들고 훨씬 빠른 별도 모델을 훈련시키는 방법이 있다고 생각함
- GPT-4o가 계속 음성을 듣는 부분에 대해선 wake word 라이브러리(예: openWakeWord, porcupine)를 사용하면 해결할 수 있다고 봄, 사용자가 특정 호출어로 깨운 다음 프롬프트를 보낼 수 있게 하면 보안·프라이버시 이슈도 줄일 수 있음, 평소에는 ‘자고 있음’ 애니메이션을 표시하다 호출하면 깨어나 반응하는 식으로 만들 수 있을 것이라고 제안함, 이와 관련된 오픈소스 링크 공유 openWakeWord porcupine
- GPT가 응답할 때 딜레이가 불편하다는 의견엔 공감하지 않음, 촉수가 멈추고 곧장 세워질 때 마치 집중해서 듣고 생각하는 듯한 인상을 주기 때문에 오히려 귀엽게 느껴짐
- Johnny 5처럼 눈썹이 필요하다고 생각함 Johnny 5 예시 영상
- 프로토타입 단계 이후에는 작은 최적화 모델을 로컬 디바이스에 직접 올릴 수도 있다고 봄, 이렇게 하면 훨씬 빠르고 안전하며 최종 제품에 적합함(다만 프로토타입에서는 유연성은 떨어짐)
이 아이디어에 영감을 준 SpiRobs의 멋진 영상을 공유함 SpiRobs 유튜브 영상
디자인이 너무 귀여움, 작년에 촉수(텐타클) 로봇을 연구했을 때, 공식 용어는 “continuum robots”라는 걸 알게 되었고, 특히 의료로봇 분야에서 많은 연구가 이루어지고 있음, 더 알고 싶다면 좋은 개론 강의가 있으니 참고하면 좋겠음 관련 강의 영상
정말 멋진 프로젝트라고 생각함, AI 능력이 이렇게 많아졌고 로보틱스도 발전하는 요즘, 왜 항상 인간 형태만 만드는지 아쉬움, 집안에 거미-오징어 하이브리드 로봇 같이 독특한 형태의 로봇이 나타나길 바람
- AI 안전 논쟁이 많은데, 나는 거미-오징어 하이브리드 로봇이 집 안을 돌아다니길 원함
- 로보틱스를 인간형 세계와 가장 호환되게 만들려는 경향임, 하지만 다리 형태를 바꿔 다양한 옵션을 시도하는 것도 충분히 흥미로울 것 같음
절대 안됨, 이런 영화 봤음, 페이스허거(생명체)가 책상 위에 앉아있는 건 절대 원하지 않음
- Hentai 팬들은 오히려 반길 수도 있음
- 만약 촉수가 더 길고, 동료마다 장난칠 수 있는 프로그램이라면 오히려 재미있을 거라는 아이디어임
러브크래프트(소설가) 레퍼런스 좋다고 생각함, 소형 모델로도 충분하지 않을까 궁금함
- Shoggoth 밈에 대해 참고할 만한 링크 공유함 Shoggoth With Smiley Face Meme NYT Shoggoth Meme 기사
- 나도 비슷한 의견임, 사실 더 단순해질 수 있을 것 같음, 개발자가 “엔드투엔드 VLA 모델 훈련을 고민했지만, 케이블로 구동하는 연질 로봇은 같은 팁 위치에 다양한 케이블 길이 조합이 생겨 예측 불가능성이 커서 시연 기반 학습(데모 기반)이 잘 확장되지 않는다”며, 최종적으로는 특화된 비전이 경량 컨트롤러에 입력되는 계단식 설계로 갔다는 이야기를 인용함, 그럼에도 소형 모델로 다시 시도하면 참 멋질 것 같고, 로컬 모델을 얹는다면 펜타그램 안에 두는 게 안심될 거라고 농담함
일본에서 온 미디어를 충분히 봐서 이게 어떤 쪽으로 갈지 예측할 수 있음
- 다행히 안전을 위한 플레어드 베이스가 있음
발상 자체가 너무 멋짐, 비언어적·비인간형 존재에 표현력을 더하는 시도에 끌림
- Pixar의 램프 로봇이 좋은 영감이 될 수 있다고 봄, 로봇이 구부러지거나 몸을 움직이며, 고개를 끄덕이거나(예/아니오), 호기심, 짜증 같은 감정 표현을 하는 것, LED로 표정까지 변화할 수 있게 하는 여러 아이디어를 나눔
정말 아름다운 작업이라고 생각함, 이 로봇이 자연계의 어떤 생명체도 닮지 않게 디자인된 것이 특히 인상적임, 로보틱스와 현실의 경계가 모호해지는 미래는 원하지 않음, 지금까지는 휴머노이드 로봇도 여전히 인공적으로 보이기 때문에 그 트렌드가 계속됐으면 함