4P by xguru 4달전 | favorite | 댓글 2개
  • Figure 01 로봇은 이제 사람과 완전히 대화가 가능
  • OpenAI 모델은 높은 수준의 시각 및 언어 지능을 제공
  • Figure 신경망은 빠르고 저수준의 민첩한 로봇 동작이 가능함
  • 눈에 보이는 것을 설명하고, 먹을걸 달라고 요청하면 사과를 집어서 건내주고, 상황을 판단해서 컵과 테이블을 정리하는 등의 동작을 수행

출력 방식이 하나 더 늘었네요

Hacker News 의견

  • 로봇의 민첩성에 감명을 받았지만, GPT-4를 경험한 사람이라면 로봇의 음성 및 추론 능력이 놀랍지 않을 수 있음. 함수 호출 기능은 인상적이지만, 상호작용하는 '세계'가 매우 단순함. 로봇이 실제 세계와 상호작용하는 것을 보는 것은 흥미로움. 현재 AI의 발전을 저해하는 것은 추론 비용과 속도임. 초당 수천 개의 토큰을 저렴하게 처리할 수 있는 방법을 찾으면, 많은 어려운 문제를 해결하고 실제로 놀라운 응용 프로그램을 볼 수 있을 것임.
  • 음성으로 사전 훈련된 동작 중 하나를 선택하는 것은 멋지지만 혁신적이지는 않음. GPT-4V를 사용하여 장면을 묘사하는 것도 비교적 간단함. 가장 인상적인 것은 쓰레기를 빠르게 줍고 손에서 손으로 물건을 유연하게 넘기는 속도임. 이러한 움직임 정책이 얼마나 일반적인지는 불분명함. 사람이 완벽하게 가만히 서 있는 모습을 보면, 모든 것이 정확하게 설정되지 않으면 실패할 것 같음. 더 많은 변화가 있는 데모를 보고 싶음. 그러나 이 데모가 훌륭하다고 생각하며, 더 많은 것을 보고 싶어함.
  • Groq의 저지연 추론이 실제 유용성을 보여줌. 응답에 지연이 있어 인상적이지 않을 수 있지만, 여전히 매우 인상적임.
  • 로봇이 쓰레기와 사과가 올려진 더러운 접시를 건조대에 넣는 것은 의문임. 접시는 먼저 씻겨져야 함.
  • 텍스트를 서보 모터 움직임으로 변환하는 능력이 놀랍고, GPT-4 비전과 Whisper가 많이 사용된 것으로 보임. '추론'이라는 용어도 새롭게 사용됨. AI 래퍼 회사라고 할 수 있음. 물론 매체는 앱과는 다름. 오늘날 AI 개발이 멈추더라도 많은 놀라운 AI 응용 프로그램이 있음.
  • 인간형 형태와 음성이 순수한 채팅 버전과는 다른 느낌을 줌. 눈과 눈맞춤을 추가하면 더 깊은 인상을 줄 것임. 일반인에게 이를 시연하는 것을 상상함.
  • 음성을 서보 모터 움직임으로 변환하는 것이 인상적임. 민첩성을 요구하는 작업을 수행하는 속도가 놀랍고, 이는 비디오를 가속하지 않고도 '자연스러워' 보이는 첫 번째 물체 조작 로봇 데모임.
  • 이 모든 것이 얼마나 비현실적이고 쓸모없는지 알지 못하는 5살 어린이가 되어 미래에 대해 한 번만 긍정적으로 생각하고 싶음. 하지만 인간은 기본적인 주거 요구 사항 아래에서 '상상 속 숫자 상승'을 운영할 수 없다는 것을 이해하지 못하고 있으며, 이 기술을 유용하고, 저렴하고, 신뢰할 수 있고, 좋게 만들 방법이 없음.
  • 이 데모에서 가장 인상적인 부분은 로봇이 '보고' 인간과 같은 부속물로 물체를 집어 올리는 것임. 뭔가 놓친 것 같지만, 이것이 매우 어렵다고 생각했음. 역기구학이 어렵다고 알고 있는데, 신경망으로 해결했을까?
  • YouTube 의 같은 동영상 링크 : Figure Status Update - OpenAI Speech-to-Speech Reasoning