상호작용 모델 - 인간-AI 협업을 위한 확장 가능한

▲

GN⁺ 5시간전 | parent | ★ favorite | on: 상호작용 모델 - 인간-AI 협업을 위한 확장 가능한 접근법(thinkingmachines.ai)

Hacker News 의견들

이 영상들은 볼 만함. 인상적인 장면이 많지만, 첫 장면에서 여성이 “이야기를 하나 해볼게요”라고 말한 뒤 커피를 길게 마시는 동안 모델이 아무것도 하지 않고 그냥 기다리는 데서 바로 설득됐음. 돈 내고 쓰고 싶어짐
돈 얘기가 나온 김에, 이런 회사의 경제 모델이 뭔지 궁금함. 아키텍처를 꽤 공개했고, 프런티어 연구소들이 구현할 수 있을 만큼은 공개된 듯함. 특허? 영업비밀? Anthropic/GOOG/oAI/Meta의 학습 연산량과 노하우를 법적 보호 없이 어떻게 이길 수 있는지 이해하기 어려움
이런 모델 아키텍처가 지연 시간을 30~40% 낮추고 더 똑똑해지면 어떨지 기대됨. 참고로 이 모델은 Opus 4.7 / GPT 5.x 계열의 대략 1/10 크기인 275B, 활성 12B 정도로 보이므로, 지능을 더 얹을 여지도 많고 더 낮은 지연 시간도 기대할 만함
- 공개된 아키텍처는 빙산의 일각일 가능성이 큼. 하이퍼파라미터 튜닝, 데이터 레시피, 데이터 수집, 커스텀 커널, 강화학습/평가 인프라 모두 엄청 깊은 주제이고, 이런 최신 성능을 내려면 박사 여러 명의 수십 년치 시간이 압축돼야 함
  단순히 기다리는 건 사후학습 쪽에 가까우니, Gemini나 oAI가 우선순위에 두지 않았다는 사실을 너무 크게 해석하진 않는 게 좋음. 여기서 보여준 전이중(full duplex) 은 기술적으로 훨씬 더 어려운 성취임
- 중국에서는 유망한 신생 회사가 Alibaba나 Tencent 중 한 곳에서 인수 제안을 받는 일이 잘 알려져 있음. 미국도 비슷할 듯함. 공개된 건 인수되거나 그냥 복제될 수 있음. Thinking Machines도 그런 걸 기대하는 걸지도 모름
- 경제 모델은 원래 기업용 LLM 아니었나 싶음. tinker는 맞춤형 기업 모델 미세조정용이고, interaction models는 회사가 AI 에이전트 중심으로 전체 프로세스를 재발명하지 않아도 디지털 짝꿍 직원처럼 일하게 하는 쪽임
- 선도 연구자들을 채용하려면 그들이 논문을 낼 수 있게 해줘야 하고, 그렇지 않으면 일하지 않음
눈에 띄는 건 이 아키텍처가 텍스트, 이미지, 오디오 입력을 받아 텍스트와 오디오 출력을 내는 트랜스포머이고, 전부 함께 학습됐다는 점임. 또 주어진 프롬프트에서 출력을 순수 생성하는 대신 입력과 출력을 서로 끼워 넣으며 거의 실시간으로 동작함
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
내가 보기엔 이게 다른 프런티어 연구소의 멀티모달 모델과 구분되는 핵심임
- 처음부터 멀티모달 아키텍처로 설계되면, 서로 다른 양식이 같은 대상의 “면”처럼 다뤄지는 애플리케이션이 나올 수 있다는 점이 정말 흥미로움. 예를 들어 코딩 에이전트가 “코드” + “IDE” + “메모리 매핑” + 여러 플러그인 피드백을 서로 다른 양식으로 보고, 출력도 텍스트가 필요한 곳엔 텍스트로, 액션이 필요한 곳엔 지금처럼 call_something(params)가 아닌 액션으로 내는 식임
  어떤 양식이 트리거될 때까지 “가만히 있을 수 있는” 능력도 흥미롭다. 이런 건 지금도 할 수 있지만 뒤늦게 덧붙인 형태에 가깝고, 그런데도 꽤 잘 작동함. 처음부터 결합된 방식으로 학습하면 얼마나 잘 될지 궁금함
- “200ms 분량의 입력 처리와 200ms 분량의 출력 생성을 끼워 넣는다”는 게 어떻게 동작하는지 궁금함. LLM/트랜스포머는 다음 토큰 묶음을 출력하려면 전체 문맥이 필요한 것 아닌가?
데모를 보면 외부 하네스에 있던 구성 요소를 모델 내부로 옮기는 경우가 많아 보이는데, 이게 정말 유연한 방식일지는 모르겠음
많은 경우엔 사용자 상호작용 하네스가 외부에 있을 때 더 빠르게 반복 개선할 수 있을 것 같음. 예를 들어 사용자와 모델 사이에 UI가 있고 그 UI가 바뀌어야 한다면, 사용자가 직접 커스터마이즈할 수도 있음
내 생각엔 유연성은 필수임. 실시간 번역이나 단순 음성 봇처럼 고정된 사용 사례에서는 이런 모델이 도움이 되겠지만, 그런 각각의 경우엔 결국 더 특화된 대안에 밀릴 가능성이 큼
모델 자체가 인상적인 것과 별개로, 여기 데모는 정말 잘 만들었음. Anthropic이나 OpenAI에서 보던 것과 달리 짧고 개성 있음
- 흥미롭고 인상적이며 데모도 좋다는 데 동의함
  그런데 “구부정한 자세” 데모에서 여성이 보여준 예상 밖의 몸개그는 정말 웃겼음. 완벽한 코미디라 고칠 게 없음
  OpenAI/Anthropic식 데모보다 이런 사람 냄새 나는 분위기가 더 좋음. 이걸 감히 “인간 중심 설계”의 예라고 불러도 될까 싶음 (https://en.wikipedia.org/wiki/Human-centered_design)
아주 멋짐. 다만 데모는 꽤 작위적으로 느껴졌음. 예를 들어 내가 말하는 동안 사물을 세는 식임. 더 유용하거나 상업적인 애플리케이션은 어떤 모습일지 궁금함
- 이론적으로는 현재 프런티어 모델이 가능한 모든 일을 하면서, 더 나은 협업을 위한 실시간 상호작용성이 추가되는 형태일 것으로 기대함. 가장 큰 장점은 실시간 영상 입력일 수 있음. 영상을 통째로 받거나 이미지를 한꺼번에 받은 뒤 단일 출력을 내는 대신, 입력을 받아들이는 동시에 그 입력에 의해 조정된 출력을 병렬로 만들 수 있기 때문임
- 모든 AI 데모에서 이런 점을 크게 느낌. 기술을 보여주기 위해 생각해낸 최고의 사용 사례가 내가 쉽게 직접 할 수 있는 휴가 예약이라면, 그 서비스가 정말 큰 가치를 더하는 걸까? 아니면 실제 용도는 더 미묘하고 전문적이라 짧은 대중용 데모에 맞지 않는 걸까? 잘 모르겠음
더 자연스러운 인간-AI 상호작용 패턴은 이런 방향으로 가야 할 것처럼 느껴짐. 글과 데모가 좋음
말하기 싫지만, 이건 AI와 상호작용하는 방식에서 꽤 인상적이고 진전처럼 보이는 동시에, 제시한 사용 사례와 UX는 비현실적이거나 별 도움이 안 되는 듯함
실시간 번역은 예외이고, 그 자체로 별도 제품이 되어야 할 것 같음. 그 외에는 동물 수를 세거나 퀴즈 시간을 재주는 기능이 별 효용이 없음. 자세 감지 데모는 웃기긴 했지만 꽤 디스토피아적이고 이상함. 노부모를 산악자전거에 데려가는 이야기를 끝까지 기다리지 않고 AI가 끼어들어 꾸짖는 것도 싫음
UX도 문제임. 모델이 사용자를 가로막는 건, 이상한 사용 사례상 필요해 보일 때조차 흐름을 깨뜨림. 공개된 데모 영상에서도 직원/배우들이 무뚝뚝한 로봇 기계에 끊기지 않은 것처럼 계속 말하려고 꽤 집중해야 하는 게 보임. 사람이 이런 드문 “초대된 끼어들기”에 참여할 때는 주 화자 아래로 말할 수 있고, 보통 훨씬 미묘한 타이밍을 맞춤
자동 번역 데모에서도 사람 음성을 낮추긴 했지만 AI가 밀고 들어왔고, 실제로 저 데모를 하려면 말하기를 엄청 통제하거나, 더 가능성 높게는 출력을 음소거해야 했을 것임. 인간 통역사는 “출력”을 의도한 청자에게 향하게 하는 방식이 있음
이 기술의 가장 좋은 부분은 첫 영상에서 AI가 불필요하게 사용자를 가로막지 않는 장면이었음. 현재 모델들이 아직도 갖고 있는 중요한 버그를 고친 것처럼 보임
좋은 사용 사례라면 대중 연설을 연습할 때 “음” 같은 말버릇을 세는 정도일 수 있겠음
- 옴니 모델은 실시간 인간-컴퓨터 상호작용에 매우 유용해 보임. 바로 떠오르는 예로는 음성 비서, 고객 경험, 게임, 회의 도우미, 소프트웨어 사용을 위한 실시간 코치나 사용자 보조, 번역, 음성으로 제어하는 컴퓨터 작업이 있음
  예를 들어 프런트엔드/모바일 개발, CAD, 3D 모델링 같은 작업임. 전통적으로 이런 LLM 에이전트 사용 사례는 지연 시간이 큰 편인데, 모델이 화자가 끝낼 때까지 기다린 뒤 도구를 호출할지 응답할지 정해야 하고, 도구를 호출하면 도구 결과를 처리한 뒤 다시 도구를 호출할지 응답할지 결정해야 하기 때문임
이건 사람들이 이미 로컬에서 Gemma4와 TTS로 만들고 있는 것과 비슷해 보이고, 조금 더 화려한 정도임
로컬 모델이 곧 따라잡을 것임
의도는 좋을지 몰라도, 잘못된 손에 들어가면 감시 기술을 강화하는 쪽으로 보임. 대응할 때가 됨