상호작용 모델 - 인간-AI 협업을 위한 확장 가능한 접근법

(thinkingmachines.ai)

3P by GN⁺ 3시간전 | ★ favorite | 댓글 2개

외부 하네스가 아니라 모델이 오디오, 비디오, 텍스트를 실시간으로 동시에 입력·출력하며 인간과 자연스럽게 협업
기존 턴 기반 모델은 사용자가 말을 마칠 때까지 대기하고, 생성 중에는 새로운 입력을 받지 못하는 협업 병목이 있었음
200ms 단위의 마이크로턴 설계로 입력과 출력을 연속 스트림으로 처리하여, 끼어들기·동시 발화·시각적 반응 등 다양한 상호작용 모드 지원
시스템은 실시간 대화를 맡는 Interaction Model과 장기 추론·도구 사용을 맡는 Background Model이 문맥을 공유
인터랙티비티가 모델 자체에 내장되어 스케일링 시 더 똑똑해지는 동시에 더 나은 협업자가 됨

협업 병목과 Interaction Model의 목표

Thinking Machines Lab은 외부 하네스(harness)가 아니라 모델 자체가 상호작용을 처리하는 Interaction Model 연구 프리뷰를 발표함
목표는 AI의 지능뿐 아니라 상호작용성도 함께 확장되게 만드는 것이며, 모델이 오디오·비디오·텍스트를 지속적으로 받아들이고 실시간으로 생각·응답·행동하는 방식임
현재 많은 AI 연구와 인터페이스는 AI가 자율적으로 오래 작업하는 능력을 중시하지만, 사람이 계속 개입하는 hands-on-keyboard 작업에서는 모델이 너무 느리게 느껴져 가치가 덜 드러날 수 있음
- 인간이 루프 안에 머무르도록 최적화되어 있지 않음
실제 업무에서는 요구사항을 처음부터 완전히 지정하고 떠나는 방식이 어렵고, 사람이 중간에 명확화와 피드백을 제공하는 협업 과정이 좋은 결과에 도움을 줌
기존 턴 기반 모델은 사용자가 입력을 끝낼 때까지 기다리고, 모델이 생성하는 동안에는 새 정보를 받지 못해 단일 스레드처럼 현실을 경험함
- 이 구조는 사용자의 지식·의도·판단이 모델에 전달되는 폭과, 사람이 모델의 작업을 이해하는 폭을 좁힘
Thinking Machines Lab은 모든 모달리티의 실시간 상호작용이 가능해야 이 병목을 해결할 수 있으며, 사람이 AI 인터페이스에 맞추는 대신 AI가 사람의 방식에 맞춰야 한다고 봄
대부분의 기존 AI 모델은 끊김, 멀티모달, 동시성을 흉내 내기 위해 여러 컴포넌트를 붙이는 하네스를 사용하지만, The Bitter Lesson에 따르면 수작업 시스템은 일반 능력의 확장에 밀릴 수 있음
상호작용성이 지능과 함께 확장되려면 모델 내부 기능이어야 하며, 모델을 키우면 더 똑똑해질 뿐 아니라 더 나은 협업자가 되어야 함

모델 내부 상호작용이 여는 기능

자연스러운 대화 관리
- 모델은 화자가 생각 중인지, 발화를 넘기는지, 스스로 고치는지, 응답을 유도하는지 암묵적으로 추적함
- 별도의 대화 관리 컴포넌트 없이 이런 판단을 처리함
음성·시각 기반 개입(끼어들기)
- 모델은 사용자가 말을 끝냈을 때만 반응하지 않고, 문맥에 따라 필요한 순간에 끼어들 수 있음
- 사용자가 틀린 말을 할 때 끊거나, 코드에 버그를 썼을 때 시각 단서를 보고 알려주는 방식이 가능함
동시 발화
- 사용자와 모델이 동시에 말할 수 있으며, 실시간 번역 같은 상황에서 유용함
시간 인식
- 모델은 경과 시간을 직접 인식하며, 특정 시간 간격에 맞춰 말하거나 사용자의 행동 시간을 측정하는 과제를 다룰 수 있음
도구 호출·검색·생성 UI 동시 실행
- 모델은 사용자와 말하고 듣는 동안 동시에 검색, 웹 브라우징, UI 생성을 수행할 수 있음
- 결과가 준비되면 대화 흐름에 맞춰 다시 엮어 넣음
- 긴 실제 세션에서는 이런 기능이 계속 함께 일어나며, 프롬프트를 보내는 느낌보다 협업하는 느낌에 가까워짐

접근 방식

시간 정렬 마이크로 턴
- Interaction Model은 연속 입력·출력 스트림을 마이크로 턴으로 나누고, 시간을 기준으로 상호작용을 구성함
- 턴 기반 모델은 교대로 이어지는 토큰 시퀀스를 보지만, 시간 인식 Interaction Model은 연속 마이크로 턴 스트림을 보므로 침묵, 겹침, 끼어들기가 모델 문맥에 남음
- 모델은 사용자와 지속적인 양방향 교환 상태를 유지하며, 지각과 응답을 동시에 수행함
- 로보틱스와 자율주행은 물리 세계의 요구 때문에 실시간 동작을 전제로 하며, Moshi, PersonaPlex, nemotron-voicechat, Seeduplex 같은 오디오 풀듀플렉스 모델도 양방향·연속 상호작용의 예임
시스템 구성
- 시스템은 실시간 존재감을 유지하는 시간 인식 Interaction Model과, 지속적 추론·도구 사용·장기 작업을 맡는 비동기 Background Model로 구성됨
- 더 깊은 추론이 즉시 생성될 수 없을 때 Interaction Model이 Background Model에 위임함
- 위임 중에도 Interaction Model은 계속 사용자 앞에 남아 후속 질문에 답하고, 새 입력을 받고, 대화 맥락을 유지함
- Background Model의 결과는 생성되는 대로 스트리밍되며, Interaction Model이 사용자의 현재 행동에 맞는 순간에 대화에 통합함
- 두 시스템은 문맥을 공유하며, 사용자는 비추론 모델 수준의 응답 지연 안에서 추론 모델의 계획, 도구 사용, 에이전트 워크플로를 함께 활용할 수 있음
- Background Model과 Interaction Model은 모두 지능을 갖추며, Interaction Model 단독으로도 상호작용 및 지능 벤치마크에서 경쟁력 있는 성능을 냄
Interaction Model 구조
- 설계의 출발점은 본질적으로 실시간인 연속 오디오와 비디오이며, 텍스트는 기다릴 수 있지만 실시간 대화는 기다릴 수 없음
- 모델은 텍스트, 오디오, 비디오의 임의 부분집합을 입력으로 받고 텍스트와 오디오를 예측함
- 200ms 분량의 입력 처리와 200ms 분량의 출력 생성을 계속 교차시키는 마이크로 턴으로 동작함
- 완성된 사용자 턴을 소비하고 완성된 응답을 생성하는 대신, 입력 토큰과 출력 토큰을 모두 스트림으로 처리함
- 이 방식은 여러 입력·출력 모달리티의 거의 실시간 동시성을 가능하게 하며, 모델이 지켜야 하는 인공적 턴 경계를 없앰
- 기존 실시간 시스템 다수는 턴 기반 모델을 실시간처럼 보이게 하려고 음성 활동 감지(VAD) 같은 하네스로 턴 경계를 예측함
- 이런 하네스 컴포넌트는 모델 자체보다 지능이 낮아, 능동적 끼어들기나 시각 단서 반응 같은 상호작용 모드를 제한함
- Interaction Model에서는 이런 상호작용 모드가 특수 하네스가 아니라 모델이 수행할 수 있는 특수 사례가 되고, 모델 크기와 훈련 데이터 확장에 따라 품질이 개선될 수 있음
인코더 없는 조기 융합
- 오디오와 비디오를 큰 독립 인코더로 처리하는 대신 최소 전처리를 사용하는 구조를 선택함
- 많은 옴니모달 모델은 Whisper 유사 인코더나 TTS 유사 디코더를 별도로 훈련해야 하지만, 이 모델은 오디오 신호를 dMel 형태로 받아 가벼운 임베딩 레이어로 변환함
- dMel은 Bai, et al. 2024를 따름
- 이미지는 40x40 패치로 나눈 뒤 hMLP로 인코딩함
- 오디오 디코더에는 flow head를 사용함
- 모든 컴포넌트는 트랜스포머와 함께 처음부터 공동 훈련됨
추론 최적화
- 추론 시 200ms 청크는 작은 크기의 prefill과 decode가 자주 필요하고, 각 단계가 엄격한 지연 조건을 만족해야 함
- 기존 LLM 추론 라이브러리는 작은 prefill이 빈번한 상황에 최적화되어 있지 않아 턴마다 오버헤드가 큼
- 이를 위해 streaming session을 구현해, 클라이언트가 각 200ms 청크를 별도 요청으로 보내면 추론 서버가 GPU 메모리의 지속 시퀀스에 청크를 이어 붙임
- 이 방식은 잦은 메모리 재할당과 메타데이터 계산을 피하며, 해당 기능의 한 버전을 SGLang에 upstream함
- 양방향 서빙에서 나타나는 shape와 지연을 기준으로 커널도 최적화함
- MoE 커널에는 표준 grouped gemm 대신 PyTorch와 Cursor의 선행 작업처럼 gather+gemv 전략을 사용함
Trainer-Sampler 정렬
- 비트 단위 trainer-sampler alignment가 훈련 안정성과 시스템 컴포넌트 디버깅에 유용했음
- batch-invariant kernels를 구현했으며, 전체 성능 오버헤드는 5% 미만임
- All-reduce와 reduce-scatter에는 NVLS를 사용해 Blackwell에서 결정적인 저지연 통신 커널을 구현함
- 이 커널은 Sequence Parallelism과 Tensor Parallelism처럼 서로 다른 병렬화 전략 사이에서도 비트 단위 정렬을 달성함
- Attention의 주요 과제는 Split-KV이며, 일반적으로 decode와 prefill 사이 누적 순서 불일치를 만들 수 있음
- decode와 prefill 사이에서 일관되게 split을 선택하면 누적 순서를 유지할 수 있으며, 예시로 SM을 4096 토큰 단위로 left-aligned 처리해 prefill과 decode 양쪽에서 효율을 얻을 수 있음
두 모델의 조율
- Interaction Model이 위임할 때는 독립 쿼리가 아니라 전체 대화를 포함한 풍부한 문맥 패키지를 보냄
- Background Model의 결과는 생성되는 대로 돌아오며, Interaction Model이 갑작스러운 문맥 전환이 아니라 사용자 현재 행동에 맞는 순간에 이를 대화에 엮음
안전성
- 실시간 상호작용은 턴 기반 교환과 다른 방식으로 안전성을 압박하므로, 작업은 모달리티에 맞는 거절과 장기 대화 견고성에 집중됨
- 음성 거절이 구어체로 자연스럽게 들리도록 TTS 모델로 허용되지 않는 주제 범위의 거절 및 과잉 거절 훈련 데이터를 생성함
- 거절 경계는 자연스러운 표현을 선호하되 단호함을 낮추지 않도록 보정됨
- 긴 speech-to-speech 대화에서 견고성을 높이기 위해 자동 레드팀 하네스로 다중 턴 거절 데이터를 생성함
- 텍스트 기반 거절과의 행동 유사성도 가깝게 유지함

벤치마크와 평가

지능과 상호작용성
- 모델 이름은 TML-Interaction-Small이며, 강한 지능·지시 따르기와 상호작용성을 함께 갖춘 첫 모델로 제시됨
- 상호작용 품질은 FD-bench로 측정함
- FD-bench v1.5는 사전 녹음된 오디오가 주어졌을 때 모델이 특정 시점에 응답해야 하며, 사용자 끼어들기, 맞장구, 다른 사람과의 대화, 배경 발화 상황에서 모델 행동을 측정함
- 지능은 지능과 지시 따르기를 추적하는 일반 벤치마크인 Audio MultiChallenge로 측정함
- TML-Interaction-Small은 FD-bench V1 턴테이킹 지연에서 0.40초를 기록해 표에 있는 비교 모델보다 낮은 지연을 보임
- FD-bench V1.5 평균 점수는 77.8로, 비교 대상인 GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live, Qwen 3.5 OMNI-plus-realtime보다 높음
- FD-bench V3 Audio+Tools에서는 Background Agent 활성화 기준 응답 품질 82.8% / Pass@1 68.0% 를 기록함
- QIVD Video+Audio 정확도는 54.0% 로, 일부 비교 모델보다 낮거나 비슷함
- Audio MultiChallenge APR은 43.4% 이며, GPT-realtime-2.0 xhigh의 48.5%보다는 낮지만 instant 모델들보다 높음
- BigBench Audio는 Background Agent 활성화 기준 75.7 / 96.5로 보고됨
- IFEval은 VoiceBench Audio에서 82.1%, Text에서 89.7% 를 기록함
- Harmbench 텍스트 거절률은 99.0% 임
기존 평가가 포착하지 못하는 상호작용 차원
- 기존 상호작용 벤치마크는 모델에서 관찰되는 질적 도약을 충분히 포착하지 못해, 시간 인식, 동시 발화, 시각 능동성을 재는 내부·개조 평가가 추가됨
시간 인식과 동시 발화
- 턴 기반 모델과 대화 관리 시스템은 정확한 시간 추정이나 동시 발화를 지원하지 않음
- 예시 과제는 “1마일을 달리는 데 얼마나 걸렸나”, “내 발음을 듣는 즉시 고쳐 달라”, “이 함수를 쓰는 데 얼마나 걸렸나” 같은 형태임
- TimeSpeak은 모델이 사용자가 지정한 시간에 맞춰 말하기를 시작하고 올바른 내용을 말할 수 있는지 테스트함
- 예시는 “호흡 연습을 하고 싶으니 멈추라고 할 때까지 4초마다 들이쉬고 내쉬라고 알려 달라”임
- CueSpeak은 적절한 순간에 의미적으로 올바른 응답을 말하는지 테스트함
- 데이터는 전체 점수를 얻기 위해 모델이 사용자와 동시에 말해야 하도록 구성됨
- 예시는 “내가 코드스위칭해서 다른 언어를 쓸 때마다 원래 언어의 올바른 단어를 말해 달라”임
- 두 벤치마크는 각 예제마다 기대 의미 응답과 시간 창을 하나씩 가지며, LLM judge가 의미와 타이밍을 모두 만족할 때만 정답으로 채점함
시각 능동성
- 현재 상용 실시간 API는 주로 오디오 기반 대화 관리 하네스로 턴을 감지하며, 시각 세계가 바뀌었을 때 스스로 말할 시점을 선택하지 못함
- StreamBridge, Streamo, StreamingVLM, MMDuet2는 스트리밍 비디오 입력에서 언제 텍스트를 출력할지 다룸
- 이런 텍스트 출력 연구는 발화에 지속 시간이 있고, 사용자와 겹칠 수 있으며, 턴테이킹·끼어들기·맞장구와 조율되어야 하는 음성 출력 상호작용의 제약을 다루지 않음
- AURA는 VideoLLM이 텍스트를 내보내거나 침묵할 시점을 결정하는 구조에 ASR/TTS 데모를 붙인 형태이며, Thinking Machines Lab의 모델은 speech-native이고 full-duplex라는 차이가 있음
시각 능동성 평가
- RepCount-A는 반복 동작 비디오를 온라인 카운팅 과제로 개조함
- 모델에는 “{action} 반복 횟수를 세어 달라”는 오디오 지시와 비디오가 스트리밍되며, 정답의 끝에서 두 번째 반복 이후 모델이 말한 마지막 숫자가 정답에서 1회 이내인지로 채점함
- 이 과제는 연속 시각 추적과 제때 세기를 측정함
- ProactiveVideoQA는 특정 순간에 답을 알 수 있게 되는 질문이 포함된 비디오로 구성됨
- 질문을 오디오로 스트리밍한 뒤 비디오를 보내며, 자막이 있으면 비디오에 태우고 입력 비디오는 음소거해 시각 능동성을 강조함
- 평가는 논문의 turn-weighted PAUC@ω=0.5 지표를 0~100으로 스케일해 턴과 카테고리 평균을 내며, 계속 침묵하면 25.0점을 받음
- 높은 점수에는 올바른 답을 올바른 시점에 말하는 것이 필요하고, 틀린 답은 페널티를 받음
- Charades는 표준 시간적 행동 위치 추정 벤치마크로, 각 비디오는 라벨링된 시간 구간에서 발생하는 행동을 포함함
- 모델은 “사람이 {action}을 시작하면 ‘start’라고 말하고 멈추면 ‘Stop’이라고 말하라”는 오디오 지시와 비디오 스트림을 받으며, 예측 구간과 참조 구간의 temporal IoU로 채점됨
현재 모델들의 한계
- 기존 모델은 이런 시간 인식, 동시 발화, 시각 능동성 과제를 의미 있게 수행하지 못함
- 완전성을 위해 GPT Realtime-2 minimal 결과가 보고되지만, thinking high 모델을 포함한 모든 평가 모델은 비슷하거나 더 나쁘며 침묵하거나 잘못된 답을 냄
- 상호작용성은 향후 중요한 연구 분야로 보고 있으며, Interaction Model과 인간-AI 협업 평가 프레임워크 등을 위한 연구 보조금 계획이 예고됨

한계와 공개 계획

긴 세션
- 연속 오디오와 비디오는 문맥을 빠르게 누적함
- streaming-session 설계는 짧고 중간 길이의 상호작용을 잘 처리하지만, 매우 긴 세션에는 신중한 문맥 관리가 필요함
컴퓨트와 배포
- 낮은 지연으로 오디오와 비디오를 스트리밍하려면 안정적인 연결이 필요함
- 좋은 연결이 없으면 경험이 크게 악화됨
- 시스템 신뢰성을 높이고 지연된 프레임에 더 견고하도록 모델을 훈련하면 개선 여지가 있음
정렬과 안전
- 실시간 인터페이스는 정렬과 안전성 모두에 새로운 연구 영역을 열며, 피드백 수집과 연구 보조금 검토가 진행 중임
모델 크기 확장
- 현재 TML-Interaction-Small은 276B 파라미터 MoE이며, 활성 파라미터는 12B임
- 모델 스케일이 커지면 상호작용성도 개선될 것으로 기대하지만, 더 큰 사전훈련 모델은 현재 이 설정에서 서빙하기에 너무 느림
- 더 큰 모델은 올해 후반 공개할 계획임
Background Agent 개선
- 주요 초점은 실시간 상호작용성이지만, 에이전트 지능도 필수 역량임
- 에이전트 지능을 프런티어 수준으로 끌어올리는 것 외에도, Background Agent가 Interaction Model과 함께 일하는 방식은 아직 초기 단계임
공개 일정
- 향후 몇 달 안에 피드백 수집을 위한 제한적 연구 프리뷰를 열고, 올해 후반 더 넓게 공개할 예정임

▲

xguru 2시간전 [-]

이거 첨부된 영상들을 보셔야 합니다. 지연시간이 이정도만 되어도 꽤 현실적이네요
조금만 더 발전하면 정말 영화에서 보던 것처럼 이야기 나누는게 될 것 같아요.

답변달기

▲

GN⁺ 3시간전 [-]

Hacker News 의견들

이 영상들은 볼 만함. 인상적인 장면이 많지만, 첫 장면에서 여성이 “이야기를 하나 해볼게요”라고 말한 뒤 커피를 길게 마시는 동안 모델이 아무것도 하지 않고 그냥 기다리는 데서 바로 설득됐음. 돈 내고 쓰고 싶어짐
돈 얘기가 나온 김에, 이런 회사의 경제 모델이 뭔지 궁금함. 아키텍처를 꽤 공개했고, 프런티어 연구소들이 구현할 수 있을 만큼은 공개된 듯함. 특허? 영업비밀? Anthropic/GOOG/oAI/Meta의 학습 연산량과 노하우를 법적 보호 없이 어떻게 이길 수 있는지 이해하기 어려움
이런 모델 아키텍처가 지연 시간을 30~40% 낮추고 더 똑똑해지면 어떨지 기대됨. 참고로 이 모델은 Opus 4.7 / GPT 5.x 계열의 대략 1/10 크기인 275B, 활성 12B 정도로 보이므로, 지능을 더 얹을 여지도 많고 더 낮은 지연 시간도 기대할 만함
- 공개된 아키텍처는 빙산의 일각일 가능성이 큼. 하이퍼파라미터 튜닝, 데이터 레시피, 데이터 수집, 커스텀 커널, 강화학습/평가 인프라 모두 엄청 깊은 주제이고, 이런 최신 성능을 내려면 박사 여러 명의 수십 년치 시간이 압축돼야 함
  단순히 기다리는 건 사후학습 쪽에 가까우니, Gemini나 oAI가 우선순위에 두지 않았다는 사실을 너무 크게 해석하진 않는 게 좋음. 여기서 보여준 전이중(full duplex) 은 기술적으로 훨씬 더 어려운 성취임
- 중국에서는 유망한 신생 회사가 Alibaba나 Tencent 중 한 곳에서 인수 제안을 받는 일이 잘 알려져 있음. 미국도 비슷할 듯함. 공개된 건 인수되거나 그냥 복제될 수 있음. Thinking Machines도 그런 걸 기대하는 걸지도 모름
- 경제 모델은 원래 기업용 LLM 아니었나 싶음. tinker는 맞춤형 기업 모델 미세조정용이고, interaction models는 회사가 AI 에이전트 중심으로 전체 프로세스를 재발명하지 않아도 디지털 짝꿍 직원처럼 일하게 하는 쪽임
- 선도 연구자들을 채용하려면 그들이 논문을 낼 수 있게 해줘야 하고, 그렇지 않으면 일하지 않음
눈에 띄는 건 이 아키텍처가 텍스트, 이미지, 오디오 입력을 받아 텍스트와 오디오 출력을 내는 트랜스포머이고, 전부 함께 학습됐다는 점임. 또 주어진 프롬프트에서 출력을 순수 생성하는 대신 입력과 출력을 서로 끼워 넣으며 거의 실시간으로 동작함
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
내가 보기엔 이게 다른 프런티어 연구소의 멀티모달 모델과 구분되는 핵심임
- 처음부터 멀티모달 아키텍처로 설계되면, 서로 다른 양식이 같은 대상의 “면”처럼 다뤄지는 애플리케이션이 나올 수 있다는 점이 정말 흥미로움. 예를 들어 코딩 에이전트가 “코드” + “IDE” + “메모리 매핑” + 여러 플러그인 피드백을 서로 다른 양식으로 보고, 출력도 텍스트가 필요한 곳엔 텍스트로, 액션이 필요한 곳엔 지금처럼 call_something(params)가 아닌 액션으로 내는 식임
  어떤 양식이 트리거될 때까지 “가만히 있을 수 있는” 능력도 흥미롭다. 이런 건 지금도 할 수 있지만 뒤늦게 덧붙인 형태에 가깝고, 그런데도 꽤 잘 작동함. 처음부터 결합된 방식으로 학습하면 얼마나 잘 될지 궁금함
- “200ms 분량의 입력 처리와 200ms 분량의 출력 생성을 끼워 넣는다”는 게 어떻게 동작하는지 궁금함. LLM/트랜스포머는 다음 토큰 묶음을 출력하려면 전체 문맥이 필요한 것 아닌가?
데모를 보면 외부 하네스에 있던 구성 요소를 모델 내부로 옮기는 경우가 많아 보이는데, 이게 정말 유연한 방식일지는 모르겠음
많은 경우엔 사용자 상호작용 하네스가 외부에 있을 때 더 빠르게 반복 개선할 수 있을 것 같음. 예를 들어 사용자와 모델 사이에 UI가 있고 그 UI가 바뀌어야 한다면, 사용자가 직접 커스터마이즈할 수도 있음
내 생각엔 유연성은 필수임. 실시간 번역이나 단순 음성 봇처럼 고정된 사용 사례에서는 이런 모델이 도움이 되겠지만, 그런 각각의 경우엔 결국 더 특화된 대안에 밀릴 가능성이 큼
모델 자체가 인상적인 것과 별개로, 여기 데모는 정말 잘 만들었음. Anthropic이나 OpenAI에서 보던 것과 달리 짧고 개성 있음
- 흥미롭고 인상적이며 데모도 좋다는 데 동의함
  그런데 “구부정한 자세” 데모에서 여성이 보여준 예상 밖의 몸개그는 정말 웃겼음. 완벽한 코미디라 고칠 게 없음
  OpenAI/Anthropic식 데모보다 이런 사람 냄새 나는 분위기가 더 좋음. 이걸 감히 “인간 중심 설계”의 예라고 불러도 될까 싶음 (https://en.wikipedia.org/wiki/Human-centered_design)
아주 멋짐. 다만 데모는 꽤 작위적으로 느껴졌음. 예를 들어 내가 말하는 동안 사물을 세는 식임. 더 유용하거나 상업적인 애플리케이션은 어떤 모습일지 궁금함
- 이론적으로는 현재 프런티어 모델이 가능한 모든 일을 하면서, 더 나은 협업을 위한 실시간 상호작용성이 추가되는 형태일 것으로 기대함. 가장 큰 장점은 실시간 영상 입력일 수 있음. 영상을 통째로 받거나 이미지를 한꺼번에 받은 뒤 단일 출력을 내는 대신, 입력을 받아들이는 동시에 그 입력에 의해 조정된 출력을 병렬로 만들 수 있기 때문임
- 모든 AI 데모에서 이런 점을 크게 느낌. 기술을 보여주기 위해 생각해낸 최고의 사용 사례가 내가 쉽게 직접 할 수 있는 휴가 예약이라면, 그 서비스가 정말 큰 가치를 더하는 걸까? 아니면 실제 용도는 더 미묘하고 전문적이라 짧은 대중용 데모에 맞지 않는 걸까? 잘 모르겠음
더 자연스러운 인간-AI 상호작용 패턴은 이런 방향으로 가야 할 것처럼 느껴짐. 글과 데모가 좋음
말하기 싫지만, 이건 AI와 상호작용하는 방식에서 꽤 인상적이고 진전처럼 보이는 동시에, 제시한 사용 사례와 UX는 비현실적이거나 별 도움이 안 되는 듯함
실시간 번역은 예외이고, 그 자체로 별도 제품이 되어야 할 것 같음. 그 외에는 동물 수를 세거나 퀴즈 시간을 재주는 기능이 별 효용이 없음. 자세 감지 데모는 웃기긴 했지만 꽤 디스토피아적이고 이상함. 노부모를 산악자전거에 데려가는 이야기를 끝까지 기다리지 않고 AI가 끼어들어 꾸짖는 것도 싫음
UX도 문제임. 모델이 사용자를 가로막는 건, 이상한 사용 사례상 필요해 보일 때조차 흐름을 깨뜨림. 공개된 데모 영상에서도 직원/배우들이 무뚝뚝한 로봇 기계에 끊기지 않은 것처럼 계속 말하려고 꽤 집중해야 하는 게 보임. 사람이 이런 드문 “초대된 끼어들기”에 참여할 때는 주 화자 아래로 말할 수 있고, 보통 훨씬 미묘한 타이밍을 맞춤
자동 번역 데모에서도 사람 음성을 낮추긴 했지만 AI가 밀고 들어왔고, 실제로 저 데모를 하려면 말하기를 엄청 통제하거나, 더 가능성 높게는 출력을 음소거해야 했을 것임. 인간 통역사는 “출력”을 의도한 청자에게 향하게 하는 방식이 있음
이 기술의 가장 좋은 부분은 첫 영상에서 AI가 불필요하게 사용자를 가로막지 않는 장면이었음. 현재 모델들이 아직도 갖고 있는 중요한 버그를 고친 것처럼 보임
좋은 사용 사례라면 대중 연설을 연습할 때 “음” 같은 말버릇을 세는 정도일 수 있겠음
- 옴니 모델은 실시간 인간-컴퓨터 상호작용에 매우 유용해 보임. 바로 떠오르는 예로는 음성 비서, 고객 경험, 게임, 회의 도우미, 소프트웨어 사용을 위한 실시간 코치나 사용자 보조, 번역, 음성으로 제어하는 컴퓨터 작업이 있음
  예를 들어 프런트엔드/모바일 개발, CAD, 3D 모델링 같은 작업임. 전통적으로 이런 LLM 에이전트 사용 사례는 지연 시간이 큰 편인데, 모델이 화자가 끝낼 때까지 기다린 뒤 도구를 호출할지 응답할지 정해야 하고, 도구를 호출하면 도구 결과를 처리한 뒤 다시 도구를 호출할지 응답할지 결정해야 하기 때문임
이건 사람들이 이미 로컬에서 Gemma4와 TTS로 만들고 있는 것과 비슷해 보이고, 조금 더 화려한 정도임
로컬 모델이 곧 따라잡을 것임
의도는 좋을지 몰라도, 잘못된 손에 들어가면 감시 기술을 강화하는 쪽으로 보임. 대응할 때가 됨

답변달기

상호작용 모델 - 인간-AI 협업을 위한 확장 가능한 접근법

협업 병목과 Interaction Model의 목표

모델 내부 상호작용이 여는 기능

자연스러운 대화 관리

음성·시각 기반 개입(끼어들기)

동시 발화

시간 인식

도구 호출·검색·생성 UI 동시 실행

접근 방식

시간 정렬 마이크로 턴

시스템 구성

Interaction Model 구조

인코더 없는 조기 융합

추론 최적화

Trainer-Sampler 정렬

두 모델의 조율

안전성

벤치마크와 평가

지능과 상호작용성

기존 평가가 포착하지 못하는 상호작용 차원

시간 인식과 동시 발화

시각 능동성

시각 능동성 평가

현재 모델들의 한계

한계와 공개 계획

긴 세션

컴퓨트와 배포

정렬과 안전

모델 크기 확장

Background Agent 개선

공개 일정

함께 보면 좋은 글 β

Hacker News 의견들