대화형 인터페이스에 대한 반론
(julian.digital)- 기술 업계에서는 몇 년마다 새로운 AI 기술이 등장할 때마다 “이번에는 자연어 인터페이스가 모든 것을 바꿀 것”이라는 환상이 반복됨
- Siri, Alexa, 챗봇, AirPods 플랫폼, 그리고 최근에는 대형 언어 모델(LLM)까지 이런 흐름을 타고 있음
- 그러나 실제로 우리의 컴퓨터 사용 방식은 거의 변하지 않음
- 사람들은 자연어를 "자연스러우니 당연히 최종 형태일 것"이라고 믿는 경향이 있음
- 이 글의 주장은, 자연어 인터페이스가 이상향이 아니며 실제로는 효율적인 방법이 아니라는 점임
자연어는 느리고 손실이 많은 데이터 전송 방식임
- 자연어는 아이디어와 지식을 인간끼리 주고받기 위한 데이터 전송 메커니즘임
- 데이터 전송에서 중요한 두 요소는 속도와 손실률(lossiness) 임
- 우리는 생각을 분당 1,000~3,000단어 수준으로 빠르게 하지만, 말하거나 글로 표현하는 속도는 훨씬 느림
- 예를 들어 읽기/듣기(수신)는 빠르지만 쓰기/말하기(발신)는 느림 → 자연어는 병목임
- 대신 사람들은 제스처(엄지척, 고개 끄덕임 등)를 사용해 더 빠르고 간결하게 의사 전달함
- 이런 방식은 데이터 압축과 같음 → 손실이 있지만 속도와 편의성 측면에서는 뛰어남
- 가장 효율적인 예는 오래된 부부가 말을 하지 않아도 서로의 요구를 알아차리는 순간처럼 보임
인간과 컴퓨터의 상호작용 진화
- 초기 컴퓨터는 명령어 기반 텍스트 인터페이스를 사용했지만, GUI의 도입으로 시각적 요소를 통해 작업을 더 쉽게 수행 가능해짐
- 현재는 GUI와 키보드 단축키를 조합한 생산성 균형 상태에 있음
- ⌘b, ⌘t, ⌘c/v 같은 단축키는 자연어가 아니라 데이터 압축 방식으로, 훨씬 빠르고 효율적임
- Linear, Raycast, Superhuman 등의 툴은 이러한 압축 입력을 극대화함 → 익숙해지면 거의 생각과 동시에 작업 수행 가능
- 터치 인터페이스는 보완적 기능으로 자리잡았지만, 본격적인 생산성 작업은 여전히 데스크탑에서 이뤄짐
- 모바일은 텍스트 입력이 느리고 불편함 (평균 36WPM) → 모바일에 맞는 단축키 대안이 없음
- 이로 인해 모바일 생산성 툴은 데스크탑만큼 발전하지 못함
대화형 인터페이스는 입력 속도에서 불리함
- 음성은 타이핑보다 빠른 입력 수단(150WPM vs 60WPM)이지만, 실제 사용에는 비효율적임
- 예: “Hey Google, 날씨 알려줘”는 앱 아이콘 누르기보다 10배 느림
- Siri, Alexa가 실패한 이유는 AI 출력 품질이 아니라 입력 방식의 번거로움 때문임
- LLM 역시 입력 방식의 비효율성을 해결하지 못함
- 버튼 하나로 할 수 있는 일을 문장으로 설명하는 건 오히려 퇴보임
대화형 UI는 보완 수단으로 활용되어야 함
- LLM은 기존 인터페이스를 대체하는 것이 아니라, 보완하는 형태로 매우 유용함
- 필자는 실제로 산책 중 ChatGPT와 음성 대화를 통해 이 글을 초안함 → LLM을 사고의 파트너로 사용함
- 이는 속도 중심이 아닌 사고 중심의 작업이며, 기존 워크플로우를 대체하지 않고 완전히 새로운 사용 사례임
- 가장 이상적인 예시는 StarCraft II에서 Alexa를 보조 입력 수단으로 활용한 해커톤 사례임
- 마우스/키보드를 대체하지 않고 음성을 추가 입력 방식으로 활용하여 데이터 전송 대역폭을 확장함
- Figma, Notion, Excel 같은 툴이 챗 UI로 대체되는 일은 없을 것임
- 대신 LLM은 툴 간을 연결하는 항상 실행되는 메타 레이어로 자리 잡아야 함
- 예: 사용자가 마우스나 키보드 작업 중에도 음성으로 간단히 명령 실행 가능해야 함
- 이를 위해 AI는 단일 앱이 아니라 운영체제 수준에서 작동해야 함
- 동시에, 음성 입력을 더 빠르게 만들 수 있는 방식(예: 휘파람, 감정 인식 등)도 필요함
- 대화형 인터페이스라도 결국은 속도와 편의성이 핵심임
결론: 대체가 아닌 보완의 관점에서 바라봐야 함
- 이 글의 제목은 클릭 유도용 과장임
- 진짜 주장은 "대화형 인터페이스 반대"가 아니라, 제로섬 사고에 대한 반대임
- AI는 기존 인터페이스를 대체하는 것이 아니라 새로운 가능성을 열어주는 보완 요소임
- 이상적인 미래는, 사람과 컴퓨터가 자연스럽고 무의식적인 상호작용을 하는 것임
- 마치 아침 식탁에서 말하지 않아도 버터가 자동으로 건네지는 것처럼
인간은 대화 시 불확실성을 싫어하므로 정확한 단어 사용 욕구를 버리기 어렵다. 하지만 ChatAI나 LLM은 본질적으로 불확실성을 내포한다. 확률적 정보가 나에게만 있다면 괜찮지만, 상대방까지 확률에 의존하면 스트레스를 받는다. 때로는 결정론적인 방식이 마음 편할 수 있다.
본문에서 소개된 https://upsidelab.io/blog/design-voice-user-interface-starcraft 글은 2018년 글인데도 흥미롭네요
Hacker News 의견
-
컴퓨터와의 "대화"에 대한 흥미를 가진 사람들에게 설명하려고 했던 여러 가지를 명확히 설명한 내용임
- 예로 든 것은 자동차를 운전할 때 말로만 조작하는 상황을 상상하게 하는 것임
- 이는 불편하고, 승객과 대화할 수 없게 만들며, 컴퓨터와의 대화는 원하는 것을 하게 만드는 것임
- 자연어로 말하는 것보다 더 간단하고 빠른 방법이 있음
-
기사에서 잘못된 부분
- "자연어는 데이터 전송 메커니즘이다"라는 주장
- 데이터 전송 메커니즘에는 속도와 손실이 중요함
- 자연어는 이 두 가지를 갖추고 있지 않음
- 대화형 인터페이스는 정보 전달보다는 "무지의 행복"과 "지능적 해석"이 주요 특징임
- "무지의 행복"은 목표를 제시하면서도 그 방법을 알 필요가 없게 함
- "지능적 해석"은 명령보다는 의도를 해석할 수 있게 함
- 팀 관리와 비슷하게, 경험이 많은 팀에게는 간단한 지시로도 좋은 결과를 기대할 수 있음
-
스타트렉은 대화형 인터페이스의 적절한 사용을 잘 보여줌
- 음성 인터페이스는 수동 입력을 보완하고 보조 채널로 사용됨
- 특정 제어 입력을 음성으로 하는 것이 아니라, 위임, 질의, 위치에 구애받지 않는 사용에 적합함
- 음성 상호작용은 설명의 형태로 사용되었으며, 어떤 것이 어색한지 잘 파악했을 것임
-
음성 UI는 키보드/마우스와 함께 사용될 때 가장 효과적임
- 시각적 기억과 청각적 기억이 별도의 버퍼를 가지며, 청각적 버퍼는 여유가 있음
- 음성으로 날씨를 물어보는 것이 앱을 여는 것보다 빠름
- 언어는 자동으로 압축되며, 복잡한 개념을 위한 새로운 단어를 만듦
- 책 제목을 줄여 부르는 것처럼, 음성 UI도 효율적으로 만들 수 있음
-
음성 입력을 더 빠르게 전송할 방법을 찾는 것이 필요함
- Travis Rudd의 음성으로 파이썬 코딩하는 영상이 떠오름
- 음성 인터페이스로 학습 자료를 읽고 퀴즈를 푸는 경험이 인상적이었음
-
기사의 제목이 오해를 불러일으킬 수 있음
- 링크 클릭을 유도하는 제목은 좋지 않음
-
외향적이고 관리적인 사람들이 문제를 해결하기 위해 말을 던지는 것을 선호함
- 이메일을 작성할 때 다양한 옵션을 고려하는 인상을 주는 것이 중요함
- 실제로 일을 하는 사람들은 컴퓨터에 말을 던지는 것이 비효율적임을 인식함
-
20-30년 전까지 인간은 컴퓨터화되지 않았음
- 웨어러블 컴퓨팅이 미래라는 주장이 있었음
- 하지만 화면과 리모컨에 중독된 것이 인간적이지 않음
- 사람들은 리모컨을 사용하는 것을 더 선호함
-
텍스트-캐드 AI 도구가 사용자의 요구를 잘 이해하지 못함
- 기계 작업장은 그림을 원하지 300단어의 시를 원하지 않음
-
컴퓨터와의 관계는 텔레파시처럼 되고 싶음
- 컴퓨터가 모든 것을 대신하는 것은 더 나쁨
- 인간에게 컴퓨터처럼 생각하도록 가르치는 것이 더 쉬움
- 자바스크립트가 20%의 기능으로 80%의 문제를 해결함
- ChatGPT/Bard/Gemini가 자바스크립트를 대신 작성함
- 모바일 인터페이스는 타이핑에 적합하지 않음