대화형 인터페이스에 대한 반론

(julian.digital)

25P by GN⁺ 10달전 | ★ favorite | 댓글 5개

기술 업계에서는 몇 년마다 새로운 AI 기술이 등장할 때마다 “이번에는 자연어 인터페이스가 모든 것을 바꿀 것”이라는 환상이 반복됨
Siri, Alexa, 챗봇, AirPods 플랫폼, 그리고 최근에는 대형 언어 모델(LLM)까지 이런 흐름을 타고 있음
그러나 실제로 우리의 컴퓨터 사용 방식은 거의 변하지 않음
사람들은 자연어를 "자연스러우니 당연히 최종 형태일 것"이라고 믿는 경향이 있음
이 글의 주장은, 자연어 인터페이스가 이상향이 아니며 실제로는 효율적인 방법이 아니라는 점임

자연어는 느리고 손실이 많은 데이터 전송 방식임

자연어는 아이디어와 지식을 인간끼리 주고받기 위한 데이터 전송 메커니즘임
데이터 전송에서 중요한 두 요소는 속도와 손실률(lossiness) 임
우리는 생각을 분당 1,000~3,000단어 수준으로 빠르게 하지만, 말하거나 글로 표현하는 속도는 훨씬 느림
예를 들어 읽기/듣기(수신)는 빠르지만 쓰기/말하기(발신)는 느림 → 자연어는 병목임
대신 사람들은 제스처(엄지척, 고개 끄덕임 등)를 사용해 더 빠르고 간결하게 의사 전달함
이런 방식은 데이터 압축과 같음 → 손실이 있지만 속도와 편의성 측면에서는 뛰어남
가장 효율적인 예는 오래된 부부가 말을 하지 않아도 서로의 요구를 알아차리는 순간처럼 보임

인간과 컴퓨터의 상호작용 진화

초기 컴퓨터는 명령어 기반 텍스트 인터페이스를 사용했지만, GUI의 도입으로 시각적 요소를 통해 작업을 더 쉽게 수행 가능해짐
현재는 GUI와 키보드 단축키를 조합한 생산성 균형 상태에 있음
⌘b, ⌘t, ⌘c/v 같은 단축키는 자연어가 아니라 데이터 압축 방식으로, 훨씬 빠르고 효율적임
Linear, Raycast, Superhuman 등의 툴은 이러한 압축 입력을 극대화함 → 익숙해지면 거의 생각과 동시에 작업 수행 가능
터치 인터페이스는 보완적 기능으로 자리잡았지만, 본격적인 생산성 작업은 여전히 데스크탑에서 이뤄짐
모바일은 텍스트 입력이 느리고 불편함 (평균 36WPM) → 모바일에 맞는 단축키 대안이 없음
이로 인해 모바일 생산성 툴은 데스크탑만큼 발전하지 못함

대화형 인터페이스는 입력 속도에서 불리함

음성은 타이핑보다 빠른 입력 수단(150WPM vs 60WPM)이지만, 실제 사용에는 비효율적임
예: “Hey Google, 날씨 알려줘”는 앱 아이콘 누르기보다 10배 느림
Siri, Alexa가 실패한 이유는 AI 출력 품질이 아니라 입력 방식의 번거로움 때문임
LLM 역시 입력 방식의 비효율성을 해결하지 못함
버튼 하나로 할 수 있는 일을 문장으로 설명하는 건 오히려 퇴보임

대화형 UI는 보완 수단으로 활용되어야 함

LLM은 기존 인터페이스를 대체하는 것이 아니라, 보완하는 형태로 매우 유용함
필자는 실제로 산책 중 ChatGPT와 음성 대화를 통해 이 글을 초안함 → LLM을 사고의 파트너로 사용함
이는 속도 중심이 아닌 사고 중심의 작업이며, 기존 워크플로우를 대체하지 않고 완전히 새로운 사용 사례임
가장 이상적인 예시는 StarCraft II에서 Alexa를 보조 입력 수단으로 활용한 해커톤 사례임
- 마우스/키보드를 대체하지 않고 음성을 추가 입력 방식으로 활용하여 데이터 전송 대역폭을 확장함
Figma, Notion, Excel 같은 툴이 챗 UI로 대체되는 일은 없을 것임
대신 LLM은 툴 간을 연결하는 항상 실행되는 메타 레이어로 자리 잡아야 함
- 예: 사용자가 마우스나 키보드 작업 중에도 음성으로 간단히 명령 실행 가능해야 함
이를 위해 AI는 단일 앱이 아니라 운영체제 수준에서 작동해야 함
동시에, 음성 입력을 더 빠르게 만들 수 있는 방식(예: 휘파람, 감정 인식 등)도 필요함
대화형 인터페이스라도 결국은 속도와 편의성이 핵심임

결론: 대체가 아닌 보완의 관점에서 바라봐야 함

이 글의 제목은 클릭 유도용 과장임
진짜 주장은 "대화형 인터페이스 반대"가 아니라, 제로섬 사고에 대한 반대임
AI는 기존 인터페이스를 대체하는 것이 아니라 새로운 가능성을 열어주는 보완 요소임
이상적인 미래는, 사람과 컴퓨터가 자연스럽고 무의식적인 상호작용을 하는 것임
- 마치 아침 식탁에서 말하지 않아도 버터가 자동으로 건네지는 것처럼

▲

dbs0829 10달전 [-]

저도 인터페이스 적인 면에서는 비슷한고민을 하긴 했는데, 마땅히 새로운 인터페이스가 떠오르지 않더라고요.

답변달기

▲

winterjung 10달전 [-]

본문에서 소개된 https://upsidelab.io/blog/design-voice-user-interface-starcraft 글은 2018년 글인데도 흥미롭네요

답변달기

▲

girr311 10달전 [-]

미래에는 어떤 방식으로 선택되고 사용될지 궁금하네욤

답변달기

▲

fantajeon 10달전 [-]

인간은 대화 시 불확실성을 싫어하므로 정확한 단어 사용 욕구를 버리기 어렵다. 하지만 ChatAI나 LLM은 본질적으로 불확실성을 내포한다. 확률적 정보가 나에게만 있다면 괜찮지만, 상대방까지 확률에 의존하면 스트레스를 받는다. 때로는 결정론적인 방식이 마음 편할 수 있다.

답변달기

▲

GN⁺ 10달전 [-]

Hacker News 의견

컴퓨터와의 "대화"에 대한 흥미를 가진 사람들에게 설명하려고 했던 여러 가지를 명확히 설명한 내용임
- 예로 든 것은 자동차를 운전할 때 말로만 조작하는 상황을 상상하게 하는 것임
- 이는 불편하고, 승객과 대화할 수 없게 만들며, 컴퓨터와의 대화는 원하는 것을 하게 만드는 것임
- 자연어로 말하는 것보다 더 간단하고 빠른 방법이 있음
기사에서 잘못된 부분
- "자연어는 데이터 전송 메커니즘이다"라는 주장
- 데이터 전송 메커니즘에는 속도와 손실이 중요함
- 자연어는 이 두 가지를 갖추고 있지 않음
- 대화형 인터페이스는 정보 전달보다는 "무지의 행복"과 "지능적 해석"이 주요 특징임
- "무지의 행복"은 목표를 제시하면서도 그 방법을 알 필요가 없게 함
- "지능적 해석"은 명령보다는 의도를 해석할 수 있게 함
- 팀 관리와 비슷하게, 경험이 많은 팀에게는 간단한 지시로도 좋은 결과를 기대할 수 있음
스타트렉은 대화형 인터페이스의 적절한 사용을 잘 보여줌
- 음성 인터페이스는 수동 입력을 보완하고 보조 채널로 사용됨
- 특정 제어 입력을 음성으로 하는 것이 아니라, 위임, 질의, 위치에 구애받지 않는 사용에 적합함
- 음성 상호작용은 설명의 형태로 사용되었으며, 어떤 것이 어색한지 잘 파악했을 것임
음성 UI는 키보드/마우스와 함께 사용될 때 가장 효과적임
- 시각적 기억과 청각적 기억이 별도의 버퍼를 가지며, 청각적 버퍼는 여유가 있음
- 음성으로 날씨를 물어보는 것이 앱을 여는 것보다 빠름
- 언어는 자동으로 압축되며, 복잡한 개념을 위한 새로운 단어를 만듦
- 책 제목을 줄여 부르는 것처럼, 음성 UI도 효율적으로 만들 수 있음
음성 입력을 더 빠르게 전송할 방법을 찾는 것이 필요함
- Travis Rudd의 음성으로 파이썬 코딩하는 영상이 떠오름
- 음성 인터페이스로 학습 자료를 읽고 퀴즈를 푸는 경험이 인상적이었음
기사의 제목이 오해를 불러일으킬 수 있음
- 링크 클릭을 유도하는 제목은 좋지 않음
외향적이고 관리적인 사람들이 문제를 해결하기 위해 말을 던지는 것을 선호함
- 이메일을 작성할 때 다양한 옵션을 고려하는 인상을 주는 것이 중요함
- 실제로 일을 하는 사람들은 컴퓨터에 말을 던지는 것이 비효율적임을 인식함
20-30년 전까지 인간은 컴퓨터화되지 않았음
- 웨어러블 컴퓨팅이 미래라는 주장이 있었음
- 하지만 화면과 리모컨에 중독된 것이 인간적이지 않음
- 사람들은 리모컨을 사용하는 것을 더 선호함
텍스트-캐드 AI 도구가 사용자의 요구를 잘 이해하지 못함
- 기계 작업장은 그림을 원하지 300단어의 시를 원하지 않음
컴퓨터와의 관계는 텔레파시처럼 되고 싶음
- 컴퓨터가 모든 것을 대신하는 것은 더 나쁨
- 인간에게 컴퓨터처럼 생각하도록 가르치는 것이 더 쉬움
- 자바스크립트가 20%의 기능으로 80%의 문제를 해결함
- ChatGPT/Bard/Gemini가 자바스크립트를 대신 작성함
- 모바일 인터페이스는 타이핑에 적합하지 않음

답변달기