20P by GN⁺ 1일전 | ★ favorite | 댓글 5개
  • 기술 업계에서는 몇 년마다 새로운 AI 기술이 등장할 때마다 “이번에는 자연어 인터페이스가 모든 것을 바꿀 것”이라는 환상이 반복됨
  • Siri, Alexa, 챗봇, AirPods 플랫폼, 그리고 최근에는 대형 언어 모델(LLM)까지 이런 흐름을 타고 있음
  • 그러나 실제로 우리의 컴퓨터 사용 방식은 거의 변하지 않음
  • 사람들은 자연어를 "자연스러우니 당연히 최종 형태일 것"이라고 믿는 경향이 있음
  • 이 글의 주장은, 자연어 인터페이스가 이상향이 아니며 실제로는 효율적인 방법이 아니라는 점임

자연어는 느리고 손실이 많은 데이터 전송 방식임

  • 자연어는 아이디어와 지식을 인간끼리 주고받기 위한 데이터 전송 메커니즘임
  • 데이터 전송에서 중요한 두 요소는 속도손실률(lossiness)
  • 우리는 생각을 분당 1,000~3,000단어 수준으로 빠르게 하지만, 말하거나 글로 표현하는 속도는 훨씬 느림
  • 예를 들어 읽기/듣기(수신)는 빠르지만 쓰기/말하기(발신)는 느림 → 자연어는 병목임
  • 대신 사람들은 제스처(엄지척, 고개 끄덕임 등)를 사용해 더 빠르고 간결하게 의사 전달함
  • 이런 방식은 데이터 압축과 같음 → 손실이 있지만 속도와 편의성 측면에서는 뛰어남
  • 가장 효율적인 예는 오래된 부부가 말을 하지 않아도 서로의 요구를 알아차리는 순간처럼 보임

인간과 컴퓨터의 상호작용 진화

  • 초기 컴퓨터는 명령어 기반 텍스트 인터페이스를 사용했지만, GUI의 도입으로 시각적 요소를 통해 작업을 더 쉽게 수행 가능해짐
  • 현재는 GUI와 키보드 단축키를 조합한 생산성 균형 상태에 있음
  • ⌘b, ⌘t, ⌘c/v 같은 단축키는 자연어가 아니라 데이터 압축 방식으로, 훨씬 빠르고 효율적임
  • Linear, Raycast, Superhuman 등의 툴은 이러한 압축 입력을 극대화함 → 익숙해지면 거의 생각과 동시에 작업 수행 가능
  • 터치 인터페이스는 보완적 기능으로 자리잡았지만, 본격적인 생산성 작업은 여전히 데스크탑에서 이뤄짐
  • 모바일은 텍스트 입력이 느리고 불편함 (평균 36WPM) → 모바일에 맞는 단축키 대안이 없음
  • 이로 인해 모바일 생산성 툴은 데스크탑만큼 발전하지 못함

대화형 인터페이스는 입력 속도에서 불리함

  • 음성은 타이핑보다 빠른 입력 수단(150WPM vs 60WPM)이지만, 실제 사용에는 비효율적임
  • 예: “Hey Google, 날씨 알려줘”는 앱 아이콘 누르기보다 10배 느림
  • Siri, Alexa가 실패한 이유는 AI 출력 품질이 아니라 입력 방식의 번거로움 때문임
  • LLM 역시 입력 방식의 비효율성을 해결하지 못함
  • 버튼 하나로 할 수 있는 일을 문장으로 설명하는 건 오히려 퇴보임

대화형 UI는 보완 수단으로 활용되어야 함

  • LLM은 기존 인터페이스를 대체하는 것이 아니라, 보완하는 형태로 매우 유용함
  • 필자는 실제로 산책 중 ChatGPT와 음성 대화를 통해 이 글을 초안함 → LLM을 사고의 파트너로 사용함
  • 이는 속도 중심이 아닌 사고 중심의 작업이며, 기존 워크플로우를 대체하지 않고 완전히 새로운 사용 사례
  • 가장 이상적인 예시는 StarCraft II에서 Alexa를 보조 입력 수단으로 활용한 해커톤 사례임
    • 마우스/키보드를 대체하지 않고 음성을 추가 입력 방식으로 활용하여 데이터 전송 대역폭을 확장함
  • Figma, Notion, Excel 같은 툴이 챗 UI로 대체되는 일은 없을 것임
  • 대신 LLM은 툴 간을 연결하는 항상 실행되는 메타 레이어로 자리 잡아야 함
    • 예: 사용자가 마우스나 키보드 작업 중에도 음성으로 간단히 명령 실행 가능해야 함
  • 이를 위해 AI는 단일 앱이 아니라 운영체제 수준에서 작동해야 함
  • 동시에, 음성 입력을 더 빠르게 만들 수 있는 방식(예: 휘파람, 감정 인식 등)도 필요함
  • 대화형 인터페이스라도 결국은 속도와 편의성이 핵심임

결론: 대체가 아닌 보완의 관점에서 바라봐야 함

  • 이 글의 제목은 클릭 유도용 과장임
  • 진짜 주장은 "대화형 인터페이스 반대"가 아니라, 제로섬 사고에 대한 반대
  • AI는 기존 인터페이스를 대체하는 것이 아니라 새로운 가능성을 열어주는 보완 요소
  • 이상적인 미래는, 사람과 컴퓨터가 자연스럽고 무의식적인 상호작용을 하는 것임
    • 마치 아침 식탁에서 말하지 않아도 버터가 자동으로 건네지는 것처럼

저도 인터페이스 적인 면에서는 비슷한고민을 하긴 했는데, 마땅히 새로운 인터페이스가 떠오르지 않더라고요.

인간은 대화 시 불확실성을 싫어하므로 정확한 단어 사용 욕구를 버리기 어렵다. 하지만 ChatAI나 LLM은 본질적으로 불확실성을 내포한다. 확률적 정보가 나에게만 있다면 괜찮지만, 상대방까지 확률에 의존하면 스트레스를 받는다. 때로는 결정론적인 방식이 마음 편할 수 있다.

본문에서 소개된 https://upsidelab.io/blog/design-voice-user-interface-starcraft 글은 2018년 글인데도 흥미롭네요

미래에는 어떤 방식으로 선택되고 사용될지 궁금하네욤

Hacker News 의견
  • 컴퓨터와의 "대화"에 대한 흥미를 가진 사람들에게 설명하려고 했던 여러 가지를 명확히 설명한 내용임

    • 예로 든 것은 자동차를 운전할 때 말로만 조작하는 상황을 상상하게 하는 것임
    • 이는 불편하고, 승객과 대화할 수 없게 만들며, 컴퓨터와의 대화는 원하는 것을 하게 만드는 것임
    • 자연어로 말하는 것보다 더 간단하고 빠른 방법이 있음
  • 기사에서 잘못된 부분

    • "자연어는 데이터 전송 메커니즘이다"라는 주장
    • 데이터 전송 메커니즘에는 속도와 손실이 중요함
    • 자연어는 이 두 가지를 갖추고 있지 않음
    • 대화형 인터페이스는 정보 전달보다는 "무지의 행복"과 "지능적 해석"이 주요 특징임
    • "무지의 행복"은 목표를 제시하면서도 그 방법을 알 필요가 없게 함
    • "지능적 해석"은 명령보다는 의도를 해석할 수 있게 함
    • 팀 관리와 비슷하게, 경험이 많은 팀에게는 간단한 지시로도 좋은 결과를 기대할 수 있음
  • 스타트렉은 대화형 인터페이스의 적절한 사용을 잘 보여줌

    • 음성 인터페이스는 수동 입력을 보완하고 보조 채널로 사용됨
    • 특정 제어 입력을 음성으로 하는 것이 아니라, 위임, 질의, 위치에 구애받지 않는 사용에 적합함
    • 음성 상호작용은 설명의 형태로 사용되었으며, 어떤 것이 어색한지 잘 파악했을 것임
  • 음성 UI는 키보드/마우스와 함께 사용될 때 가장 효과적임

    • 시각적 기억과 청각적 기억이 별도의 버퍼를 가지며, 청각적 버퍼는 여유가 있음
    • 음성으로 날씨를 물어보는 것이 앱을 여는 것보다 빠름
    • 언어는 자동으로 압축되며, 복잡한 개념을 위한 새로운 단어를 만듦
    • 책 제목을 줄여 부르는 것처럼, 음성 UI도 효율적으로 만들 수 있음
  • 음성 입력을 더 빠르게 전송할 방법을 찾는 것이 필요함

    • Travis Rudd의 음성으로 파이썬 코딩하는 영상이 떠오름
    • 음성 인터페이스로 학습 자료를 읽고 퀴즈를 푸는 경험이 인상적이었음
  • 기사의 제목이 오해를 불러일으킬 수 있음

    • 링크 클릭을 유도하는 제목은 좋지 않음
  • 외향적이고 관리적인 사람들이 문제를 해결하기 위해 말을 던지는 것을 선호함

    • 이메일을 작성할 때 다양한 옵션을 고려하는 인상을 주는 것이 중요함
    • 실제로 일을 하는 사람들은 컴퓨터에 말을 던지는 것이 비효율적임을 인식함
  • 20-30년 전까지 인간은 컴퓨터화되지 않았음

    • 웨어러블 컴퓨팅이 미래라는 주장이 있었음
    • 하지만 화면과 리모컨에 중독된 것이 인간적이지 않음
    • 사람들은 리모컨을 사용하는 것을 더 선호함
  • 텍스트-캐드 AI 도구가 사용자의 요구를 잘 이해하지 못함

    • 기계 작업장은 그림을 원하지 300단어의 시를 원하지 않음
  • 컴퓨터와의 관계는 텔레파시처럼 되고 싶음

    • 컴퓨터가 모든 것을 대신하는 것은 더 나쁨
    • 인간에게 컴퓨터처럼 생각하도록 가르치는 것이 더 쉬움
    • 자바스크립트가 20%의 기능으로 80%의 문제를 해결함
    • ChatGPT/Bard/Gemini가 자바스크립트를 대신 작성함
    • 모바일 인터페이스는 타이핑에 적합하지 않음