생성형 AI의 불편한 골짜기에 대한 고찰

(thoughtworks.com)

8P by xguru 9달전 | ★ favorite | 댓글과 토론

생성형 AI는 다른 기술과 달리 놀라움을 줄 수 있는 힘이 있음
- 때로는 좋은 것이지만, 때로는 그렇지 않을 수도 있음
- 이런 기술 경험의 중심에는 기대하는 질문들이 있음
  - "정말 내가 기대한 것인가? 출력물이 충분히 좋은가? 아니면 나를 속이고 있는 것인가?"
이론적으로는 생성형 AI가 발전하면서 이 문제가 덜 중요해져야 하지만, 현실에서는 더 '인간적'이 되면서 불길하고 불편해질 수 있음
- 이는 로봇공학에서 오랫동안 "불편한 골짜기(uncanny valley)"라고 묘사해온 상황에 빠지게 됨
더 큰 데이터 세트나 더 나은 학습으로 보정할 수 있다며 간과하고 싶을 수 있지만, 기술에 대한 우리의 멘탈 모델의 혼란을 이야기 하는 한 이것은 "인정하고 해결해야 할 문제"임

멘탈 모델과 안티패턴

멘탈 모델은 UX와 제품 디자인에서 중요한 개념이지만, AI 커뮤니티에서도 좀 더 적극적으로 수용되어야 함
- 일상 생활에서는 잘 나타나지 않는 경우가 많음: AI 시스템에 대해 가정 하는 것이 일상적인 패턴이기 때문에
AI 코딩 어시스턴트 인기가 높아지면서 "AI 생성 코드에 대한 안일함"과 "생성형 AI로 페어 프로그래밍 대체"를 피해야 할 두 가지 관행으로 지적함
- 둘 다 이 기술이 "실제로 어떻게 작동하는지"와 "한계를 인정하지 않는 잘못된 멘탈 모델"에서 비롯됨
- 이러한 도구가 더 설득력 있고 '인간적'이 될수록 기술이 실제로 어떻게 작동하는지와 제공하는 '해결책'의 한계를 인정하기 어려워짐
생성형 AI를 세상에 배포하는 사람들에게도 위험은 비슷하거나 더 두드러질 수 있음
- 일반적으로 설득력 있고 사용 가능한 것을 만들기 위한 의도이지만, 사용자를 오도하거나 속이거나 불편하게 만든다면 가치가 사라짐
- EU AI Act와 같이 딥페이크 제작자에게 AI 생성 콘텐츠라고 레이블을 붙이도록 하는 법률이 나오는 것은 놀랄 일이 아님
AI와 로봇공학뿐만 아니라 크로스 플랫폼 모바일 앱 구축에서도 유사한 문제가 있음
- 서로 다른 플랫폼은 사용 방식이 다르기 때문에 전체 경험 설계를 변경해야 함
- 마찬가지로 생성형 AI에서도 서로 다른 맥락과 사용 사례에 따라 다른 가정과 멘탈 모델이 있으며, 사용자가 불편한 골짜기에 빠지는 지점이 달라짐
- 이러한 미묘한 차이가 LLM 출력에 대한 경험이나 인식을 변화시킴
방대한 양의 합성 데이터를 필요로 하는 의약품 연구자에게는 마이크로 수준의 정확성이 중요하지 않을 수 있지만, 법률 문서를 파악하려는 변호사에게는 정확성이 매우 중요함
- 불편한 골짜기에 빠지는 것은 한 걸음 물러서서 기대치를 재평가할 신호일 수 있음

"기존의 생성형 AI에 대한 멘탈 모델과 개념은 무시할 수 있는 부차적인 문제가 아니라 근본적인 디자인 문제임"
Ken Mugrage & Srinivasan Raguraman

관점의 전환

생성형 AI의 불편한 골짜기는 문제일 수 있지만 기술의 한계를 상기시켜주는 도구이기도 함
산업계 전반에 걸쳐 이를 해결하기 위한 흥미로운 시도들이 있었음
- 펜실베니아 대학의 Ethan Mollick 교수는 AI를 좋은 소프트웨어가 아닌 "꽤 좋은 사람들"로 이해해야 한다고 주장
  - AI는 인간처럼 특이한 강점과 약점이 있기 때문에 어떤 작업을 맡길 수 있을지 파악하기 어려움
  - 매뉴얼이 없기 때문에 AI가 잘하는 것이 무엇인지 알아내는 유일한 방법은 함께 일하면서 배우는 것
- 즉, 생성형 AI가 할 수 있는 일과 효과적인 곳에 대한 기대는 잠정적이어야 하며 유연해야 함
- 어느 정도 가정과 기대를 성찰함으로써 불편한 골짜기를 극복할 수 있는 한 가지 방법일 수 있음

블랙박스 풀어내기

사고방식의 전환을 요구하는 것만으로는 충분하지 않음
- 첫 걸음이지만, 생성형 AI에 대해 다르게 생각하고 멘탈 모델이 제기하는 과제를 해결하는 데 도움이 되는 실천과 도구도 있음
한 가지 예는 최신 Technology Radar에서 파악한 "LLM에서 구조화된 출력 얻기" 기법
- 프롬프트할 때 특정 형식으로 응답하도록 지시하거나 파인튜닝을 통해 수행할 수 있음
- Instructor와 같은 도구 덕분에 이전보다 더 쉽게 할 수 있게 됨
- 기대치와 LLM 출력 간에 더 큰 정렬을 제공한다는 장점이 있음
  - 예상치 못하거나 완전히 맞지 않는 것이 있을 가능성은 있지만, 이 기법은 그 문제를 어느 정도 해결함
그 외에도 다른 기법들이 있음
- Retrieval-augmented generation은 일반적으로 골치 아픈 '콘텍스트 윈도우' 제어 작업을 더 잘 제어하는 방법
- 이러한 기법의 성공을 평가하고 측정할 수 있는 프레임워크와 도구를 보게 되어 기쁨
  - Ragas는 충실도와 관련성 같은 것에 대한 메트릭을 AI 개발자에게 제공하는 유용한 라이브러리
  - DeepEval도 Radar에 소개됨
측정은 중요하지만 LLM에 대한 관련 지침과 정책을 생각하는 것도 중요함
- 그래서 LLM Guardrails 탐색을 권장함
- 또한 이러한 모델 내부에서 실제로 어떤 일이 일어나고 있는지 더 잘 이해하기 위한 조치를 취해야 함
  - 이러한 블랙박스를 완전히 풀어내는 것은 불가능할 수 있지만, Langfuse와 같은 도구 덕분에 팀과 조직은 작동 방식에 대해 더 명확한 관점을 얻을 수 있음
  - 이는 이 기술과의 관계를 재정립하고 멘탈 모델을 바꾸며 불편한 골짜기에 빠질 가능성을 제거하는 데 큰 도움이 될 수 있음

결함이 아니라 기회

"생성형 AI 도구의 캄브리아 대폭발"이라고 설명한 이러한 도구들은 업계의 핵심에 있는 사람들이 생성형 AI를 재고하고 더 나은 제품을 구축하는 데 도움이 될 수 있음
그러나 더 넓은 세상을 위해서는 이 작업이 보이지 않을 것임
- 따라서 도구 체인을 발전시켜 생성형 AI를 더 잘 제어하고 이해하는 방법을 모색하는 것 외에도, 기존의 멘탈 모델과 생성형 AI 개념 자체가 근본적인 디자인 문제라는 점을 인정하는 것이 중요함
- 앞으로 나아가면서 무시할 수 있는 부차적인 문제가 아님

"생성형 AI의 불편한 골짜기는 고쳐야 할 문제가 아니라 우리가 이 기술에 대해 정말로 원하고 기대하는 바를 재평가할 기회임"