프로슈머의 미래: "AI Native" 워크플로우의 부상
(a16z.com)- 작업용 소프트웨어를 좋아하는 사람은 거의 없음
- 최고의 제품도 실제 업무에 적용시 유연하거나 정교하지 못하고 학습곡선이 가파르고 접근하기 어려운 경우가 많음
- 생성형 AI는 워크플로우를 완전히 재창조할 수 있는 기회를 제공하며 처음부터 전혀 새로운 제품을 만드는게 가능함
- AI 네이티브 워크플로우는 사용자가 기존 작업을 더 효율적으로 수행할 수 있도록 도와줌
- 이러한 플랫폼은 사용자가 저수준 작업을 AI 보조자에게 위임하고, 고수준 사고에 더 많은 시간을 할애할 수 있게 함
- 모든 사람이 프로그래머, 프로듀서, 디자이너, 음악가가 될 수 있도록 새로운 기술과 미학적 기술을 잠금 해제하는 데 도움을 줌
- 창의성과 기술간의 격차가 줄어들게 됨
- AI 기반 워크플로를 갖춘, "전문가 수준이면서 소비자 친화적인 제품"을 이용하면 모든 사람이 차세대 "프로슈머"가 될 수 있음
- (프로슈머 : 생산자와 소비자의 역할을 동시에 하는 사람. 앨빈토플러가 "제3물결"에서 사용함)
GenAI 네이티브 프로슈머 제품은 어떤 모습일까?
- 모든 Gen AI 네이티브 워크플로우 제품은 "최첨단 모델을 접근 가능하고 효과적인 UI로 변환"하는 공통된 특징을 가짐
- 사용자는 제품 뒤의 인프라에 신경 쓰기보다, 제품이 어떻게 도움을 주는지에 더 관심을 가짐
- Gen AI를 통해 이룩한 기술적 도약은 놀랍지만 성공적인 제품은 여전히 사용자와 사용자의 문제점에 대한 깊은 이해에서 시작
- 성공적인 제품은
- 사용자의 고통 포인트를 깊이 이해하고,
- AI로 어떤 것을 추상화할 수 있는지,
- 승인이 필요한 결정 포인트는 어디인지,
- 가장 큰 영향을 미칠 수 있는 지점(레버리지 포인트)은 어디인지를 중심으로 시작함
GenAI 네이티브 프로슈머 제품의 주요 기능
- "빈 페이지" 문제를 해결하는 생성 도구
- 자연어 프롬프트에서 미디어를 생성하여 첫 시작을 도와줌
- 독점 모델로 수행하거나, 여러 모델을 혼합하여 사용
- 예) Vizcom의 렌더링 도구, Durable의 웹사이트 빌더
- 멀티모달(및 멀티미디어) 조합
- 많은 창의적인 프로젝트에는 두 가지 이상의 콘텐츠 유형이 필요: 이미지와 텍스트, 음악과 비디오, 애니메이션과 음성해설 등
- 하지만 현재로서는 이러한 자산 유형을 모두 생성할 수 있는 하나의 모델이 없음
- 이는 사용자가 한 곳에서 다양한 콘텐츠 유형을 생성, 개선, 결합할 수 있는 워크플로 제품에 대한 기회를 창출함
- 예) HeyGen 의 아바타(자체 아바타와 ElevenLabs의 TTS를 결합하여 사실적으로 말하는 아바타를 생성)
- 더 많은 반복을 가능하게 하는 지능형 편집기
- "한번에 얻어지는" 작업 결과물은 거의 없음
- 고유한 무작위성이 있는 AI의 경우 더욱 그러하여, 첫 번째 실행에서 원하는 것을 정확하게 얻는 경우는 거의 없음
- 재생성 버튼을 누르거나 프롬프트를 수정하는 것은 중요하지만 시간이 많이 걸리고 실망스러운 프로세스임
- AI 세대 제품의 첫 번째 물결은 어떤 반복도 허용하지 않았음. 동일한 프롬프트를 다시 실행하면 완전히 다른 결과가 얻어짐
- 이제 사용자가 처음부터 완전히 시작하지 않고도 기존 출력을 가져와서 다듬을 수 있는 기능이 보이기 시작
- 예) Midjourney의 변형 및 확대/축소 도구, Pika의 특정 영역 수정 기능
- 플랫폼 내 Refinement(정제)
- 지능형 편집의 또 다른 중요한 요소는 Refinement
- 폴리싱(연마) 작업의 마지막 10%는 종종 "좋은 것"을 창조하는 것과 "훌륭한 것"을 창조하는 것의 차이임
- 하지만 (1) 정제할 것을 찾고, 그리고 (2) 다른 데로 이동할 필요없이 정제하는 것은 매우 어려울 수 있음
- AI 워크플로 제품은 사용자가 개선할 수 있는 사항을 식별한 다음 자동으로 개선할 수 있도록 도와줌
- 애플의 사진에 대한 "자동 리터치"와 비슷하지만 모든 것에 동작한다고 생각하면 됨
- 예) Krea의 업스케일링 기능, ElevenLabs의 오디오북 워크플로우
- 리믹스 및 전환이 가능한 Output
- 모든 콘텐츠는 다른 반복을 위한 잠재적인 '시작점'이 될 수 있음
- Midjourney/ChatGPT에서 다른 사람이 만든 프롬프트를 복사하여 수정해 본 적이 있다면, 이미 여기에 참여한 것
- 이러한 유연성을 잘 활용하는 플랫폼은 더 강력하고 끈끈한 제품을 만들 수 있음
- 초기 제작자에게는 동영상을 블로그 게시물로 전환하거나 텍스트 설명서를 사용 방법 애니메이션 동영상으로 전환하는 등 여러 매체에 걸쳐 작업을 변환할 수 있다는 점에서 큰 가치가 있음
- 예) 감마 퍼블리싱 플랫폼의 핵심 기능: 프롬프트 또는 업로드된 파일에서 데크, 문서 또는 웹페이지를 생성하고 필요한 경우 형식을 전환 가능
- 이러한 제품을 사용하면 다른 사람들이 반복할 수 있도록 워크플로를 노출하는 것도 가능
- 일련의 프롬프트 또는 모델의 조합일 수도 있고, 기술 수준이 낮은 사용자가 출력물이나 미학을 모방할 수 있는 '복사' 버튼일 수도 있음
- 예) 전문 사진작가를 위한 편집 플랫폼인 Imagen AI :
- 각 사진작가의 개별 스타일에 따라 모델을 훈련시켜 보다 쉽게 일괄 편집할 수 있도록 지원
- 또한 사용자는 플랫폼에서 프로필을 공개한 업계 최고의 사진작가의 스타일로 편집도 가능
프로슈머 제품은 어떻게 진화할까?
- 차세대 프로슈머 도구는 아직 초기 단계
- 기존 도구의 핵심 자산 생성 기능은 마침내 의미 있는 워크플로를 추가할 수 있을 만큼 강력해졌지만, 대부분의 제품은 여전히 한 가지 유형의 콘텐츠에만 초점을 맞추고 있으며 기능 면에서는 상당히 제한적
- 기대되는 제품들
- 다양한 콘텐츠 모달리티를 결합하는 편집 도구
- 동영상이 가장 좋은 예가 될 수 있음
- 현재 AI로 단편 영화를 제작하려면 Pika 또는 Runway와 같은 제품에서 여러 클립을 생성한 다음 편집이나 사운드 믹싱을 위해 Capcut 또는 Kapwing과 같은 다른 플랫폼으로 이동해야 함
- 이 과정의 모든 단계를 하나의 플랫폼에서 수행할 수 있다면 어떨까?
- 차세대 제품 중 일부는 더 많은 워크플로 기능을 추가하고 자체 모델 교육, 오픈 소스 모델 활용 또는 다른 플레이어와의 파트너십을 통해 다른 유형의 콘텐츠 제작으로 확장할 수 있을 것으로 예상
- 또한 사용자가 다양한 모델을 '플러그인'할 수 있는 새로운 독립형 AI 네이티브 편집기가 등장할 수도 있음
- 다른 상호 작용 모드를 활용하는 제품
- 텍스트 프롬프트가 항상 AI 제품과 소통하는 가장 효과적인 방법은 아님
- 인간 브레인스토밍 파트너와 음성, 스케치, 인포 사진 공유 등으로 협업할 때와 마찬가지로 생성 도구를 사용하여 작업할 수 있어야 한다고 믿음
- 특히 사용자가 보다 정교하고 복잡한 생각을 공유할 수 있는(또는 텍스트에서는 불가능한 방식으로 횡설수설할 수 있는) 양식으로서 음성에 대해 기대가 큼
- 음성 메모를 이메일, 블로그 게시물 또는 트윗으로 변환할 수 있는 Oasis, TalkNotes, AudioPen 등 이미 이러한 제품들이 등장하기 시작
- 앞으로 더 많은 워크플로우 제품에 오디오와 비디오가 입력 소스로 제공되어 사용자가 업무를 처리하는 방식과 시기를 변화시킬 것으로 예상함
- 인간과 AI가 생성한 콘텐츠를 동등하게 취급하는 제품
- AI와 사람 콘텐츠를 나란히 사용할 수 있는 도구가 있었으면 좋겠음. 오늘날 대부분의 제품은 둘 중 하나에 초점을 맞추고 있음.
- 예를 들어, 실제 사진을 보정하는 데는 뛰어나지만 AI 이미지에는 아무 것도 하지 못함.
- 또는 새 동영상을 생성할 수는 있지만 iPhone에서 클립을 보정하거나 스타일을 변경할 수 없음
- 앞으로는 대부분의 전문 콘텐츠 제작자가 AI와 사람이 만든 콘텐츠를 혼합하여 작업할 것으로 예상
- 이들이 사용하는 제품은 두 가지 유형의 콘텐츠를 모두 수용하고 더 쉽게 결합할 수 있어야 함
- Runway의 편집 도구가 이를 잘 보여줌
- 자체 생성 모델에서 클립과 이미지를 가져오고 실제 에셋을 업로드하여 동일한 타임라인에서 사용가능
- 그런 다음 인페인팅 및 그린 스크린과 같은 회사의 '마법 도구'를 두 가지 유형의 콘텐츠에 모두 사용할 수 있음
- 다양한 콘텐츠 모달리티를 결합하는 편집 도구
- 여기서 집중적으로 살펴본 콘텐츠 워크플로우 제품은 프로슈머 소프트웨어의 미래를 구성하는 중요한 요소 중 하나에 불과
- 곧 두 번째 핵심 구성 요소인 생산성 도구에 대해 자세히 살펴보면서 AI 시대에도 마찬가지로 재탄생할 수 있다고 생각되는 생산성 도구에 대해 다시 살펴볼 예정
AI 프로슈머 제품의 차별점으로 워크플로우 조합이 제시되어 있는데 이는 기존의 로우코드 플랫폼의 한계와 본질이 같다고 생각합니다.
실무자에게 주어지는 모든 작업이 로우코드로 제어할 수 있을 정도의 적당한 복잡도를 가지는 것은 아니며, 종종 작업 그 자체의 복잡도가 높아서 로우코드 플랫폼으로 해결하는 것보다 전문적인 프로그래밍 기술로 복잡도를 제어하는 것이 나을 수도 있습니다. 프로그래밍을 전자회로 구성에 비유할 때 로우코드 솔루션은 브레드보드에 대응됩니다. 브레드보드로 일단 돌아가는 전자 회로를 이것저것 조립해서 프로토타입을 만들어 볼 수 있지만 브레드보드로 신뢰성을 요구하는 집적회로를 만들수는 없는 것과 같은 이치입니다