9P by xguru 9달전 | favorite | 댓글 2개
  • 작업용 소프트웨어를 좋아하는 사람은 거의 없음
    • 최고의 제품도 실제 업무에 적용시 유연하거나 정교하지 못하고 학습곡선이 가파르고 접근하기 어려운 경우가 많음
  • 생성형 AI는 워크플로우를 완전히 재창조할 수 있는 기회를 제공하며 처음부터 전혀 새로운 제품을 만드는게 가능함
  • AI 네이티브 워크플로우는 사용자가 기존 작업을 더 효율적으로 수행할 수 있도록 도와줌
  • 이러한 플랫폼은 사용자가 저수준 작업을 AI 보조자에게 위임하고, 고수준 사고에 더 많은 시간을 할애할 수 있게 함
  • 모든 사람이 프로그래머, 프로듀서, 디자이너, 음악가가 될 수 있도록 새로운 기술과 미학적 기술을 잠금 해제하는 데 도움을 줌
    • 창의성과 기술간의 격차가 줄어들게 됨
    • AI 기반 워크플로를 갖춘, "전문가 수준이면서 소비자 친화적인 제품"을 이용하면 모든 사람이 차세대 "프로슈머"가 될 수 있음
    • (프로슈머 : 생산자와 소비자의 역할을 동시에 하는 사람. 앨빈토플러가 "제3물결"에서 사용함)

GenAI 네이티브 프로슈머 제품은 어떤 모습일까?

  • 모든 Gen AI 네이티브 워크플로우 제품은 "최첨단 모델을 접근 가능하고 효과적인 UI로 변환"하는 공통된 특징을 가짐
  • 사용자는 제품 뒤의 인프라에 신경 쓰기보다, 제품이 어떻게 도움을 주는지에 더 관심을 가짐
  • Gen AI를 통해 이룩한 기술적 도약은 놀랍지만 성공적인 제품은 여전히 ​​사용자와 사용자의 문제점에 대한 깊은 이해에서 시작
  • 성공적인 제품은
    • 사용자의 고통 포인트를 깊이 이해하고,
    • AI로 어떤 것을 추상화할 수 있는지,
    • 승인이 필요한 결정 포인트는 어디인지,
    • 가장 큰 영향을 미칠 수 있는 지점(레버리지 포인트)은 어디인지를 중심으로 시작함

GenAI 네이티브 프로슈머 제품의 주요 기능

  • "빈 페이지" 문제를 해결하는 생성 도구
    • 자연어 프롬프트에서 미디어를 생성하여 첫 시작을 도와줌
    • 독점 모델로 수행하거나, 여러 모델을 혼합하여 사용
    • 예) Vizcom의 렌더링 도구, Durable의 웹사이트 빌더
  • 멀티모달(및 멀티미디어) 조합
    • 많은 창의적인 프로젝트에는 두 가지 이상의 콘텐츠 유형이 필요: 이미지와 텍스트, 음악과 비디오, 애니메이션과 음성해설 등
    • 하지만 현재로서는 이러한 자산 유형을 모두 생성할 수 있는 하나의 모델이 없음
    • 이는 사용자가 한 곳에서 다양한 콘텐츠 유형을 생성, 개선, 결합할 수 있는 워크플로 제품에 대한 기회를 창출함
    • 예) HeyGen 의 아바타(자체 아바타와 ElevenLabs의 TTS를 결합하여 사실적으로 말하는 아바타를 생성)
  • 더 많은 반복을 가능하게 하는 지능형 편집기
    • "한번에 얻어지는" 작업 결과물은 거의 없음
    • 고유한 무작위성이 있는 AI의 경우 더욱 그러하여, 첫 번째 실행에서 원하는 것을 정확하게 얻는 경우는 거의 없음
    • 재생성 버튼을 누르거나 프롬프트를 수정하는 것은 중요하지만 시간이 많이 걸리고 실망스러운 프로세스임
    • AI 세대 제품의 첫 번째 물결은 어떤 반복도 허용하지 않았음. 동일한 프롬프트를 다시 실행하면 완전히 다른 결과가 얻어짐
    • 이제 사용자가 처음부터 완전히 시작하지 않고도 기존 출력을 가져와서 다듬을 수 있는 기능이 보이기 시작
    • 예) Midjourney의 변형 및 확대/축소 도구, Pika의 특정 영역 수정 기능
  • 플랫폼 내 Refinement(정제)
    • 지능형 편집의 또 다른 중요한 요소는 Refinement
    • 폴리싱(연마) 작업의 마지막 10%는 종종 "좋은 것"을 창조하는 것과 "훌륭한 것"을 창조하는 것의 차이임
    • 하지만 (1) 정제할 것을 찾고, 그리고 (2) 다른 데로 이동할 필요없이 정제하는 것은 매우 어려울 수 있음
    • AI 워크플로 제품은 사용자가 개선할 수 있는 사항을 식별한 다음 자동으로 개선할 수 있도록 도와줌
    • 애플의 사진에 대한 "자동 리터치"와 비슷하지만 모든 것에 동작한다고 생각하면 됨
    • 예) Krea의 업스케일링 기능, ElevenLabs의 오디오북 워크플로우
  • 리믹스 및 전환이 가능한 Output
    • 모든 콘텐츠는 다른 반복을 위한 잠재적인 '시작점'이 될 수 있음
    • Midjourney/ChatGPT에서 다른 사람이 만든 프롬프트를 복사하여 수정해 본 적이 있다면, 이미 여기에 참여한 것
    • 이러한 유연성을 잘 활용하는 플랫폼은 더 강력하고 끈끈한 제품을 만들 수 있음
    • 초기 제작자에게는 동영상을 블로그 게시물로 전환하거나 텍스트 설명서를 사용 방법 애니메이션 동영상으로 전환하는 등 여러 매체에 걸쳐 작업을 변환할 수 있다는 점에서 큰 가치가 있음
    • 예) 감마 퍼블리싱 플랫폼의 핵심 기능: 프롬프트 또는 업로드된 파일에서 데크, 문서 또는 웹페이지를 생성하고 필요한 경우 형식을 전환 가능
    • 이러한 제품을 사용하면 다른 사람들이 반복할 수 있도록 워크플로를 노출하는 것도 가능
      • 일련의 프롬프트 또는 모델의 조합일 수도 있고, 기술 수준이 낮은 사용자가 출력물이나 미학을 모방할 수 있는 '복사' 버튼일 수도 있음
    • 예) 전문 사진작가를 위한 편집 플랫폼인 Imagen AI :
      • 각 사진작가의 개별 스타일에 따라 모델을 훈련시켜 보다 쉽게 일괄 편집할 수 있도록 지원
      • 또한 사용자는 플랫폼에서 프로필을 공개한 업계 최고의 사진작가의 스타일로 편집도 가능

프로슈머 제품은 어떻게 진화할까?

  • 차세대 프로슈머 도구는 아직 초기 단계
  • 기존 도구의 핵심 자산 생성 기능은 마침내 의미 있는 워크플로를 추가할 수 있을 만큼 강력해졌지만, 대부분의 제품은 여전히 한 가지 유형의 콘텐츠에만 초점을 맞추고 있으며 기능 면에서는 상당히 제한적
  • 기대되는 제품들
    • 다양한 콘텐츠 모달리티를 결합하는 편집 도구
      • 동영상이 가장 좋은 예가 될 수 있음
      • 현재 AI로 단편 영화를 제작하려면 Pika 또는 Runway와 같은 제품에서 여러 클립을 생성한 다음 편집이나 사운드 믹싱을 위해 Capcut 또는 Kapwing과 같은 다른 플랫폼으로 이동해야 함
      • 이 과정의 모든 단계를 하나의 플랫폼에서 수행할 수 있다면 어떨까?
      • 차세대 제품 중 일부는 더 많은 워크플로 기능을 추가하고 자체 모델 교육, 오픈 소스 모델 활용 또는 다른 플레이어와의 파트너십을 통해 다른 유형의 콘텐츠 제작으로 확장할 수 있을 것으로 예상
      • 또한 사용자가 다양한 모델을 '플러그인'할 수 있는 새로운 독립형 AI 네이티브 편집기가 등장할 수도 있음
    • 다른 상호 작용 모드를 활용하는 제품
      • 텍스트 프롬프트가 항상 AI 제품과 소통하는 가장 효과적인 방법은 아님
      • 인간 브레인스토밍 파트너와 음성, 스케치, 인포 사진 공유 등으로 협업할 때와 마찬가지로 생성 도구를 사용하여 작업할 수 있어야 한다고 믿음
      • 특히 사용자가 보다 정교하고 복잡한 생각을 공유할 수 있는(또는 텍스트에서는 불가능한 방식으로 횡설수설할 수 있는) 양식으로서 음성에 대해 기대가 큼
      • 음성 메모를 이메일, 블로그 게시물 또는 트윗으로 변환할 수 있는 Oasis, TalkNotes, AudioPen 등 이미 이러한 제품들이 등장하기 시작
      • 앞으로 더 많은 워크플로우 제품에 오디오와 비디오가 입력 소스로 제공되어 사용자가 업무를 처리하는 방식과 시기를 변화시킬 것으로 예상함
    • 인간과 AI가 생성한 콘텐츠를 동등하게 취급하는 제품
      • AI와 사람 콘텐츠를 나란히 사용할 수 있는 도구가 있었으면 좋겠음. 오늘날 대부분의 제품은 둘 중 하나에 초점을 맞추고 있음.
      • 예를 들어, 실제 사진을 보정하는 데는 뛰어나지만 AI 이미지에는 아무 것도 하지 못함.
      • 또는 새 동영상을 생성할 수는 있지만 iPhone에서 클립을 보정하거나 스타일을 변경할 수 없음
      • 앞으로는 대부분의 전문 콘텐츠 제작자가 AI와 사람이 만든 콘텐츠를 혼합하여 작업할 것으로 예상
      • 이들이 사용하는 제품은 두 가지 유형의 콘텐츠를 모두 수용하고 더 쉽게 결합할 수 있어야 함
      • Runway의 편집 도구가 이를 잘 보여줌
        • 자체 생성 모델에서 클립과 이미지를 가져오고 실제 에셋을 업로드하여 동일한 타임라인에서 사용가능
        • 그런 다음 인페인팅 및 그린 스크린과 같은 회사의 '마법 도구'를 두 가지 유형의 콘텐츠에 모두 사용할 수 있음
  • 여기서 집중적으로 살펴본 콘텐츠 워크플로우 제품은 프로슈머 소프트웨어의 미래를 구성하는 중요한 요소 중 하나에 불과
  • 곧 두 번째 핵심 구성 요소인 생산성 도구에 대해 자세히 살펴보면서 AI 시대에도 마찬가지로 재탄생할 수 있다고 생각되는 생산성 도구에 대해 다시 살펴볼 예정

AI 프로슈머 제품의 차별점으로 워크플로우 조합이 제시되어 있는데 이는 기존의 로우코드 플랫폼의 한계와 본질이 같다고 생각합니다.

실무자에게 주어지는 모든 작업이 로우코드로 제어할 수 있을 정도의 적당한 복잡도를 가지는 것은 아니며, 종종 작업 그 자체의 복잡도가 높아서 로우코드 플랫폼으로 해결하는 것보다 전문적인 프로그래밍 기술로 복잡도를 제어하는 것이 나을 수도 있습니다. 프로그래밍을 전자회로 구성에 비유할 때 로우코드 솔루션은 브레드보드에 대응됩니다. 브레드보드로 일단 돌아가는 전자 회로를 이것저것 조립해서 프로토타입을 만들어 볼 수 있지만 브레드보드로 신뢰성을 요구하는 집적회로를 만들수는 없는 것과 같은 이치입니다

이를 컨텐츠 제작에 적용해보면 AI 생성도구의 한계에 의해 결과물의 엄밀함이나 세심함을 컨트롤하지 못할 수도 있지 않을까 하는 우려가 있습니다. 지금 나오는 AI 그림이 손가락을 제대로 그려내지 못하는 것처럼요. 학습 곡선이 낮아지긴 하겠지만 그렇게 드라마틱하진 않을 것 같습니다