- Snowflake의 AI/ML 전략 헤드인 Ahmad Khan이 발표한 내용
'비정형' 데이터 활용을 통한 수익 창출
- 대부분의 기업 데이터의 80% 이상이 워드 문서, 이미지, 오디오/비디오 파일과 같은 '비정형 데이터'
- 그러나 대부분의 기업은 이러한 정보를 거의 활용하지 않고 있으며, 이는 비즈니스 의사 결정을 내릴 때 사용 가능한 데이터의 20% 미만을 활용하고 있다는 것을 의미
- 이러한 비정형 데이터를 대규모 언어 모델 옆에 배치하여 챗봇을 효과적으로 만들면 현재 활용도가 낮은 방대한 양의 정보를 해석하고 분석하는 데 도움이 될 수 있음
- 이러한 기업이 속한 특정 산업에 맞는 모델을 만들 수 있는 잠재력은 무궁무진
개인정보 보호 및 보안
- 경쟁사를 포함한 다른 회사에서 사용할 수 있는 모델을 훈련하는 데 자사 데이터가 사용될 수 있다는 우려가 기업들 사이에서 커지고 있음
- 그 결과, 기업들은 더 나은 보안을 제공하는 열등한 제품에 만족하는 경우가 많으며, 이는 더 안전한 제품에 대한 시장을 창출
- 예를 들어, Llama 2는 가장 성능이 뛰어난 대규모 언어 모델은 아니지만, 고객들은 여전히 Chat GPT와 같이 통제력이 떨어지는 모델 대신 라마 2를 선택
- 많은 기업이 데이터의 고유성을 장점으로 삼고 있기 때문에 데이터가 공용 인터넷에 공개되는 상황을 피하고 싶어 함
탁월한 사용자 경험을 제공하여 경쟁 우위 확보
- 스타트업이 대기업의 규모에 맞서 경쟁하려면 어떻게 해야 할까?
- 매력적인 사용자 인터페이스를 만드는 등 즐거운 사용자 경험을 만드는 데 집중할 것을 제안
- 이것이 Snowflake가 취한 접근 방식
- 특히 자체 서비스의 대부분이 Amazon Web Services와 같은 클라우드 제공업체와 경쟁할 수 없기 때문에 높은 가격표를 정당화할 수 있는 우수한 사용자 경험을 만드는 데 집중
버티컬에 집중
- 다윗이 골리앗을 이길 수 있는 또 다른 방법으로 범용 애플리케이션보다는 제조, 금융, 의료, 엔터테인먼트와 같은 특정 업종에 집중하는 것이 좋음
- "해당 업종의 기업들이 무엇을 찾고 있는지 파악한 다음, 그러한 니즈를 충족하는 서비스를 제공해야 한다"고 조언
- 예를 들어, 구글이 의료용 대규모 언어 모델을 개발할 가능성이 높지만, 특별히 심층적으로 다루지는 않을 가능성이 높으므로 소규모 기업에게 해당 모델을 구축할 수 있는 기회를 제공해야 함
데이터 어트리뷰션에 대한 요구가 점점 더 커지고 있음
- 저작권이 있는 자료를 추적하고 자료의 원본 제작자에게 보상을 지급하여 해당 제작자가 더 많은 자료를 개발할 수 있는 동기를 부여하는 새로운 모델의 가능성
- 칸은 여러 가지 법적 이유로 오픈 소스 모델을 사용할 수 없는 여러 사례를 들며, 이미지 생성에 오픈 소스 모델을 사용하지 않으려는 한 영화 스튜디오를 예로 들음
- 이 스튜디오는 라이선스와 비용을 지불하고 게티 이미지의 데이터로 학습된 모델을 사용
- 앞으로 어트리뷰션 데이터 세트를 사용하는 유사한 모델에 대한 시장이 점점 더 커질 것