2021년 데이터/ML/AI 업계 지도와 최신 트렌드

이미지 1장으로 정리한 2021 Data & AI Landscape 와 상세한 설명
1. 거시적 관점 : 생태계의 복잡성 이해하기
2. 자금조달 , IPO 및 M&A
3. The 2021 Landscape
4. 데이터 인프라스트럭쳐의 주요 트렌드
ㅤ→ Data Mesh
ㅤ→ DataOps에게 바쁜 한해
ㅤ→ 이제는 실시간
ㅤ→ Metrics Store
ㅤ→ Reverse ETL
ㅤ→ Data Sharing
5. 분석 & 엔터프라이즈 AI의 주요 트렌드
ㅤ→ Feature Store
ㅤ→ ModelOps의 부상
ㅤ→ AI 콘텐츠 생성
ㅤ→ 중국 AI 스택의 발전

## "거시적 관점 : 생태계의 복잡성 이해하기"
- 왜 데이터&AI 회사들이 계속 생겨나고, 언제까지 이렇게 갈까 ?
- 근본적인 추세는 "모든 회사는 단순한 소프트웨어 회사가 아니라 데이터 회사가 되고 있다는 것"
- 많은 조직에서 "데이터"는 RDBMS에 저장된 트랜잭션 데이터와 지난 몇달간 생긴 일에 대한 분석을 위한 몇개의 대시보드를 의미했음
- 하지만 이제 기업들은 "데이터와 인공지능"이 "분석 및 운영"을 위해서 "내부 프로세스와 외부 어플리케이션"에 내장되는 세상을 향해 가고 있음
- 이런 근본적인 진화는 기반 기술의 놀라운 발전 - 특히 "데이터 인프라와 머신러닝/AI"의 공생관계(Symbiotic Relationship)에 의해 만들어 짐
ㅤ→ 두 분야가 점점 더 긴밀하게 협력
ㅤ→ 첫번째는 2010년대 초의 "빅 데이터 시대" 였음
ㅤ→ 이 빅데이터를 10년 이상된 오래된 AI 알고리듬(딥러닝)에 적용하면 놀라운 결과를 얻을 수 있다는 걸 알게되면서 AI에 대한 흥분을 이끌어 냄
ㅤ→ 결과적으로 AI가 데이터 인프라 개발의 중요 드라이버가 되었음
ㅤ→ AI 기반으로 모든 어플리케이션을 구축하게 된다면, 더 나은 데이터 인프라가 필요할 것
- 2021년까지 오는 동안 Big Data, AI 용어들이 모두 기복을 겪었고, 요즘엔 "Automation"에 대한 얘기를 많이 듣지만 기본적으로 이건 다 동일한 메가 트렌드 임

- 요즘 Data/AI 분야에서의 가속화는 지난 몇년간 클라우드 데이터 웨어하우스의 성장에서 추적할 수 있음
- 데이터 웨어하우스는 아주 기본적이지만 데이터 인프라스트럭처의 필수요소인 "어디에 저장할 것인가"를 해결
ㅤ→ Big Data 혁명이 시작된지 15년이 넘게 지나서 그 문제는 해결되었다고 생각하겠지만 그렇지 않음
ㅤ→ 돌이켜 보면 Hadoop 의 초기 성공은 어느정도 공간에 대해서는 가짜 였음
ㅤ→ 방대한 양의 데이터에서 실제 가치를 추출이 가능하다는 아이디어 전달면에서는 중요했지만, 기술적 복잡도 때문에 몇몇 회사에서만 사용하는데 그치면서 시장에 침투하지 못함
- 요즘의 클라우드 데이터 웨어하우스(Snowflake, Redshift, BigQuery)와 레이크하우스(Databricks) 는
ㅤ→ 비용도 적게 들고
ㅤ→ 엄청 많은 기술적인 인력을 필요로 하지도 않고도
ㅤ→ 유용한 방식으로 방대한 데이터를 저장할 수 있는 기능을 제공
- 다시 말해, 이제서야 정말로 Big Data를 저장하고 처리할수 있게 되었음. 이게 정말 중요한 일이고, 다른 Data/AI 분야에 대한 Major Unlock(주요 잠금 해제)이 된 것으로 입증됨
ㅤ→ 첫째, 데이터 웨어하우스는 전체 데이터 및 AI 생태계에 대한 시장 규모를 증가시킴. 사용 편이성과 사용량 기반 가격책정으로 데이터 웨어하우스는 모든 회사가 데이터회사가 되는 Gateway가 됨
ㅤ→ 둘째, 데이터 웨어하우스가 그 주변 도구를 비롯한 에코시스템을 사용할 수 있게 해줌.
ㅤㅤ⇨ ETL, ELT, 리버스 ETL, 웨어하우스 중심 데이터 퀄리티 도구, 지표 저장소, augmented analytics 등
ㅤㅤ⇨ "Modern Data Stack" ( https://news.hada.io/topic?id=3055 참고 )
ㅤㅤ⇨ 최신 데이터 스택의 출현으로 많은 신생기업들이 생겨났고 투자가 집중됨 (DBT, Fivetran..)
ㅤ→ 셋째, 데이터 웨어하우스가 가장 기초적인 스토리지 계층을 해결해 주기 때문에, 기업이 데이터 요구 계층에서 더 높은 가치를 지닌 프로젝트에 집중할수 있게 됨
ㅤㅤ⇨ 이제 데이터를 저장했으므로, 실시간 처리, 증강 분석, 머신 러닝 같은 작업에 쉽게 집중가능
ㅤㅤ⇨ 이것은 차례로 모든 종류의 데이터/AI도구 및 플랫폼에 대한 시장수요를 증가 시킴
ㅤㅤ⇨ 더 많은 고객의 요구가, 데이터/ML 회사들에서 더 많은 혁신을 만들어 내는 Flywheel을 만들어 냄

"데이터 웨어하우스는 전체 데이터 산업의 중요 신호이고, DW가 성장함에 따라 나머지도 같이 성장하게 됨"

- 데이터/AI 산업에 좋은 뉴스는 데이터 웨어하우스와 레이크하우스가 엄청 빠르고 크게 성장하고 있다는 것
ㅤ→ Snowflake는 Q2 발표 기준 YoY로 103% 성장했고, Net Revenue Retention이 169%라는 놀라운 숫자를 보여줌 (기존 고객이 점점 더 많이 사용한다는 것)
ㅤ→ 2028년 매출 12조원($10B)를 예상
- 혹자들은 미래에는 모든 회사가 적어도 하나의 클라우드 데이터 웨어하우스를 가지게 될 것이라고 얘기 하기도 함

## "The Titanic Shock: Snowflake vs Databricks"
- Snowflake 는 최근 데이터 분야의 대표 주자. 그들의 2020/9월 IPO는 소프트웨어 IPO사상 가장 컸음. 글쓰는 현재 $95B 회사
- 새로운 산업 내 경쟁자로 Databricks가 떠오름. 8/31에 $38B 가치로 $1.6B 펀딩 완료
- 최근까지 두 회사는 시장에서 상당히 다른 부문에 속해 있었음(실제로 한동안 긴밀한 파트너였음)
- Snowflake는 클라우드 데이터 웨어하우스로서, 대량의 구조화된 데이터(행과 열에 잘 저장가능한)를 저장하고 처리하는 DB
ㅤ→ 기업이 BI도구를 연결해서 과거 및 현재 성과("지난 분기에 가장 빠르게 성장한 지역은?")에 대한 질문에 답하는데 사용
ㅤ→ 다른 DB와 마찬가지로 SQL을 활용해서 수백만의 잠재 사용자를 보유
- Databricks는 데이터 세계의 다른 구석에서 왔음
ㅤ→ 2013년에 오픈소스인 Spark를 상용화 하는 것으로 시작
ㅤ→ 일반적으로 비구조화된 데이터(텍스트,오디오,비디오)를 처리하도록 만들어진 것
ㅤ→ Spark 사용자들은 데이터 구조나 조직을 걱정하지 않고 어떤 데이터든 담을수 있는 "Data Lake"를 구축하는데 사용했음
ㅤ→ 데이터 레이크의 주요 용도는 ML/AI 애플리케이션을 훈련시켜서 기업이 미래에 대한 질문에 답할수 있도록 하는 것("다음 분기에 구매할 가능성이 가장 높은 고객은?" 즉, 예측 분석)
ㅤ→ Databricks는 데이터 레이크 지원을 위해 Delta를 만들고, ML/AI를 지원하기 위해 ML Flow를 만듦
- 그러나 최근에는 두 회사가 서로를 향해 수렴
ㅤ→ Databricks는 데이터 레이크에 DW기능을 넣어서 분석가들이 표준 SQL 쿼리를 실행하고, Tableau나 MS PowerBI 같은 도구를 연동. "Lakehouse" 라고 부르는 것을 만들어 냄
ㅤ→ Databricks는 데이터 레이크를 더 데이터 웨어하우스 스럽게 만들고, Snowflake는 데이터 웨어하우스를 데이터 레이크로 보이도록 비구조화 데이터(오디오,비디오,PDF,이미지등) 저장 기능을 프리뷰로 공개
ㅤ→ Databricks는 AI기능에 BI를 추가하고 있고, Snowflake는 BI 호환성 기능에 AI를 추가하고 있음
- 최종적으로는 Snowflake 와 Databricks 둘다 "The center of all things data" 가 되고 싶어함
ㅤ→ 모든 데이터를 저장하는 하나의 저장소. 구조적/비구조적 데이터를 다 저장하고, 과거부터 미래 예측까지 모든 분석을 수행
- 물론 많은 경쟁자 들이 있음(AWS,GCP 같은 클라우드 하이퍼스케일러들)
- Snowflake 와 Databricks 모두 클라우드 벤더와는 친구이자 적(Friend and Foe)
ㅤ→ AWS기반으로 성장한 Snowflake 는 다름 클라우드로 확장중
ㅤ→ Databricks는 MS와 강력한 파트너십이 있지만, 멀티 클라우드 기능을 통해 벤더 락인되지 않도록 돕고 있음
ㅤ→ 지난 몇년간, 비판자들은 Snowflake 와 Databricks 의 비즈니스 모델이 클라우드업체의 가격 결정에 따라 마진이 좌우된다고 비판해온 바 있음
- 다음 5년간 클라우드 제공업체와 데이터 거물(Behemoth) 사이의 춤을 지켜보는 것이 결정적인 이야기가 될 것

## "Bundling, Unbundling, Consolidation?"
- Snowflake 와 Databricks 둘의 상승을 감안할 때, 이게 업계에서 기다려온 통합 물결의 시작일까 ?
- 데이터 / AI 분야에서 "기능 통합(functional consolidation)은 일어나고 있음"
- 하지만 다들 마찬가지임. 누구도 단일제품 회사가 되기 보다는 더 많은 것을 번들링하고 더 많은 기능을 가지고 싶어 함
ㅤ→ 2021/6에 상장한 Confluent 역시 실시간 데이터 분야를 넘어서 "움직이는 데이터와 정적인 데이터의 처리를 통합" 하는 것을 목표로 하고 있음
ㅤ→ Dataiku는 데이터 준비과정부터 DataOps,MLOps, 시각화 AI explainability 등을 하나의 플랫폼에 번들링하는데 중점을 둠
- 최신 데이터 스택의 출현은 기능 통합의 또 다른 예
ㅤ→ 그 핵심은 데이터 추출에서 데이터 웨어하우스, BI까지 연결되는 기업(대부분 스타트업들)들의 사실상 "동맹"임
- 이런 기술 사용자 들에게 번들링 및 컨버전스는 많이 환영받을 것
ㅤ→ 점점 더 성숙해 지면서 데이터 산업은 "트랜잭션 vs. 분석", "배치처리 vs. 실시간", "BI vs AI" 같은 Technology Divide를 넘어서 진화해 가야함
- 기업들은 계속 여러 벤더/플랫폼/도구들과 협력해서 필요에 가장 적합한 조합을 만들어 갈 것

- 핵심 이유는 "혁신의 속도가 너무 폭발적"
ㅤ→ 계속 새로운 스타트업이 나오고, 빅테크 기업들이 내부에서 데이터/AI도구를 만들어서 오픈소스화하고, 모든 기존 기술/제품에 대해서 매주 새로운 것이 등장

- 빅 데이터 웨어하우스 및 데이터 레이크 벤더들이 모든 데이터를 중앙 집중화 하도록 밀어 붙이고 있는데, "Data Mesh"와 같은 새로운 프레임워크들도 출현
ㅤ→ 다양한 팀이 각자 책임을 지는 분산 접근 방식

- 기능 통합 외에 M&A가 일어날지는 알기 어려움
ㅤ→ 사람들이 좋아하는 소문중에 "MS가 Databricks를 인수하고 싶어한다"는 것도 있음

## "Financings, IPOs, M&A: A Crazy Market"
- 스타트업 시장 좀 본사람이라면 알겠지만, 시장이 미쳤음
- 작년에 이어 올해도 데이터와 ML/AI가 가장 핫한 투자 카테고리
- 상장 예정 회사들
ㅤ→ UiPath : RPA 및 AI 자동화 회사
ㅤ→ Confluent : Kafka
ㅤ→ C3.ai : AI 플랫폼
ㅤ→ Couchbase : no-SQL DB
ㅤ→ SentinelOne : 자동화 AI Endpoint 보안 플랫폼
ㅤ→ TuSimple : 셀프드라이빙 트럭
ㅤ→ Zymergen : 바이오 매뉴팩처링
ㅤ→ Recursion : AI드리븐 신약 제조 회사
ㅤ→ Darktrace : AI기반 사이버 시큐리티
- SPAC 증가로 AI 시장 최전선에 있는 기술회사들이 수혜를 받을 것(자율운전, 바이오테크등)

## "The 2021 MAD Landscape & What’s New this Year"
- 올해 지도에선 "Analytics and Machine Intelligence"를 “Analytics” 와 “Machine Learning & Artificial Intelligence” 로 분리
- 새로운 카테고리 추가
ㅤ→ Infrastructure
ㅤㅤ⇨ Reverse ETL : 데이터 웨어하우스에서 SaaS 어플리케이션으로 다시 데이터를 전송하는 제품들
ㅤㅤ⇨ Data Observability : 데이터 계보(Lineage)를 기반으로 데이터 품질 문제를 해결하는데 중점을 둔 DataOps의 구성요소
ㅤㅤ⇨ Privacy & Security : 데이터 프라이버시가 점점 중요해지고, 많은 스타트업들이 이 카테고리에 등장
ㅤ→ Analytics
ㅤㅤ⇨ Data Catalogs & Discovery : 지난 12개월간 가장 바빴던 카테고리. 사용자들이 원하는 데이터셋을 찾고 관리할수 있게 함
ㅤㅤ⇨ Augmented Analytics : BI 도구들이 NLG/NLP의 발전을 활용하여 자동으로 인사이트를 생성하고, 비기술 청취자들에게 데이터를 접근 가능하게 함
ㅤㅤ⇨ Metrics Stores : 주요 비즈니스 메트릭을 위한 중앙 저장소. 데이터 스택에 새로 진입
ㅤㅤ⇨ Query Engines
ㅤ→ Machine Learning and AI
ㅤㅤ⇨ MLOps 카테고리를 세분화 : Model Building, Feature Stores, Deployment and Production
ㅤ→ Open Source
ㅤㅤ⇨ Format, Orchestration, Data Quality & Observability 추가
- 예전에는 시리즈 C이상의 스타트업 또는 상장기업등이 많았는데, 올해는 시리즈A/시드 단계의 회사들이 많이 추가 됨

## "데이터 인프라스트럭처의 주요 트렌드"
- 2020
ㅤ→ Modern Data Stack(최신 데이터 스택)이 메인스트림으로
ㅤ→ ETL vs ELT
ㅤ→ 데이터 엔지니어링의 자동화?
ㅤ→ 데이터 분석가의 부상
ㅤ→ 데이터 레이크와 데이터 웨어하우스가 합쳐질까?
ㅤ→ 아직 해결하지 못한 복잡성

- 2021
ㅤ→ Data Mesh
ㅤ→ DataOps에게 바쁜 한해
ㅤ→ 이제는 실시간
ㅤ→ Metrics Stores
ㅤ→ Reverse ETL
ㅤ→ Data Sharing

[Data Mesh]
- Zhamak Dehghani 가 2019년에 주장한 "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" 에서 유래
- 2020~21 사이에 많은 모멘텀
- 데이터 메쉬 컨셉은 대부분 조직적인 아이디어
- 지금까지 데이터 인프라와 팀을 구축하기 위한 표준 방법은 중앙 집중화. 한 데이터 팀이 괸리하는 한개의 큰 플랫폼이 비즈니스 요구를 충족시킴
- 장점이 많지만 병목현상등 문제도 발생
- 탈 중앙화를 통해서 각자 도메인을 담당하는 독립적인 데이터 팀을 만들고 조직내의 다른 사람들에게 "제품으로" 데이터를 제공 하는 것
ㅤ→ 소프트웨어 공학에서 얘기하는 마이크로서비스 개념과 비슷
- 여러가지 의미를 가지는데
ㅤ→ 이게 가능하게 되면, 분산 데이터 스택에서 미션 크리티컬한 도구를 만드는 신생기업들에게 큰 기회가 될 것
- 여러 저장소를 통합 쿼리 및 분석하는 SQL Query Engine인 Starburst는 자신들을 "데이터 메쉬를 위한 분석 엔진"으로 리브랜딩 했음
- 복잡한 파이프라인을 관리하는 오케스트레이션 엔진(Airflow, Prefect, Dagster)같은 것들이 더욱 미션 크리티컬해 질 것
- 저장소와 파이프라인 전산에서 데이터를 추적하는것은 컴플라이언스 & 거버넌스 측면에서 더 필수적이 되어 데이터 계보(Data Lineage)의 필요성이 강화 (OpenLineage, DataKin)

[DataOps에게 바쁜 한해]
- DataOps 개념이 몇년간 떠돌아 다니다가 최근에 실제로 활성화
- 여러 정의가 존재
ㅤ→ 데이터세계의 DevOps
ㅤ→ 데이터 파이프라인을 구축 및 유지 관리하고, 데이터 카탈로그를 통해 올바른 데이터셋을 찾고, 데이터 생산자와 소비자가 필요한 작업을 수행하는데 필요한 모든 것
- 어쨋거나 DevOps와 마찬가지로 "방법론, 프로세스, 사람, 플랫폼 및 도구의 조합"
- 넓은 맥락에서 "데이터 엔지니어링 도구와 프랙티스"들이 소프트웨어 엔지니어링의 자동화 수준보다 많이 뒤떨어져 있다는 것
- 데이터/AI가 중요해 질수록 더 나은 도구와 프랙티스가 필요함
- 모두 "데이터 세계의 DataDog"이 되고 싶어함 (실제로 DataDog가 DataOps에 쓰이기도 하지만, 기본적으로 소프트웨어 엔지니어링 기반임)
- Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance 등 다양한 서브 파트가 있음

[이제는 실시간]
- "실시간" 또는 "스트리밍" 데이터는 생성된 직후에 바로 처리 및 소비되는 데이터
- 현재까지 데이터 인프라의 지배적 패러다임인 "배치"에 반대 되는 것
- 실시간 데이터 처리는 10-15년전 빅 데이터 시대 초기부터 뜨거운 주제였음
ㅤ→ 특히 처리속도가 하둡MR에 비해 Spark의 성공을 촉진한 핵심
- 하지만 몇년간 "곧 폭발할"시장이었지만 폭발하지는 않았음
- Confluent IPO의 대성공이 반대론자들이 틀렸다는 것을 증명
- 그리고 컨플루언트를 넘어 전체 실시간 데이터 생태계가 가속화 되었음
- 특히 "실시간 분석"이 많은 활동을 보임
ㅤ→ 러시아 Yandex에서 만든 ClickHouse가 미국에서 회사를 설립하고 $50M 투자를 받음
ㅤ→ Druid 오픈소스 기반의 실시간 분석 플랫폼 Imply가 $70M 투자 받음

[Metrics Stores]
- 지난 몇 년간 기업의 데이터 및 데이터 사용빈도와 복잡성이 증가
- 복잡성이 증가하면서 데이터 불일치로 인한 골칫거리도 함께 증가
- 지표(Metric)들은 디멘젼/정의 및 다른 원인으로 약간만 변경되어도 잘 못 정렬될 수 있음
- 데이터는 팀이 사용할때 정확하고 신뢰할수 있는 경우에만 유용
- 지표를 중앙화 하려는 시도가 AirBnB의 Minerva 같은 자체 솔루션 개발로 이어짐 "Define Once, Use Anywhere"
- 주요 비즈니스 지표 및 모든 디멘젼의 정의를 표준화하고, 이해 관계자들에게 해당 정의 기반으로 정확하고 분석 가능한 데이터 세트를 제공
- 중앙 집중화한 지표 정의를 기반으로 데이터에 대한 신뢰를 구축하고, 누구에게나 지표에 대한 교차 기능 액세스를 제공
- 지표 저장소는
ㅤ→ 데이터 웨어하우스 상단에 위치해서 BI 플랫폼, 분석 및 데이터사이언스 도구, 운영 어플리케이션을 포함한 모든 다운스트림 어플리케이션에 데이터를 알림
ㅤ→ 데이터가 일관성을 유지하도록 해서, 비즈니스 로직이 변경되면 자동으로 채워짐
- Transform, Trace, Supergrain 같은 스타트업이 있음

[Reverse ETL]
- 최신 데이터 스택에서 Reverse ETL이 하나의 카테고리가 됨
- 데이터 웨어하우스에서 CRM, 마케팅자동화 시스템, 고객지원 플랫폼과 같은 비즈니스 어플리케이션으로 데이터를 다시 이동
- 실제 운영 도구들이 다른 비즈니스 어플리케이션에서 강화된 최신 데이터를 활용할 수 있도록 하는 것
- 많은 Reverse ETL 도구들이 펀딩 받음 : Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic

[Data Sharing]
- 기업내 뿐만 아니라 조직 전반에서 데이터 공유 및 데이터 협업의 부상
- 공급망 가시성 및 머신러닝 모델 학습, 시장 출시 계획 공유등을 위해서 공급 업체, 파트너 및 고객등의 에코시스템과 데이터를 공유하고 싶어함
- 조직 간 데이터 공유는 "데이터 클라우드" 벤더의 핵심 테마
- 2021/5월에 구글은 Analytics Hub를 런칭. 조직 내/외부에서 데이터/인사이트/대쉬보드/머신러닝 모델을 공유. 또한 금융서비스를 위한 DataShare도 공개
- 구글과 같은 날에 Databricks는 Delta Sharing을 공개. 조직간 데이터 공유를 위한 오픈소스 프로토콜
- 2021/6월에 Snowflake는 데이터 마켓플레이스를 통해서 Secure Data Sharing 기능을 공개
- Habr, Crossbeam 같은 스타트업들이 있음

## "ML/AI의 주요 트렌드"
2020
- Boom time for data science and machine learning platforms (DSML)
- ML getting deployed and embedded
- The Year of NLP

2021
- Feature Stores
- The rise of ModelOps
- AI content generation
- The continued emergence of a separate Chinese AI stack

- 인공지능에 대한 연구는 빠른 속도로 계속 발전 중
ㅤ→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]
- Uber가 2017년에 아이디어를 소개한 뒤로 머신러닝 스택에서 점점 더 일반화
ㅤ→ Tecton, Rasgo, Logical Clocks, Kaskada 같은 회사들이 펀딩 라운드
- 머신러닝에서 피쳐(변수 또는 속성)는 개별로 측정가능한 속성 또는 특성으로 데이터 스니펫에서 컬럼으로 표현
ㅤ→ 머신 러닝 모델은 단일 피쳐에서 수백만개까지의 피쳐를 이용 가능
- 점점 더 복잡한 모델과 파이프라인을 사용하면서 점점 더 Ad-Hoc하게 수행되었음
- 엔지니어와 데이터 과학자들은 종종 Raw 데이터에서 피쳐를 다시 추출하는데 많은 시간을 소비
- 프로덕션 환경과 실험 환경의 격차는 모델 성능이나 동작에 불일치를 유발할 수 있음
- 조직은 머신 러닝 모델의 거버넌스 및 재현성등에만 관심이 있어서, 피쳐의 사일로화는 실제로 더 어렵게 만듬
- 피쳐 스토어는 협업을 촉진하고 이 사일로를 없앰
- 학습 및 프로덕션 모두에서 단일 정보 소스를 제공해서 복잡성을 줄이고 피쳐를 표준화 및 재사용
- 조직내의 선별된 피쳐를 저장하고, 원시 데이터를 피쳐 밸류로 변환하는 데이터 파이프라인을 실행하고, API를 통해서 빠른 억세스를 제공

[The Rise of ModelOps]
- 많은 회사들이 실험단게에서 프로덕션으로 모델을 가져오는 것이 어렵다는 것을 알게 되고, 사용중인 모델에는 지속적인 모니터링과 재학습이 필요하다는 것도 알게 됨
- MLOps는 DevOps의 모범 사례를 적용. 대규모 모델의 빠르고 지속적인 개발 및 배포를 간소화
- ModelOps 는 MLOps의 상위 집합. ML을 포함한 모든 AI모델을 학습에서 프로덕션에 이르는 모든 단계에서 더 빠른 운영을 목표로 함
- ModelOps 는 도구와 프로세스를 모두 다루고, 프로세스를 통합하고, 모델 오케스트레이션을 표준화하고, 포괄적인 거버넌스 기능과 함께 모든 모델에 대한 중장 집중형 저장소를 제공
- 잘 구현된 ModelOps는 모든 모델을 배포/모니터링 및 관리하는 통합 시스템을 제공하여 위험을 줄이고 컴플라이언스를 높임

[AI Content Generation]
- AI가 지난 몇년간 크게 성숙해져서 텍스트,이미지,코드 및 비디오를 포함한 모든 종류의 매체에 걸쳐 콘텐츠를 만드는 데 활용
- OpenAI GPT-3 공개. GitHub이 OpenAI Doex를 활용한 GitHub Copilot 공개
- OpenAI가 영어 중심 모델에 집중하지만, 다른 언어로 작업중인 회사들도 많음
ㅤ→ 독일의 Aleph Alpha, AI21 Labs, Huawei의 PanGu, Naver의 HyperCLOVA

[The continued emergence of a separate Chinese AI stack]
- 중국이 세계 최대의 데이터 생산자인 자체 시장과 함께 글로벌 AI강국으로 계속 발전
- 최고의 추천 알고리즘중 하나인 TikTok이 서구에서 성공하면서 중국 AI 소비자 기술이 처음으로 실제로 확산
- 중국이 2030년까지 AI 패권을 선언하고 재정지원되면서, 아직 서구 도구를 활용하던 중국에 별도의 자체 스택이 등장하기 시작

2021년 데이터/ML/AI 업계 지도와 최신 트렌드

함께 보면 좋은 글 β

댓글과 토론