AI 데이터 인프라의 부상
(felicis.com)"우리는 현재 새로운 산업 혁명의 시작에 있음. 전기 생산 대신 인공지능을 생성하는.. [오픈소스]는 모든 기업이 인공지능 기업이 될 수 있게 함" - 젠슨 황
- 문서에서 정보를 추출하는 것은 새로운 개념은 아님. 하지만 생성형AI(GenAI)는 대량의 고품질 데이터를 필요로 함
- 훈련과 추론 모두에 데이터가 중요하며 데이터 규모뿐만 아니라 텍스트, 테이블 데이터에서 비디오, 이미지, 오디오로 확장됨
- 위성 이미지, 로봇 센서 데이터 등 공간 데이터의 증가도 관찰됨
- 데이터 계층에서 AI로 인해 가장 즉각적으로 재창조될 수 있는 새로운 영역은 무엇일까?
- 비정형 데이터 추출과 파이프라인, 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 데이터 큐레이션, 데이터 스토리지 , - 인공지능 메모리
- 이 글의 목적은 AI 데이터 인프라 환경을 분석하고, 최신 트렌드를 공유하고, 가장 유망한 혁신 영역에 대해 이야기 하는 것
AI 데이터 인프라 현황
- AI 데이터 가치 사슬에서 데이터 흐름을 간단히 시각화하며, 데이터 학습 및 추론 과정의 흐름을 설명하고자 함
- 데이터 인프라의 가치 사슬을 여섯 개 주요 영역으로 분류
- 데이터 소스 (Sources)
- 데이터 수집 및 변환 (Ingestion & Transformation)
- 저장 (Storage)
- 훈련 (Training)
- 추론 (Inference)
- 데이터 서비스 (Data Services)
데이터 소스
- 앱 데이터: Salesforce, ServiceNow 등에서 추출
- 실시간 데이터: 센서, 제조, 의료 데이터
- OLTP 데이터베이스: Oracle, MongoDB와 같은 트랜잭션 데이터
-
합성 데이터: 현실 세계에서 수집하지 않은 인공 생성 데이터 (e.g., Mostly AI, Datagen, Tonic)
- 비용 효율적이고 데이터 준수 측면에서 유리함
- 그러나, 통계적 이상치 데이터 표현이 부족해 모델 성능 최적화에 한계 있음
-
웹 데이터: 웹 스크래핑을 통해 공용 데이터를 수집 (e.g., Browse AI, Apify)
- 대규모 데이터 모델 훈련에 필수적이나, 공개 데이터가 고갈될 가능성 있음 (2026~2032년 예상)
데이터 수집 및 변환
- 데이터 파이프라인은 데이터의 출발지에서 목적지로 데이터를 전송하고 분석 가능한 상태로 변환하는 과정
- ETL/ELT: 전통적인 방식 (배치 처리, 스트리밍 처리)
- 피쳐 엔지니어링/파이프라인: ML에서는 주로 테이블 데이터 처리
- 비정형 데이터 파이프라인: 데이터 추출, 변환, 저장 과정을 통합하여 비정형 데이터를 정리 및 저장
-
파이프라인 유형
- 배치 처리: 특정 시간 간격으로 데이터를 추출 및 적재
- 스트리밍 처리: 데이터를 실시간으로 로드 (Kafka, Flink등)
-
도구 및 프레임워크
- 스트리밍 (Kafka, Confluent), 처리 엔진 (Databricks, Flink), 오케스트레이션 도구 (Astronomer, Dagster, Airflow, Prefect 등)
- 라벨링 도구: LabelBox, Scale AI 등 (테스트 데이터 라벨링 중요)
- 배치: ETL(Airbyte, Fivetran), 트랜스폼(dbt,coalesce)
- 비정형 데이터 처리: Datavolo, Unstructured, LlamaIndex 등
데이터 저장
- 전통적 접근: 데이터 웨어하우스에 저장
-
AI 활용 데이터:
- 데이터 레이크와 레이크하우스 구조 활용
- 벡터 데이터베이스를 통한 데이터 임베딩 저장
-
주요 도구:
- 데이터 레이크 : Databricks, Onehouse, Tabular, Amazon S3, GCS 등
- 벡터 DB: Pinecone, Chroma, Milvus, Weaviete 등
- 데이터 레이크 : Databricks, Onehouse, Tabular, Amazon S3, GCS 등
모델 훈련
-
학습 방식:
- 지도 학습, 비지도 학습, 강화 학습
-
대규모 언어 모델(LLM) 학습 과정:
- 사전 학습: 비지도 학습으로 데이터의 패턴 인식
- 지도 학습: 성능 최적화
- 강화 학습(RLHF): 인간 피드백을 통한 성능 향상
-
검증 및 평가:
- 정확도, 정밀도, 손실 최소화 등 모델의 적합성 평가
-
최종 단계:
- 보안 테스트, 거버넌스, 컴플라이언스 확인
-
주요 도구:
- 트레이닝: TensorFlow, Modular
- Evaluation: neptune.ai, Weights & Biases
- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
- Model: OpenAI, Cohere, Mistral AI, Runway
- 트레이닝: TensorFlow, Modular
모델 추론
-
과정:
- 프롬프트 입력 → 토큰화/벡터화 → 데이터 처리 → 출력 생성
-
맞춤화:
- 벡터 데이터베이스와 LLM 연동
- 사용자의 컨텍스트를 반영한 고유한 결과 생성
-
필수 고려사항:
- 데이터 보안, 모델 품질, 컴플라이언스
-
주요 도구:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi
데이터 서비스
-
범주:
- 데이터 보안: 접근 제어, 데이터 유출 방지 (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- 데이터 가시성: 데이터 파이프라인의 품질 및 성능 모니터링 (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- 데이터 카탈로그: 메타데이터 중앙화, 데이터 자산 조직화 (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
-
결론:
- 데이터가 잘 조직화될수록 보안, 가시성, 관리가 효율적임
[AI로 인한 데이터 재구성]
AI로 인해 데이터 인프라의 다음 영역에서 혁신이 관찰됨:
1. AI 에이전트 및 애플리케이션을 위한 비정형 데이터 파이프라인
-
비정형 데이터 파이프라인의 부상:
- 대화형 AI 및 에이전트 애플리케이션에 내부 비정형 데이터를 활용하려는 수요 증가
- 비정형 데이터 파이프라인은 전통적 데이터 파이프라인과 유사한 과정 포함: 데이터 추출, 변환, 인덱싱, 저장
-
주요 데이터 소스:
- PDF 텍스트, 지식 베이스, 이미지 등
- 주로 대화형 AI 활용 사례를 지원하는 데이터
-
차별화 요소:
- 변환 단계에서 기존 파이프라인과의 차이 발생:
- 데이터 청킹(chunking): 데이터를 작은 단위로 나누기
- 메타데이터 추출: 인덱싱을 위해 필요한 데이터 생성
- 임베딩: 각 데이터 청크를 벡터 형태로 변환해 저장
- 변환 단계에서 기존 파이프라인과의 차이 발생:
-
성공 요소:
- 청킹 전략과 임베딩 모델의 선택은 데이터 검색 정확성에 중요한 영향을 미침
- 도메인 특화 임베딩 모델의 등장: 예를 들어 코드, 법률 콘텐츠에 특화된 모델
-
벡터 호환 데이터베이스 활용:
- 비정형 데이터를 저장하고 질의 가능한 형식으로 변환
- RAG(Retrieval-Augmented Generation) 및 에이전트를 통해 LLM 개인화 가능
-
주요 관찰
- 팀들은 다양한 청킹 전략을 시도하고 있음
- 도메인별 특화된 임베딩 모델이 점차 증가하며 정확도와 성능 개선에 기여
- 기업들은 데이터를 쉽게 질의할 수 있는 형식으로 변환하는 도구를 찾고 있음
2. Retrieval-Augmented Generation (RAG)
-
RAG 개요:
- RAG는 LLM 애플리케이션의 효율성을 개선하기 위해 사용자 정의 데이터를 활용하는 아키텍처적 워크플로
-
작동 방식:
- 데이터를 로드하고 질의 처리를 위해 "인덱싱"
- 질의는 인덱스를 기반으로 가장 관련성 높은 데이터를 필터링
- 필터링된 컨텍스트와 질의가 LLM과 프롬프트로 전달되어 응답 생성
- 데이터를 제품 경험의 일부로 활성화 가능
-
RAG의 주요 장점:
-
업데이트된 정보 제공:
- LLM은 사전 학습 데이터에 제한이 있어 오래되거나 부정확한 응답 가능성 존재
- RAG는 외부 정보 소스에 접근해 최신 응답 제공
-
사실성 강화:
- LLM이 정확한 정보를 제공하지 못하는 문제를 RAG가 보완
- 선별된 지식 베이스를 활용해 신뢰도 높은 정보를 제공
-
출처 제공:
- LLM의 응답에 인용 및 주석 추가 가능
- 사용자 신뢰도 향상
-
업데이트된 정보 제공:
3. 학습 및 추론 성능 향상을 위한 데이터 큐레이션
-
데이터 큐레이션: 최적의 학습 및 추론 성능을 위해 데이터셋을 필터링하고 구성하는 과정
- 주요 작업:
- 텍스트 분류
- NSFW 필터 적용
- 데이터 중복 제거
- 배치 크기 최적화
- 성능 기반 소스 최적화
- 합성 데이터를 통한 데이터 증강
- 주요 작업:
-
Meta Llama-3 발표에서의 인사이트:
-
학습 데이터 큐레이션:
- "최고의 언어 모델을 학습시키기 위해 고품질 대규모 데이터셋의 큐레이션이 중요"
- Meta는 다음과 같은 데이터 필터링 파이프라인 개발:
- 휴리스틱 필터
- NSFW 필터
- 의미적 중복 제거
- 데이터 품질 예측 텍스트 분류기
-
미세 조정 데이터 큐레이션:
- "모델 품질의 가장 큰 개선은 데이터를 신중히 큐레이션하고, 인간 주석가의 주석을 다수의 품질 보증 단계를 통해 검토함으로써 달성됨"
-
학습 데이터 큐레이션:
-
데이터 큐레이션의 효과:
- Meta AI 연구팀에 따르면:
- 큐레이션은 학습 시간을 최대 20% 단축
- 다운스트림 정확도 개선
- 인터넷 데이터 고갈 상황에서도 모델 성능 개선 경로 제공
- Meta AI 연구팀에 따르면:
-
향후 방향:
- 모델 학습 및 미세 조정을 위해 자동화된 고품질 데이터 필터, 중복 제거, 분류기가 중요
- Datology AI와 같은 기업이 이를 실현하기 위해 노력 중
4. AI를 위한 데이터 저장
- AI 데이터를 저장하는 방식에는 세 가지 주요 트렌드가 있음:
- 벡터 데이터베이스
- 데이터 레이크의 부상
- 레이크하우스에 대한 투자 증가
-
벡터 데이터베이스의 중요성:
- 벡터 데이터베이스는 AI 붐의 핵심 기술 중 하나로 주목받음
- 데이터 임베딩(숫자 표현) 저장에 적합:
- 비정형 데이터(이미지, 오디오, 비디오 등)를 수치로 변환하여 저장
- 의미적 검색(예: "dog" 검색 시 "wolf" 또는 "puppy" 반환) 지원
-
벡터 데이터베이스의 형태:
- 네이티브 벡터 데이터베이스: 벡터 저장 전용으로 설계됨
- 기존 데이터베이스 확장형: 기존 데이터베이스에 벡터 지원 기능 추가
-
활용 사례: LLM 개인화
- 기업의 커스텀 데이터를 벡터 임베딩으로 저장하고 검색 가능
- AI 에이전트가 이 구조를 활용해 맞춤형 경험 제공
-
데이터 레이크 및 레이크하우스
-
데이터 레이크의 부상:
- 대부분의 기업이 대규모 데이터를 데이터 레이크에 저장
- 커스텀 AI 개발을 위해 데이터 레이크 활용 필수
-
레이크하우스 아키텍처:
- 데이터 레이크를 효과적으로 관리하고 질의할 수 있는 아키텍처 제공
-
오픈 테이블 포맷으로 데이터 구성:
- Iceberg, Delta Lake, Hudi 등 활용
- 데이터 조직화 및 쿼리 성능 향상
-
Databricks의 역할:
- Databricks는 Tabular를 인수하여 Delta Lake와 Iceberg의 개발팀 통합
- 경쟁사의 진입을 어렵게 하며 레이크하우스 기술 발전을 선도
-
데이터 레이크의 부상:
5. AI 메모리
-
AI 메모리의 부상:
- ChatGPT의 메모리 기능 발표 이후 AI 메모리가 주요 논의 주제로 떠오름
- 표준 AI 시스템은 강력한 에피소드 메모리 및 상호작용 간 연속성이 부족:
- 현재 시스템은 일종의 단기 기억 상실 상태에 있음
- 복잡한 순차적 추론과 다중 에이전트 시스템에서의 지식 공유에 제약
-
다중 에이전트 시스템에서의 메모리
- 다중 에이전트 시스템으로 발전함에 따라 에이전트 간 메모리 관리 시스템이 필요
-
기능 요구사항:
- 에이전트 별로 기억 저장 및 세션 간 접근 지원
- 접근 및 개인정보 보호 통제 포함
- 에이전트 간 메모리 풀링:
- 한 에이전트가 다른 에이전트의 경험을 활용 가능
- 의사결정 능력 향상
- 계층적 메모리 필요:
- 접근 빈도, 중요도, 비용에 따라 메모리를 계층적으로 저장
-
MemGPT: AI 메모리 관리의 선도 프레임워크
- MemGPT의 비전: LLM이 차세대 운영 체제(OS)의 진화를 이끌 것이라는 목표
-
아키텍처 개요:
-
메모리 유형:
- 주요 컨텍스트 메모리: 주 메모리(RAM)와 유사
- 외부 컨텍스트 메모리: 디스크 메모리/디스크 스토리지와 유사
-
메모리 유형:
-
AI 메모리의 중요성
- 개인화, 학습, 반성(reflection)을 지원하며 AI 애플리케이션 발전에 필수적
- 에이전트 간 협력과 기억 공유를 통해 복잡한 작업 해결 능력 향상
AI 워크로드의 기회
-
AI 워크로드와 데이터 인프라:
- GenAI의 부상으로 데이터 인프라의 모든 측면이 변화한 것은 아니지만, 다음과 같은 기술의 등장은 매우 흥미로운 발전:
- 비정형 데이터 추출 및 파이프라이닝
- Retrieval-Augmented Generation (RAG)
- 데이터 큐레이션
- 데이터 저장
- AI 메모리
- GenAI의 부상으로 데이터 인프라의 모든 측면이 변화한 것은 아니지만, 다음과 같은 기술의 등장은 매우 흥미로운 발전:
- Felicis의 투자 전략
-
AI와 데이터 인프라의 미래에 집중:
- 데이터 및 인프라 계층 관련 스타트업에 투자
- 주요 투자 사례:
- Datology: 데이터 큐레이션
- Metaplane: 데이터 관찰 가능성(data observability)
- MotherDuck: 서버리스 데이터 웨어하우스
- Weights & Biases: 실험 추적 도구
-
AI와 데이터 인프라의 미래에 집중:
- AI 시장의 성장 가능성
-
확장 가능성:
- AI 시장은 채팅봇에서 다중 에이전트 워크플로까지 광범위하게 확장 중
- 현재는 시작 단계에 불과하며 앞으로 더 많은 발전 가능성 존재
-
데이터 솔루션의 중요성:
- 성공적인 AI 애플리케이션을 위해 데이터 솔루션이 핵심
- AI 워크로드를 지원하는 대규모 데이터 비즈니스가 구축될 전망
-
확장 가능성: