15P by xguru 17일전 | favorite | 댓글과 토론

"우리는 현재 새로운 산업 혁명의 시작에 있음. 전기 생산 대신 인공지능을 생성하는.. [오픈소스]는 모든 기업이 인공지능 기업이 될 수 있게 함" - 젠슨 황

  • 문서에서 정보를 추출하는 것은 새로운 개념은 아님. 하지만 생성형AI(GenAI)는 대량의 고품질 데이터를 필요로 함
  • 훈련과 추론 모두에 데이터가 중요하며 데이터 규모뿐만 아니라 텍스트, 테이블 데이터에서 비디오, 이미지, 오디오로 확장됨
  • 위성 이미지, 로봇 센서 데이터 등 공간 데이터의 증가도 관찰됨
  • 데이터 계층에서 AI로 인해 가장 즉각적으로 재창조될 수 있는 새로운 영역은 무엇일까?
    • 비정형 데이터 추출과 파이프라인, 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 데이터 큐레이션, 데이터 스토리지 , - 인공지능 메모리
  • 이 글의 목적은 AI 데이터 인프라 환경을 분석하고, 최신 트렌드를 공유하고, 가장 유망한 혁신 영역에 대해 이야기 하는 것

AI 데이터 인프라 현황

  • AI 데이터 가치 사슬에서 데이터 흐름을 간단히 시각화하며, 데이터 학습 및 추론 과정의 흐름을 설명하고자 함
  • 데이터 인프라의 가치 사슬을 여섯 개 주요 영역으로 분류
    • 데이터 소스 (Sources)
    • 데이터 수집 및 변환 (Ingestion & Transformation)
    • 저장 (Storage)
    • 훈련 (Training)
    • 추론 (Inference)
    • 데이터 서비스 (Data Services)

데이터 소스

  • 앱 데이터: Salesforce, ServiceNow 등에서 추출
  • 실시간 데이터: 센서, 제조, 의료 데이터
  • OLTP 데이터베이스: Oracle, MongoDB와 같은 트랜잭션 데이터
  • 합성 데이터: 현실 세계에서 수집하지 않은 인공 생성 데이터 (e.g., Mostly AI, Datagen, Tonic)
    • 비용 효율적이고 데이터 준수 측면에서 유리함
    • 그러나, 통계적 이상치 데이터 표현이 부족해 모델 성능 최적화에 한계 있음
  • 웹 데이터: 웹 스크래핑을 통해 공용 데이터를 수집 (e.g., Browse AI, Apify)
    • 대규모 데이터 모델 훈련에 필수적이나, 공개 데이터가 고갈될 가능성 있음 (2026~2032년 예상)

데이터 수집 및 변환

  • 데이터 파이프라인은 데이터의 출발지에서 목적지로 데이터를 전송하고 분석 가능한 상태로 변환하는 과정
    • ETL/ELT: 전통적인 방식 (배치 처리, 스트리밍 처리)
    • 피쳐 엔지니어링/파이프라인: ML에서는 주로 테이블 데이터 처리
    • 비정형 데이터 파이프라인: 데이터 추출, 변환, 저장 과정을 통합하여 비정형 데이터를 정리 및 저장
  • 파이프라인 유형
    • 배치 처리: 특정 시간 간격으로 데이터를 추출 및 적재
    • 스트리밍 처리: 데이터를 실시간으로 로드 (Kafka, Flink등)
  • 도구 및 프레임워크
    • 스트리밍 (Kafka, Confluent), 처리 엔진 (Databricks, Flink), 오케스트레이션 도구 (Astronomer, Dagster, Airflow, Prefect 등)
    • 라벨링 도구: LabelBox, Scale AI 등 (테스트 데이터 라벨링 중요)
      • 배치: ETL(Airbyte, Fivetran), 트랜스폼(dbt,coalesce)
      • 비정형 데이터 처리: Datavolo, Unstructured, LlamaIndex 등

데이터 저장

  • 전통적 접근: 데이터 웨어하우스에 저장
  • AI 활용 데이터:
    • 데이터 레이크와 레이크하우스 구조 활용
    • 벡터 데이터베이스를 통한 데이터 임베딩 저장
  • 주요 도구:
    • 데이터 레이크 : Databricks, Onehouse, Tabular, Amazon S3, GCS 등
      • 벡터 DB: Pinecone, Chroma, Milvus, Weaviete 등

모델 훈련

  • 학습 방식:
    • 지도 학습, 비지도 학습, 강화 학습
  • 대규모 언어 모델(LLM) 학습 과정:
    • 사전 학습: 비지도 학습으로 데이터의 패턴 인식
    • 지도 학습: 성능 최적화
    • 강화 학습(RLHF): 인간 피드백을 통한 성능 향상
  • 검증 및 평가:
    • 정확도, 정밀도, 손실 최소화 등 모델의 적합성 평가
  • 최종 단계:
    • 보안 테스트, 거버넌스, 컴플라이언스 확인
  • 주요 도구:
    • 트레이닝: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

모델 추론

  • 과정:
    • 프롬프트 입력 → 토큰화/벡터화 → 데이터 처리 → 출력 생성
  • 맞춤화:
    • 벡터 데이터베이스와 LLM 연동
    • 사용자의 컨텍스트를 반영한 고유한 결과 생성
  • 필수 고려사항:
    • 데이터 보안, 모델 품질, 컴플라이언스
  • 주요 도구:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

데이터 서비스

  • 범주:
    • 데이터 보안: 접근 제어, 데이터 유출 방지 (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • 데이터 가시성: 데이터 파이프라인의 품질 및 성능 모니터링 (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • 데이터 카탈로그: 메타데이터 중앙화, 데이터 자산 조직화 (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • 결론:
    • 데이터가 잘 조직화될수록 보안, 가시성, 관리가 효율적임

[AI로 인한 데이터 재구성]

AI로 인해 데이터 인프라의 다음 영역에서 혁신이 관찰됨:

1. AI 에이전트 및 애플리케이션을 위한 비정형 데이터 파이프라인

  • 비정형 데이터 파이프라인의 부상:
    • 대화형 AI 및 에이전트 애플리케이션에 내부 비정형 데이터를 활용하려는 수요 증가
    • 비정형 데이터 파이프라인은 전통적 데이터 파이프라인과 유사한 과정 포함: 데이터 추출, 변환, 인덱싱, 저장
  • 주요 데이터 소스:
    • PDF 텍스트, 지식 베이스, 이미지 등
    • 주로 대화형 AI 활용 사례를 지원하는 데이터
  • 차별화 요소:
    • 변환 단계에서 기존 파이프라인과의 차이 발생:
      • 데이터 청킹(chunking): 데이터를 작은 단위로 나누기
      • 메타데이터 추출: 인덱싱을 위해 필요한 데이터 생성
      • 임베딩: 각 데이터 청크를 벡터 형태로 변환해 저장
  • 성공 요소:
    • 청킹 전략과 임베딩 모델의 선택은 데이터 검색 정확성에 중요한 영향을 미침
    • 도메인 특화 임베딩 모델의 등장: 예를 들어 코드, 법률 콘텐츠에 특화된 모델
  • 벡터 호환 데이터베이스 활용:
    • 비정형 데이터를 저장하고 질의 가능한 형식으로 변환
    • RAG(Retrieval-Augmented Generation) 및 에이전트를 통해 LLM 개인화 가능
  • 주요 관찰
    • 팀들은 다양한 청킹 전략을 시도하고 있음
    • 도메인별 특화된 임베딩 모델이 점차 증가하며 정확도와 성능 개선에 기여
    • 기업들은 데이터를 쉽게 질의할 수 있는 형식으로 변환하는 도구를 찾고 있음

2. Retrieval-Augmented Generation (RAG)

  • RAG 개요:
    • RAG는 LLM 애플리케이션의 효율성을 개선하기 위해 사용자 정의 데이터를 활용하는 아키텍처적 워크플로
    • 작동 방식:
      • 데이터를 로드하고 질의 처리를 위해 "인덱싱"
      • 질의는 인덱스를 기반으로 가장 관련성 높은 데이터를 필터링
      • 필터링된 컨텍스트와 질의가 LLM과 프롬프트로 전달되어 응답 생성
    • 데이터를 제품 경험의 일부로 활성화 가능
  • RAG의 주요 장점:
    • 업데이트된 정보 제공:
      • LLM은 사전 학습 데이터에 제한이 있어 오래되거나 부정확한 응답 가능성 존재
      • RAG는 외부 정보 소스에 접근해 최신 응답 제공
    • 사실성 강화:
      • LLM이 정확한 정보를 제공하지 못하는 문제를 RAG가 보완
      • 선별된 지식 베이스를 활용해 신뢰도 높은 정보를 제공
    • 출처 제공:
      • LLM의 응답에 인용 및 주석 추가 가능
      • 사용자 신뢰도 향상

3. 학습 및 추론 성능 향상을 위한 데이터 큐레이션

  • 데이터 큐레이션: 최적의 학습 및 추론 성능을 위해 데이터셋을 필터링하고 구성하는 과정
    • 주요 작업:
      • 텍스트 분류
      • NSFW 필터 적용
      • 데이터 중복 제거
      • 배치 크기 최적화
      • 성능 기반 소스 최적화
      • 합성 데이터를 통한 데이터 증강
  • Meta Llama-3 발표에서의 인사이트:
    • 학습 데이터 큐레이션:
      • "최고의 언어 모델을 학습시키기 위해 고품질 대규모 데이터셋의 큐레이션이 중요"
      • Meta는 다음과 같은 데이터 필터링 파이프라인 개발:
        • 휴리스틱 필터
        • NSFW 필터
        • 의미적 중복 제거
        • 데이터 품질 예측 텍스트 분류기
    • 미세 조정 데이터 큐레이션:
      • "모델 품질의 가장 큰 개선은 데이터를 신중히 큐레이션하고, 인간 주석가의 주석을 다수의 품질 보증 단계를 통해 검토함으로써 달성됨"
  • 데이터 큐레이션의 효과:
    • Meta AI 연구팀에 따르면:
      • 큐레이션은 학습 시간을 최대 20% 단축
      • 다운스트림 정확도 개선
      • 인터넷 데이터 고갈 상황에서도 모델 성능 개선 경로 제공
  • 향후 방향:
    • 모델 학습 및 미세 조정을 위해 자동화된 고품질 데이터 필터, 중복 제거, 분류기가 중요
    • Datology AI와 같은 기업이 이를 실현하기 위해 노력 중

4. AI를 위한 데이터 저장

  • AI 데이터를 저장하는 방식에는 세 가지 주요 트렌드가 있음:
    • 벡터 데이터베이스
    • 데이터 레이크의 부상
    • 레이크하우스에 대한 투자 증가
  • 벡터 데이터베이스의 중요성:
    • 벡터 데이터베이스는 AI 붐의 핵심 기술 중 하나로 주목받음
    • 데이터 임베딩(숫자 표현) 저장에 적합:
      • 비정형 데이터(이미지, 오디오, 비디오 등)를 수치로 변환하여 저장
      • 의미적 검색(예: "dog" 검색 시 "wolf" 또는 "puppy" 반환) 지원
    • 벡터 데이터베이스의 형태:
      • 네이티브 벡터 데이터베이스: 벡터 저장 전용으로 설계됨
      • 기존 데이터베이스 확장형: 기존 데이터베이스에 벡터 지원 기능 추가
    • 활용 사례: LLM 개인화
      • 기업의 커스텀 데이터를 벡터 임베딩으로 저장하고 검색 가능
      • AI 에이전트가 이 구조를 활용해 맞춤형 경험 제공
  • 데이터 레이크 및 레이크하우스
    • 데이터 레이크의 부상:
      • 대부분의 기업이 대규모 데이터를 데이터 레이크에 저장
      • 커스텀 AI 개발을 위해 데이터 레이크 활용 필수
    • 레이크하우스 아키텍처:
      • 데이터 레이크를 효과적으로 관리하고 질의할 수 있는 아키텍처 제공
      • 오픈 테이블 포맷으로 데이터 구성:
        • Iceberg, Delta Lake, Hudi 등 활용
      • 데이터 조직화 및 쿼리 성능 향상
    • Databricks의 역할:
      • Databricks는 Tabular를 인수하여 Delta Lake와 Iceberg의 개발팀 통합
      • 경쟁사의 진입을 어렵게 하며 레이크하우스 기술 발전을 선도

5. AI 메모리

  • AI 메모리의 부상:
    • ChatGPT의 메모리 기능 발표 이후 AI 메모리가 주요 논의 주제로 떠오름
    • 표준 AI 시스템은 강력한 에피소드 메모리 및 상호작용 간 연속성이 부족:
      • 현재 시스템은 일종의 단기 기억 상실 상태에 있음
      • 복잡한 순차적 추론과 다중 에이전트 시스템에서의 지식 공유에 제약
  • 다중 에이전트 시스템에서의 메모리
    • 다중 에이전트 시스템으로 발전함에 따라 에이전트 간 메모리 관리 시스템이 필요
    • 기능 요구사항:
      • 에이전트 별로 기억 저장 및 세션 간 접근 지원
      • 접근 및 개인정보 보호 통제 포함
      • 에이전트 간 메모리 풀링:
        • 한 에이전트가 다른 에이전트의 경험을 활용 가능
        • 의사결정 능력 향상
    • 계층적 메모리 필요:
      • 접근 빈도, 중요도, 비용에 따라 메모리를 계층적으로 저장
  • MemGPT: AI 메모리 관리의 선도 프레임워크
    • MemGPT의 비전: LLM이 차세대 운영 체제(OS)의 진화를 이끌 것이라는 목표
    • 아키텍처 개요:
      • 메모리 유형:
        • 주요 컨텍스트 메모리: 주 메모리(RAM)와 유사
        • 외부 컨텍스트 메모리: 디스크 메모리/디스크 스토리지와 유사
  • AI 메모리의 중요성
    • 개인화, 학습, 반성(reflection)을 지원하며 AI 애플리케이션 발전에 필수적
    • 에이전트 간 협력과 기억 공유를 통해 복잡한 작업 해결 능력 향상

AI 워크로드의 기회

  • AI 워크로드와 데이터 인프라:
    • GenAI의 부상으로 데이터 인프라의 모든 측면이 변화한 것은 아니지만, 다음과 같은 기술의 등장은 매우 흥미로운 발전:
      • 비정형 데이터 추출 및 파이프라이닝
      • Retrieval-Augmented Generation (RAG)
      • 데이터 큐레이션
      • 데이터 저장
      • AI 메모리
  • Felicis의 투자 전략
    • AI와 데이터 인프라의 미래에 집중:
      • 데이터 및 인프라 계층 관련 스타트업에 투자
      • 주요 투자 사례:
        • Datology: 데이터 큐레이션
        • Metaplane: 데이터 관찰 가능성(data observability)
        • MotherDuck: 서버리스 데이터 웨어하우스
        • Weights & Biases: 실험 추적 도구
  • AI 시장의 성장 가능성
    • 확장 가능성:
      • AI 시장은 채팅봇에서 다중 에이전트 워크플로까지 광범위하게 확장 중
      • 현재는 시작 단계에 불과하며 앞으로 더 많은 발전 가능성 존재
    • 데이터 솔루션의 중요성:
      • 성공적인 AI 애플리케이션을 위해 데이터 솔루션이 핵심
      • AI 워크로드를 지원하는 대규모 데이터 비즈니스가 구축될 전망