# AI 데이터 인프라의 부상

> Clean Markdown view of GeekNews topic #17940. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17940](https://news.hada.io/topic?id=17940)
- GeekNews Markdown: [https://news.hada.io/topic/17940.md](https://news.hada.io/topic/17940.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-11-25T10:51:02+09:00
- Updated: 2024-11-25T10:51:02+09:00
- Original source: [felicis.com](https://www.felicis.com/insight/ai-data-infrastructure)
- Points: 16
- Comments: 0

## Summary

인공지능의 발전과 함께 대량의 고품질 데이터를 위해서는 데이터 소스, 수집 및 변환, 저장, 훈련, 추론, 데이터 서비스의 여섯 가지 주요 영역으로 구성된 AI 데이터 인프라를 필요로 합니다. 비정형 데이터 파이프라인, Retrieval-Augmented Generation (RAG), 데이터 큐레이션, 데이터 저장, AI 메모리 등은 AI 데이터 인프라의 혁신적인 발전을 이끌고 있으며, 이러한 기술들은 AI 애플리케이션의 성능과 효율성을 향상시키는 데 기여합니다. AI 시장은 계속해서 확장되고 있으며, 성공적인 AI 애플리케이션을 위해서는 데이터 솔루션이 필수적입니다.

## Topic Body

> "우리는 현재 새로운 산업 혁명의 시작에 있음. 전기 생산 대신 인공지능을 생성하는.. [오픈소스]는 모든 기업이 인공지능 기업이 될 수 있게 함" - 젠슨 황   
- 문서에서 정보를 추출하는 것은 새로운 개념은 아님. 하지만 생성형AI(GenAI)는 대량의 고품질 데이터를 필요로 함  
- 훈련과 추론 모두에 데이터가 중요하며 데이터 규모뿐만 아니라 텍스트, 테이블 데이터에서 비디오, 이미지, 오디오로 확장됨  
- 위성 이미지, 로봇 센서 데이터 등 공간 데이터의 증가도 관찰됨  
- 데이터 계층에서 AI로 인해 가장 즉각적으로 재창조될 수 있는 새로운 영역은 무엇일까?  
  - 비정형 데이터 추출과 파이프라인, 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 데이터 큐레이션, 데이터 스토리지 , - 인공지능 메모리  
- 이 글의 목적은 AI 데이터 인프라 환경을 분석하고, 최신 트렌드를 공유하고, 가장 유망한 혁신 영역에 대해 이야기 하는 것  
  
### AI 데이터 인프라 현황  
  
- AI 데이터 가치 사슬에서 데이터 흐름을 간단히 시각화하며, 데이터 학습 및 추론 과정의 흐름을 설명하고자 함  
- 데이터 인프라의 가치 사슬을 여섯 개 주요 영역으로 분류  
	- 데이터 소스 (Sources)  
	- 데이터 수집 및 변환 (Ingestion & Transformation)  
	- 저장 (Storage)  
	- 훈련 (Training)  
	- 추론 (Inference)  
	- 데이터 서비스 (Data Services)  
  
#### 데이터 소스  
  
- **앱 데이터**: Salesforce, ServiceNow 등에서 추출  
- **실시간 데이터**: 센서, 제조, 의료 데이터  
- **OLTP 데이터베이스**: Oracle, MongoDB와 같은 트랜잭션 데이터  
- **합성 데이터**: 현실 세계에서 수집하지 않은 인공 생성 데이터 (e.g., Mostly AI, Datagen, Tonic)  
  - 비용 효율적이고 데이터 준수 측면에서 유리함  
  - 그러나, 통계적 이상치 데이터 표현이 부족해 모델 성능 최적화에 한계 있음  
- **웹 데이터**: 웹 스크래핑을 통해 공용 데이터를 수집 (e.g., Browse AI, Apify)  
  - 대규모 데이터 모델 훈련에 필수적이나, 공개 데이터가 고갈될 가능성 있음 (2026~2032년 예상)  
  
#### 데이터 수집 및 변환  
  
- 데이터 파이프라인은 데이터의 출발지에서 목적지로 데이터를 전송하고 분석 가능한 상태로 변환하는 과정  
  - **ETL/ELT**: 전통적인 방식 (배치 처리, 스트리밍 처리)  
  - **피쳐 엔지니어링/파이프라인**: ML에서는 주로 테이블 데이터 처리  
  - **비정형 데이터 파이프라인**: 데이터 추출, 변환, 저장 과정을 통합하여 비정형 데이터를 정리 및 저장  
- **파이프라인 유형**  
  - **배치 처리**: 특정 시간 간격으로 데이터를 추출 및 적재  
  - **스트리밍 처리**: 데이터를 실시간으로 로드 (Kafka, Flink등)  
- **도구 및 프레임워크**  
  - 스트리밍 (Kafka, Confluent), 처리 엔진 (Databricks, Flink), 오케스트레이션 도구 (Astronomer, Dagster, Airflow, Prefect 등)  
  - 라벨링 도구: LabelBox, Scale AI 등 (테스트 데이터 라벨링 중요)  
	- 배치: ETL(Airbyte, Fivetran), 트랜스폼(dbt,coalesce)  
	- 비정형 데이터 처리: Datavolo, Unstructured, LlamaIndex 등  
  
#### 데이터 저장  
  
- **전통적 접근**: 데이터 웨어하우스에 저장  
- **AI 활용 데이터**:  
  - 데이터 레이크와 레이크하우스 구조 활용  
  - 벡터 데이터베이스를 통한 데이터 임베딩 저장  
- **주요 도구**:  
  - 데이터 레이크 : Databricks, Onehouse, Tabular, Amazon S3, GCS 등  
	- 벡터 DB: Pinecone, Chroma, Milvus, Weaviete  등  
  
#### 모델 훈련  
  
- **학습 방식**:  
  - 지도 학습, 비지도 학습, 강화 학습  
- **대규모 언어 모델(LLM) 학습 과정**:  
  - 사전 학습: 비지도 학습으로 데이터의 패턴 인식  
  - 지도 학습: 성능 최적화  
  - 강화 학습(RLHF): 인간 피드백을 통한 성능 향상  
- **검증 및 평가**:  
  - 정확도, 정밀도, 손실 최소화 등 모델의 적합성 평가  
- **최종 단계**:  
  - 보안 테스트, 거버넌스, 컴플라이언스 확인  
- **주요 도구**:  
  - 트레이닝: TensorFlow, Modular   
	- Evaluation: neptune.ai, Weights & Biases  
	- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO  
	- Model: OpenAI, Cohere, Mistral AI, Runway 		  
  
#### 모델 추론  
  
- **과정**:  
  - 프롬프트 입력 → 토큰화/벡터화 → 데이터 처리 → 출력 생성  
- **맞춤화**:  
  - 벡터 데이터베이스와 LLM 연동  
  - 사용자의 컨텍스트를 반영한 고유한 결과 생성  
- **필수 고려사항**:  
  - 데이터 보안, 모델 품질, 컴플라이언스  
- **주요 도구**:   
	- Tooling: ANON, E2B  
	- Memory: MemGPT, cognee.ai   
	- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks   
	- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi  
  
#### 데이터 서비스  
  
- **범주**:  
  - 데이터 보안: 접근 제어, 데이터 유출 방지 (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)  
  - 데이터 가시성: 데이터 파이프라인의 품질 및 성능 모니터링 (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)  
  - 데이터 카탈로그: 메타데이터 중앙화, 데이터 자산 조직화 (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)  
- **결론**:  
  - 데이터가 잘 조직화될수록 보안, 가시성, 관리가 효율적임  
  
---  
### [AI로 인한 데이터 재구성]  
  
AI로 인해 데이터 인프라의 다음 영역에서 혁신이 관찰됨:  
  
#### 1. AI 에이전트 및 애플리케이션을 위한 비정형 데이터 파이프라인  
  
- **비정형 데이터 파이프라인의 부상**:  
  - 대화형 AI 및 에이전트 애플리케이션에 내부 비정형 데이터를 활용하려는 수요 증가  
  - 비정형 데이터 파이프라인은 전통적 데이터 파이프라인과 유사한 과정 포함: 데이터 추출, 변환, 인덱싱, 저장  
- **주요 데이터 소스**:  
  - PDF 텍스트, 지식 베이스, 이미지 등  
  - 주로 대화형 AI 활용 사례를 지원하는 데이터  
- **차별화 요소**:  
  - 변환 단계에서 기존 파이프라인과의 차이 발생:  
    - 데이터 청킹(chunking): 데이터를 작은 단위로 나누기  
    - 메타데이터 추출: 인덱싱을 위해 필요한 데이터 생성  
    - 임베딩: 각 데이터 청크를 벡터 형태로 변환해 저장  
- **성공 요소**:  
  - 청킹 전략과 임베딩 모델의 선택은 데이터 검색 정확성에 중요한 영향을 미침  
  - 도메인 특화 임베딩 모델의 등장: 예를 들어 코드, 법률 콘텐츠에 특화된 모델  
- **벡터 호환 데이터베이스 활용**:  
  - 비정형 데이터를 저장하고 질의 가능한 형식으로 변환  
  - RAG(Retrieval-Augmented Generation) 및 에이전트를 통해 LLM 개인화 가능  
- **주요 관찰**  
  - 팀들은 다양한 청킹 전략을 시도하고 있음  
  - 도메인별 특화된 임베딩 모델이 점차 증가하며 정확도와 성능 개선에 기여  
  - 기업들은 데이터를 쉽게 질의할 수 있는 형식으로 변환하는 도구를 찾고 있음  
  
#### 2. Retrieval-Augmented Generation (RAG)  
  
- **RAG 개요**:  
  - RAG는 LLM 애플리케이션의 효율성을 개선하기 위해 사용자 정의 데이터를 활용하는 아키텍처적 워크플로  
  - **작동 방식**:  
    - 데이터를 로드하고 질의 처리를 위해 "인덱싱"  
    - 질의는 인덱스를 기반으로 가장 관련성 높은 데이터를 필터링  
    - 필터링된 컨텍스트와 질의가 LLM과 프롬프트로 전달되어 응답 생성  
  - 데이터를 제품 경험의 일부로 활성화 가능  
- **RAG의 주요 장점**:  
  - **업데이트된 정보 제공**:  
    - LLM은 사전 학습 데이터에 제한이 있어 오래되거나 부정확한 응답 가능성 존재  
    - RAG는 외부 정보 소스에 접근해 최신 응답 제공  
  - **사실성 강화**:  
    - LLM이 정확한 정보를 제공하지 못하는 문제를 RAG가 보완  
    - 선별된 지식 베이스를 활용해 신뢰도 높은 정보를 제공  
  - **출처 제공**:  
    - LLM의 응답에 인용 및 주석 추가 가능  
    - 사용자 신뢰도 향상  
  
#### 3. 학습 및 추론 성능 향상을 위한 데이터 큐레이션  
  
- **데이터 큐레이션**: 최적의 학습 및 추론 성능을 위해 데이터셋을 필터링하고 구성하는 과정  
  - 주요 작업:  
    - 텍스트 분류  
    - NSFW 필터 적용  
    - 데이터 중복 제거  
    - 배치 크기 최적화  
    - 성능 기반 소스 최적화  
    - 합성 데이터를 통한 데이터 증강  
- **Meta Llama-3 발표에서의 인사이트**:  
  - **학습 데이터 큐레이션**:  
    - "최고의 언어 모델을 학습시키기 위해 고품질 대규모 데이터셋의 큐레이션이 중요"  
    - Meta는 다음과 같은 데이터 필터링 파이프라인 개발:  
      - 휴리스틱 필터  
      - NSFW 필터  
      - 의미적 중복 제거  
      - 데이터 품질 예측 텍스트 분류기  
  - **미세 조정 데이터 큐레이션**:  
    - "모델 품질의 가장 큰 개선은 데이터를 신중히 큐레이션하고, 인간 주석가의 주석을 다수의 품질 보증 단계를 통해 검토함으로써 달성됨"  
- **데이터 큐레이션의 효과**:  
  - Meta AI 연구팀에 따르면:  
    - 큐레이션은 학습 시간을 최대 20% 단축  
    - 다운스트림 정확도 개선  
    - 인터넷 데이터 고갈 상황에서도 모델 성능 개선 경로 제공  
- **향후 방향**:  
  - 모델 학습 및 미세 조정을 위해 자동화된 고품질 데이터 필터, 중복 제거, 분류기가 중요  
  - Datology AI와 같은 기업이 이를 실현하기 위해 노력 중  
  
#### 4. AI를 위한 데이터 저장  
  
- AI 데이터를 저장하는 방식에는 세 가지 주요 트렌드가 있음:  
  - 벡터 데이터베이스  
  - 데이터 레이크의 부상  
  - 레이크하우스에 대한 투자 증가  
- **벡터 데이터베이스의 중요성**:  
  - 벡터 데이터베이스는 AI 붐의 핵심 기술 중 하나로 주목받음  
  - 데이터 임베딩(숫자 표현) 저장에 적합:  
    - 비정형 데이터(이미지, 오디오, 비디오 등)를 수치로 변환하여 저장  
    - 의미적 검색(예: "dog" 검색 시 "wolf" 또는 "puppy" 반환) 지원  
  - **벡터 데이터베이스의 형태**:  
    - **네이티브 벡터 데이터베이스**: 벡터 저장 전용으로 설계됨  
    - **기존 데이터베이스 확장형**: 기존 데이터베이스에 벡터 지원 기능 추가  
  - **활용 사례**: LLM 개인화  
    - 기업의 커스텀 데이터를 벡터 임베딩으로 저장하고 검색 가능  
    - AI 에이전트가 이 구조를 활용해 맞춤형 경험 제공  
- **데이터 레이크 및 레이크하우스**  
  - **데이터 레이크의 부상**:  
    - 대부분의 기업이 대규모 데이터를 데이터 레이크에 저장  
    - 커스텀 AI 개발을 위해 데이터 레이크 활용 필수  
  - **레이크하우스 아키텍처**:  
    - 데이터 레이크를 효과적으로 관리하고 질의할 수 있는 아키텍처 제공  
    - **오픈 테이블 포맷**으로 데이터 구성:  
      - Iceberg, Delta Lake, Hudi 등 활용  
    - 데이터 조직화 및 쿼리 성능 향상  
  - **Databricks의 역할**:  
    - Databricks는 Tabular를 인수하여 Delta Lake와 Iceberg의 개발팀 통합  
    - 경쟁사의 진입을 어렵게 하며 레이크하우스 기술 발전을 선도  
  
#### 5. AI 메모리  
  
- **AI 메모리의 부상**:  
  - ChatGPT의 메모리 기능 발표 이후 AI 메모리가 주요 논의 주제로 떠오름  
  - 표준 AI 시스템은 강력한 에피소드 메모리 및 상호작용 간 연속성이 부족:  
    - 현재 시스템은 일종의 단기 기억 상실 상태에 있음  
    - 복잡한 순차적 추론과 다중 에이전트 시스템에서의 지식 공유에 제약  
- **다중 에이전트 시스템에서의 메모리**  
  - 다중 에이전트 시스템으로 발전함에 따라 에이전트 간 메모리 관리 시스템이 필요  
  - **기능 요구사항**:  
    - 에이전트 별로 기억 저장 및 세션 간 접근 지원  
    - 접근 및 개인정보 보호 통제 포함  
    - 에이전트 간 메모리 풀링:  
      - 한 에이전트가 다른 에이전트의 경험을 활용 가능  
      - 의사결정 능력 향상  
  - 계층적 메모리 필요:  
    - 접근 빈도, 중요도, 비용에 따라 메모리를 계층적으로 저장  
- **MemGPT: AI 메모리 관리의 선도 프레임워크**  
  - MemGPT의 비전: LLM이 차세대 운영 체제(OS)의 진화를 이끌 것이라는 목표  
  - **아키텍처 개요**:  
    - **메모리 유형**:  
      - **주요 컨텍스트 메모리**: 주 메모리(RAM)와 유사  
      - **외부 컨텍스트 메모리**: 디스크 메모리/디스크 스토리지와 유사  
- **AI 메모리의 중요성**  
  - 개인화, 학습, 반성(reflection)을 지원하며 AI 애플리케이션 발전에 필수적  
  - 에이전트 간 협력과 기억 공유를 통해 복잡한 작업 해결 능력 향상  
  
#### AI 워크로드의 기회  
  
- **AI 워크로드와 데이터 인프라**:  
  - GenAI의 부상으로 데이터 인프라의 모든 측면이 변화한 것은 아니지만, 다음과 같은 기술의 등장은 매우 흥미로운 발전:  
    - 비정형 데이터 추출 및 파이프라이닝  
    - Retrieval-Augmented Generation (RAG)  
    - 데이터 큐레이션  
    - 데이터 저장  
    - AI 메모리  
- Felicis의 투자 전략  
  - **AI와 데이터 인프라의 미래에 집중**:  
    - 데이터 및 인프라 계층 관련 스타트업에 투자  
    - 주요 투자 사례:  
      - **Datology**: 데이터 큐레이션  
      - **Metaplane**: 데이터 관찰 가능성(data observability)  
      - **MotherDuck**: 서버리스 데이터 웨어하우스  
      - **Weights & Biases**: 실험 추적 도구  
- AI 시장의 성장 가능성  
  - **확장 가능성**:  
    - AI 시장은 채팅봇에서 다중 에이전트 워크플로까지 광범위하게 확장 중  
    - 현재는 시작 단계에 불과하며 앞으로 더 많은 발전 가능성 존재  
  - **데이터 솔루션의 중요성**:  
    - 성공적인 AI 애플리케이션을 위해 데이터 솔루션이 핵심  
    - AI 워크로드를 지원하는 대규모 데이터 비즈니스가 구축될 전망

## Comments


_No public comments on this page._