• Meta의 Llama Stack은 생성형 AI 애플리케이션을 위한 핵심 구성 요소를 표준화한 프레임워크
  • 다양한 서비스 제공자의 구현체를 기반으로 통일된 API 레이어 제공
  • 개발 환경에서 프로덕션 환경으로 전환할 때 개발자 경험의 일관성 보장
  • 주요 구성 요소:
    • 추론, RAG, 에이전트, 툴, 안전성(Safety), 평가(Evals), 텔레메트리(Telemetry) 등을 위한 통합 API
    • 플러그인 아키텍처로 다양한 환경(로컬, 온프레미스, 클라우드, 모바일) 지원
    • 검증된 배포판(distribution) 을 통해 빠르고 안정적으로 시작 가능
    • CLI 및 SDK(Python, Node.js, iOS, Android) 등 다양한 개발자 인터페이스 제공
    • 프로덕션 수준의 애플리케이션 예시 제공

Llama Stack 작동 방식

  • Llama Stack은 서버 + 클라이언트 SDK로 구성됨
    • 서버는 로컬, 온프레미스, 클라우드 등 다양한 환경에 배포 가능
    • 클라이언트 SDK는 Python, Swift, Node.js, Kotlin 등 지원

클라이언트 SDK 목록

지원되는 Llama Stack 구현체

Inference API

  • 다양한 호스팅/로컬 환경의 추론 제공자 지원
    • Meta Reference, Ollama, Fireworks, Together, NVIDIA NIM, vLLM, TGI, AWS Bedrock, OpenAI, Anthropic, Gemini 등

Vector IO API

  • 벡터 저장소 인터페이스 제공
  • 지원 구현체:
    • FAISS, SQLite-Vec, Chroma, Milvus, Postgres(PGVector), Weaviate 등

Safety API

  • 프롬프트 및 코드 검사 등 AI 응답의 안전성 보장
  • 지원 구현체:
    • Llama Guard, Prompt Guard, Code Scanner, AWS Bedrock 등

개발 리소스

Llama Stack은 개발자들이 다양한 AI 기술을 손쉽게 통합하고 배포할 수 있도록 설계된 범용 프레임워크이며, 다양한 환경과 언어를 폭넓게 지원함