5P by xguru 2달전 | favorite | 댓글과 토론
  • AICI - Artificial Intelligence Controller Interface
  • 대규모 언어 모델(LLM)의 출력을 실시간으로 제한하고 지시하는 컨트롤러를 구축할 수 있게 해줌
  • 컨트롤러는 제한된 디코딩, 프롬프트 및 생성된 텍스트의 동적 편집, 병렬 생성 간의 조정이 가능
  • 컨트롤러는 토큰별 디코딩 중에 사용자 정의 로직을 통합하고 LLM 요청 동안 상태를 유지함
  • AICI의 목적은 기존 및 새로운 컨트롤러 전략을 쉽게 구축하고 실험할 수 있게 하는 것
    • 기본 LLM 추론 및 제공 엔진의 구현 세부 정보를 추상화함으로써
      • 컨트롤러 개발을 단순화하고,
      • 빠른 컨트롤러를 더 쉽게 작성하며,
      • LLM 추론 및 제공 엔진 간의 호환성을 쉽게 만드는 것을 목표
  • AICI는 (최종적으로) 다중 테넌트 LLM 배포를 포함하여 로컬 및 클라우드 실행을 위해 설계됨
    • 컨트롤러는 GPU가 토큰 생성으로 바쁜 동안 CPU를 활용하여 LLM 추론 엔진과 동일한 시스템에서 실행되는 경량 WebAssembly(Wasm) 모듈로 구현
    • AICI는 추론 스택의 한 계층으로, Guidance, LMQL 등과 같은 제어 라이브러리가 그 위에서 실행되고 LLM 추론 및 서비스 엔진 전반에 걸친 이식성과 효율성 및 성능 향상을 모두 얻을 수 있도록 설계
  • AICI는
    • 유연함 : 컨트롤러는 Wasm으로 컴파일할 수 있는 모든 언어(Rust, C, C++, ...)로 작성되거나 Wasm 내에서 해석될 수 있음(Python, JavaScript, ...)
    • 보안 : 컨트롤러는 샌드박스 처리되어 파일 시스템, 네트워크 또는 기타 리소스에 액세스할 수 없음
    • 빠름 : Wasm 모듈은 네이티브 코드로 컴파일되고 LLM 추론 엔진과 병렬로 실행되어 생성 프로세스에 최소한의 오버헤드만 생성
  • Microsoft Research 에서 설계 및 제작된 프로토타입