LiveKit Agents - OpenAI가 ChatGPT 고급 음성모드에 사용하는 오픈소스 프레임워크
(github.com/livekit)- Agent 프레임워크를 사용하면 실시간으로 보고, 듣고, 말할 수 있는 AI 기반 서버 프로그램을 구축할 수 있음
- 사용자의 기기와 LiveKit 세션을 통해 연결되며, 텍스트, 오디오, 이미지, 비디오 스트리밍을 처리하고 AI 모델이 생성한 결과를 사용자에게 스트리밍함
- OpenAI와 협업해서 MultimodalAgent API 를 제공
- OpenAI의 Realtime API를 완전히 래핑해서 Raw Wire 프로토콜을 추상화하고, GPT-4o와 기기간 초저지연 WebRTC 전송을 제공
- ChatGPT 앱의 Advanced Voice 기능에서 사용하는 기술 스택임
- 제공 기능
- 유명 LLM, 전사 및 텍스트 음성 변환 서비스, RAG 데이터베이스를 위한 플러그인
- 자동 턴 감지, 중단 처리, 함수 호출 및 전사 기능을 갖춘 음성 에이전트 또는 어시스턴트를 구축하기 위한 높은 수준의 추상화 제공
- LiveKit의 텔레포니 스택과 호환되어 상담원이 전화로 전화를 걸거나 받을 수 있음
- 엣지 기반 디스패치, 모니터링, 투명한 장애 조치로 에이전트 풀을 관리하는 통합 로드 밸런싱 시스템
- 에이전트 실행은 로컬 호스트, 자체 호스팅 및 LiveKit Cloud 환경 모두에서 동일하게 이루어짐
LiveKit 은 제가 2021년에 한번 공유한 적이 있는데요. Agents 기능으로 확장하면서 ChatGPT에도 쓰였나 보네요.
원래는 10~1000 명 단위의 실시간 오디오/비디오 회의 기능을 위한 제품입니다.
ClubHouse가 사용하던 Agora의 오픈소스 대체제가 될 수 있어서 그 당시 꽤 주목을 받았습니다.
그리고 찾아보니, Agora도 Conversational AI SDK 라는 이름으로 똑같은 기능을 제공하고 있네요
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/