Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

(lemonade-server.ai)

11P by GN⁺ 2달전 | ★ favorite | 댓글 1개

AMD 지원 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 빠르게 처리하는 오픈소스 플랫폼
로컬 실행과 개인정보 보호를 중시하며, OpenAI API 표준과 호환되어 다양한 앱과 즉시 연동 가능
C++ 기반 경량 백엔드와 자동 하드웨어 설정, 멀티 모델 동시 실행으로 실용적 로컬 AI 환경 제공
Chat, Vision, Image Generation, Transcription, Speech Generation을 하나의 통합 API로 지원
Windows, Linux, macOS(beta) 에서 동일한 환경을 제공하며, 내장 GUI로 모델 다운로드와 전환이 간편함

핵심 특징

오픈소스 및 로컬 중심 설계
- 로컬 AI는 자유롭고, 개방적이며, 빠르고, 개인적이어야 한다는 철학을 기반으로 개발
- 로컬 AI 커뮤니티가 주도적으로 구축했으며, 모든 PC에서 실행 가능
- 개인정보 보호와 독립적 실행 환경을 중시
빠른 설치 및 경량 구조
- One Minute Install로 전체 스택을 자동 설정
- C++ 네이티브 백엔드는 약 2MB 크기의 경량 서비스
- 자동 하드웨어 설정 기능으로 GPU와 NPU 환경을 자동 구성
광범위한 호환성
- OpenAI API 호환성으로 수백 개의 앱과 즉시 연동
- llama.cpp, Ryzen AI SW, FastFlowLM 등 다양한 추론 엔진 지원
- 멀티 모델 동시 실행이 가능해 여러 모델을 병렬로 구동
통합 API 제공
- 하나의 로컬 서비스로 Chat, Vision, Image Generation, Transcription, Speech Generation을 모두 지원
- 표준 REST API 형태로 제공되며, 예시로 POST /api/v1/chat/completions 엔드포인트를 통해 대화형 모델 호출 가능
- 예시 요청에서는 "model": "Qwen3-0.6B-GGUF"를 사용해 파리 인구를 질의
사용자 인터페이스 및 생태계
- 내장 GUI 앱으로 모델 다운로드, 테스트, 전환을 빠르게 수행
- OpenAI API 표준 기반으로 다양한 앱과 즉시 호환
- 커뮤니티 참여를 통한 지속적 개선과 기능 확장

기술 사양 및 사용 예시

하드웨어 및 성능
- 128GB 통합 RAM 환경에서는 gpt-oss-120b, Qwen-Coder-Next 등 대형 모델 실행 가능
- --no-mmap 옵션으로 로드 시간 단축 및 컨텍스트 크기 확장(64 이상) 가능
이미지 및 음성 기능
- 이미지 생성 예시: “르네상스 화풍의 레모네이드 피처”
- 음성 예시: “Hello, I am your AI assistant. What can I do for you today?”

최신 릴리스

Lemonade는 지속적으로 개선 중이며, 최신 기능과 성능 향상을 릴리스 스트림을 통해 제공
새로운 기능과 하이라이트는 공식 사이트에서 확인 가능

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

거의 1년째 Lemonade를 사용 중임. Strix Halo에서는 다른 툴 없이 이것만 씀. kyuz0의 AMD Strix Halo Toolboxes도 괜찮지만, Lemonade는 TTS, STT, 텍스트·이미지 생성, 이미지 편집까지 가능함. ROCm, Vulkan, CPU, GPU, NPU 등 다양한 백엔드를 지원하고 개발 속도도 실용적이고 빠름. AMD 하드웨어라면 강력히 추천함.
OpenAI 및 Ollama 호환 엔드포인트 덕분에 VSCode Copilot이나 Open Web UI에서도 바로 쓸 수 있음
- Qwen3.5-122B 모델을 Lemonade로 Strix Halo에서 돌리면, Vulkan 기반 llama.cpp 대비 속도 향상이 얼마나 될지 궁금함
- 혹시 agents나 Claw와 함께 써본 적 있는지, 어떤 모델을 돌렸는지 궁금함
7900 XTX에서 로컬 LLM을 몇 달째 돌리고 있는데, ROCm 경험이 꽤 거칠었음. AMD가 공식 추론 서버를 내놓아 드라이버·의존성 문제를 해결해주는 건 큰 진전임. 다만 NPU 지원이 실제로 의미 있는 처리량을 내는지 궁금함. 내 테스트에서는 작은 모델 외에는 병목이었음
- 어떤 점이 그렇게 힘들었는지 궁금함. 나는 RX 7900 XTX에서 Ollama로 로컬 모델을 돌리는데 ROCm 관련 문제는 거의 없었음. VRAM 24GB 제한만 아쉬움. 더 큰 VRAM을 위해 Radeon Pro로 갈아탈까 고민 중임
- 커널 7.0.0에서 Vulkan 성능이 ROCm보다 훨씬 좋았음, 약 20% 이상 속도 향상됨
- NPU는 배터리 사용 시 전력 효율을 위한 용도임. GPU 대체는 아님
이름이 ‘Lemonade’인 이유가 혹시 레몬을 최대한 활용한다는 의미인지 궁금함
- “L-L-M” 발음이 “lemon”과 비슷해서, LLM-aid → lemonade라는 말장난 같음
- 인생이 계속 레몬을 준다면, 차라리 폭발하는 레몬을 만들어야 함
- 나는 로컬 추론용으로 AMD 하드웨어만 사용함. 오픈 드라이버, 전력 효율, 가격 면에서 소비자 입장에서는 Nvidia보다 낫다고 생각함
- ‘Lemonsqueeze’라는 이름은 너무 폭력적이라 제외됐다고 함
Lemonade는 Ollama와 LM Studio의 중간쯤에 위치한 느낌임. 단순 모델 서빙이 아니라 통합 런타임에 초점을 둔 점이 흥미로움. 텍스트, 이미지, 오디오 등 여러 모달리티를 한꺼번에 다루는 오케스트레이션이 핵심임. 실제로는 추상화인지, 여러 툴을 묶은 것인지 궁금함. AMD/NPU 최적화가 오히려 이식성을 떨어뜨릴지도 의문임
- 여러 툴과 모델 선택, 관리 기능을 번들링함. CPU나 Vulkan 백엔드로 설치 가능하지만, 기본적으로 ROCm 빌드와 AMD NPU만 지원함. CUDA로 돌리려면 llama.cpp 버전을 오버라이드해야 해서 관리가 번거로움. AMD 머신에서 로컬 모델을 간단히 돌리려면 이게 제일 쉬움.
  나는 NAS에서 홈 어시스턴트와 함께 돌리고 있음. Strix Halo 외에도 CUDA 카드 서버를 따로 관리 중임
Lemonade가 사용하는 NPU 모델·커널은 비공개라 아쉬움. 오픈 지원이 더 늘어나면 좋겠음
- 문서에는 “Hugging Face 모델을 Lemonade Server에 등록할 수 있다”고 되어 있음
- NPU를 못 쓸 수도 있다는 걸 알고 장비를 샀지만, 그래도 이런 소식을 들으니 짜증남
Lemonade의 진짜 강점은 멀티모달 통합임. 텍스트 생성, 이미지 생성, 음성 인식 등 각각 다른 API와 모델 관리가 필요한 세 서비스를 하나의 서버에서 OpenAI 호환 엔드포인트로 처리할 수 있음. 프로토타이핑 시 품질 향상이 큼.
NPU는 작은 상시 모델이나 prefill 오프로딩에는 유용하지만, 일반 챗봇에는 과대평가된 면이 있음.
AMD가 GPU+NPU 스케줄링을 투명하게 만들어 개발자가 하드웨어를 신경 쓰지 않아도 된다면, 기본 선택지가 될 가능성이 큼
Strix Halo에서 Lemonade를 돌리고 있음. diffusion, llama 등 여러 백엔드를 포함하지만, 나는 llama.cpp ROCm 빌드(링크)만 사용함. 이미지나 오디오는 안 다룸. GPT OSS 120B 기준 초당 약 50토큰 속도임. NPU는 저전력 상시 모델용이라 일반 챗봇에는 큰 이점이 없음
- 작은 NPU라도 prefill 계산 일부를 오프로딩할 수 있음. 다만 디코딩 단계에서는 메모리 대역폭과 내부 연산 지원 여부에 따라 다름. 예를 들어 Apple Neural Engine은 INT8/FP16 연산만 지원해서 큰 도움은 안 됨
웹사이트와 뉴스 공지를 읽었지만 Lemonade가 정확히 뭔지 헷갈림. LM Studio 대체인지, Mac의 MLX나 Metal을 지원하는지도 궁금함. AMD 최적화가 중심이라면, 다른 GPU에서는 불리한지 알고 싶음
- GitHub 로드맵에 따르면 macOS 베타는 완료, MLX 지원은 개발 중임
- 로컬 AI 스택을 쉽게 설치·유지할 수 있는 원스톱 솔루션임. STT, TTS, 이미지 생성, LLM 엔드포인트를 한 번에 제공하고 자체 WebUI도 있음. OpenAI, Ollama, Anthropic 호환 엔드포인트도 지원함
- LM Studio처럼 여러 런타임을 추상화하지만, AMD의 FastFlowML 런타임을 통해 Ryzen AI CPU의 NPU를 리눅스에서 활용할 수 있음
- LM Studio는 실제 LLM 실행을 다른 소프트웨어에 맡기는데, 그 소프트웨어가 NPU를 지원하지 않으면 성능이 떨어짐. Lemonade는 그런 백엔드 역할을 하는 것으로 보임
Linux용 서버 설치 가이드에 Docker/Podman 옵션이 없는 게 의외임. Snap/PPA, RPM만 있음. 아마 컨테이너 사용자들은 직접 빌드하라는 뜻일지도 모름
- 실제로는 Docker 설치 옵션이 있음. 릴리스 페이지에 추가되면 좋겠음
Ollama와 비교한 사람 있는지 궁금함. 나는 ROCm 7.4에서 9070 XT로 Ollama를 잘 쓰고 있음
- Lemonade는 여러 API와 AMD GPU·NPU 전용 빌드를 지원함. AMD가 직접 운영함. 내부적으로는 둘 다 llama.cpp 기반이지만, Lemonade는 GPU별로 최적화된 빌드를 가짐
- MacBook M1 Max(64GB RAM)에서 qwen3.59b 모델로 테스트했을 때, Ollama는 1분44초, Lemonade는 1분14초로 Lemonade가 더 빠름
- 나도 vLLM과의 비교가 궁금함
- 현재 Ollama를 쓰고 있지만, Lemonade와의 성능 차이가 궁금함
- Vulkan보다 나은지도 알고 싶음

답변달기

Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

핵심 특징

오픈소스 및 로컬 중심 설계

빠른 설치 및 경량 구조

광범위한 호환성

통합 API 제공

사용자 인터페이스 및 생태계

기술 사양 및 사용 예시

하드웨어 및 성능

이미지 및 음성 기능

최신 릴리스

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들