# Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

> Clean Markdown view of GeekNews topic #28143. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28143](https://news.hada.io/topic?id=28143)
- GeekNews Markdown: [https://news.hada.io/topic/28143.md](https://news.hada.io/topic/28143.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-03T09:50:14+09:00
- Updated: 2026-04-03T09:50:14+09:00
- Original source: [lemonade-server.ai](https://lemonade-server.ai)
- Points: 11
- Comments: 1

## Summary

AMD가 지원하는 **오픈소스 로컬 AI 서버**입니다. GPU와 NPU를 자동으로 잡아주고, 텍스트·이미지·음성을 **하나의 API로 통합 제공**합니다. 백엔드가 **C++ 기반 약 2MB**로 가볍고, **OpenAI API 호환**이라 기존 앱에 바로 연결할 수 있는 점이 매력적입니다. 위에서 소개한 Apple의 apfel이 macOS 전용이라면, 이쪽은 **Windows·Linux·macOS를 모두 커버**하고요. 내장 GUI로 모델 다운로드와 전환도 간편해서, Ollama 대안을 찾는 분이라면 한번 살펴볼 만합니다.

## Topic Body

- **AMD 지원 로컬 AI 서버**로, GPU와 NPU를 활용해 **텍스트·이미지·음성**을 빠르게 처리하는 **오픈소스 플랫폼**
- **로컬 실행과 개인정보 보호**를 중시하며, **OpenAI API 표준**과 호환되어 다양한 앱과 즉시 연동 가능
- **C++ 기반 경량 백엔드**와 **자동 하드웨어 설정**, **멀티 모델 동시 실행**으로 실용적 로컬 AI 환경 제공
- **Chat, Vision, Image Generation, Transcription, Speech Generation**을 하나의 **통합 API**로 지원
- **Windows, Linux, macOS(beta)** 에서 동일한 환경을 제공하며, 내장 **GUI**로 모델 다운로드와 전환이 간편함

---

### 핵심 특징
- ## 오픈소스 및 로컬 중심 설계
  - **로컬 AI는 자유롭고, 개방적이며, 빠르고, 개인적이어야 한다**는 철학을 기반으로 개발
  - **로컬 AI 커뮤니티**가 주도적으로 구축했으며, 모든 PC에서 실행 가능
  - **개인정보 보호**와 **독립적 실행 환경**을 중시
- ## 빠른 설치 및 경량 구조
  - **One Minute Install**로 전체 스택을 자동 설정
  - **C++ 네이티브 백엔드**는 약 2MB 크기의 경량 서비스
  - **자동 하드웨어 설정** 기능으로 GPU와 NPU 환경을 자동 구성
- ## 광범위한 호환성
  - **OpenAI API 호환성**으로 수백 개의 앱과 즉시 연동
  - **llama.cpp**, **Ryzen AI SW**, **FastFlowLM** 등 다양한 추론 엔진 지원
  - **멀티 모델 동시 실행**이 가능해 여러 모델을 병렬로 구동
- ## 통합 API 제공
  - 하나의 로컬 서비스로 **Chat**, **Vision**, **Image Generation**, **Transcription**, **Speech Generation**을 모두 지원
  - 표준 REST API 형태로 제공되며, 예시로 `POST /api/v1/chat/completions` 엔드포인트를 통해 대화형 모델 호출 가능
  - 예시 요청에서는 `"model": "Qwen3-0.6B-GGUF"`를 사용해 파리 인구를 질의
- ## 사용자 인터페이스 및 생태계
  - 내장 **GUI 앱**으로 모델 다운로드, 테스트, 전환을 빠르게 수행
  - **OpenAI API 표준** 기반으로 다양한 앱과 즉시 호환
  - **커뮤니티 참여**를 통한 지속적 개선과 기능 확장

### 기술 사양 및 사용 예시
- ## 하드웨어 및 성능
  - **128GB 통합 RAM** 환경에서는 **gpt-oss-120b**, **Qwen-Coder-Next** 등 대형 모델 실행 가능
  - `--no-mmap` 옵션으로 **로드 시간 단축** 및 **컨텍스트 크기 확장(64 이상)** 가능
- ## 이미지 및 음성 기능
  - 이미지 생성 예시: **“르네상스 화풍의 레모네이드 피처”**
  - 음성 예시: “Hello, I am your AI assistant. What can I do for you today?”

### 최신 릴리스
- **Lemonade**는 지속적으로 개선 중이며, 최신 기능과 성능 향상을 릴리스 스트림을 통해 제공
- 새로운 기능과 하이라이트는 공식 사이트에서 확인 가능

## Comments


### Comment 54524

- Author: neo
- Created: 2026-04-03T09:50:14+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47612724) 
- 거의 1년째 **Lemonade**를 사용 중임. Strix Halo에서는 다른 툴 없이 이것만 씀. kyuz0의 [AMD Strix Halo Toolboxes](https://kyuz0.github.io/amd-strix-halo-toolboxes/)도 괜찮지만, Lemonade는 TTS, STT, 텍스트·이미지 생성, 이미지 편집까지 가능함. ROCm, Vulkan, CPU, GPU, NPU 등 다양한 백엔드를 지원하고 개발 속도도 **실용적이고 빠름**. AMD 하드웨어라면 강력히 추천함.  
  OpenAI 및 Ollama 호환 엔드포인트 덕분에 VSCode Copilot이나 Open Web UI에서도 바로 쓸 수 있음
  - Qwen3.5-122B 모델을 Lemonade로 Strix Halo에서 돌리면, Vulkan 기반 llama.cpp 대비 **속도 향상**이 얼마나 될지 궁금함
  - 혹시 **agents나 Claw**와 함께 써본 적 있는지, 어떤 모델을 돌렸는지 궁금함

- 7900 XTX에서 로컬 LLM을 몇 달째 돌리고 있는데, **ROCm 경험이 꽤 거칠었음**. AMD가 공식 추론 서버를 내놓아 드라이버·의존성 문제를 해결해주는 건 큰 진전임. 다만 NPU 지원이 실제로 의미 있는 처리량을 내는지 궁금함. 내 테스트에서는 작은 모델 외에는 병목이었음
  - 어떤 점이 그렇게 힘들었는지 궁금함. 나는 RX 7900 XTX에서 Ollama로 로컬 모델을 돌리는데 ROCm 관련 문제는 거의 없었음. VRAM 24GB 제한만 아쉬움. 더 큰 VRAM을 위해 Radeon Pro로 갈아탈까 고민 중임
  - 커널 7.0.0에서 **Vulkan 성능이 ROCm보다 훨씬 좋았음**, 약 20% 이상 속도 향상됨
  - NPU는 배터리 사용 시 **전력 효율**을 위한 용도임. GPU 대체는 아님

- 이름이 ‘Lemonade’인 이유가 혹시 **레몬을 최대한 활용한다**는 의미인지 궁금함
  - “L-L-M” 발음이 “lemon”과 비슷해서, **LLM-aid → lemonade**라는 말장난 같음
  - 인생이 계속 레몬을 준다면, 차라리 **폭발하는 레몬**을 만들어야 함
  - 나는 로컬 추론용으로 **AMD 하드웨어만 사용함**. 오픈 드라이버, 전력 효율, 가격 면에서 소비자 입장에서는 Nvidia보다 낫다고 생각함
  - ‘Lemonsqueeze’라는 이름은 너무 폭력적이라 제외됐다고 함

- Lemonade는 Ollama와 LM Studio의 중간쯤에 위치한 느낌임. 단순 모델 서빙이 아니라 **통합 런타임**에 초점을 둔 점이 흥미로움. 텍스트, 이미지, 오디오 등 여러 모달리티를 한꺼번에 다루는 **오케스트레이션**이 핵심임. 실제로는 추상화인지, 여러 툴을 묶은 것인지 궁금함. AMD/NPU 최적화가 오히려 **이식성**을 떨어뜨릴지도 의문임
  - 여러 툴과 모델 선택, 관리 기능을 **번들링**함. CPU나 Vulkan 백엔드로 설치 가능하지만, 기본적으로 ROCm 빌드와 AMD NPU만 지원함. CUDA로 돌리려면 llama.cpp 버전을 오버라이드해야 해서 관리가 번거로움. AMD 머신에서 로컬 모델을 간단히 돌리려면 이게 제일 쉬움.  
    나는 NAS에서 홈 어시스턴트와 함께 돌리고 있음. Strix Halo 외에도 CUDA 카드 서버를 따로 관리 중임

- Lemonade가 사용하는 NPU 모델·커널은 **비공개**라 아쉬움. 오픈 지원이 더 늘어나면 좋겠음
  - 문서에는 “Hugging Face 모델을 Lemonade Server에 등록할 수 있다”고 되어 있음
  - NPU를 못 쓸 수도 있다는 걸 알고 장비를 샀지만, 그래도 이런 소식을 들으니 **짜증남**

- Lemonade의 진짜 강점은 **멀티모달 통합**임. 텍스트 생성, 이미지 생성, 음성 인식 등 각각 다른 API와 모델 관리가 필요한 세 서비스를 하나의 서버에서 OpenAI 호환 엔드포인트로 처리할 수 있음. 프로토타이핑 시 **품질 향상**이 큼.  
  NPU는 작은 상시 모델이나 prefill 오프로딩에는 유용하지만, 일반 챗봇에는 과대평가된 면이 있음.  
  AMD가 GPU+NPU 스케줄링을 투명하게 만들어 개발자가 하드웨어를 신경 쓰지 않아도 된다면, **기본 선택지**가 될 가능성이 큼

- Strix Halo에서 Lemonade를 돌리고 있음. diffusion, llama 등 여러 백엔드를 포함하지만, 나는 **llama.cpp ROCm 빌드**([링크](https://github.com/lemonade-sdk/llamacpp-rocm))만 사용함. 이미지나 오디오는 안 다룸. GPT OSS 120B 기준 초당 약 50토큰 속도임. NPU는 저전력 상시 모델용이라 일반 챗봇에는 큰 이점이 없음
  - 작은 NPU라도 prefill 계산 일부를 오프로딩할 수 있음. 다만 **디코딩 단계**에서는 메모리 대역폭과 내부 연산 지원 여부에 따라 다름. 예를 들어 Apple Neural Engine은 INT8/FP16 연산만 지원해서 큰 도움은 안 됨

- 웹사이트와 뉴스 공지를 읽었지만 Lemonade가 정확히 뭔지 헷갈림. LM Studio 대체인지, Mac의 MLX나 Metal을 지원하는지도 궁금함. AMD 최적화가 중심이라면, 다른 GPU에서는 **불리한지** 알고 싶음
  - GitHub [로드맵](https://github.com/lemonade-sdk/lemonade?tab=readme-ov-file#...)에 따르면 macOS 베타는 완료, MLX 지원은 개발 중임
  - 로컬 AI 스택을 쉽게 설치·유지할 수 있는 **원스톱 솔루션**임. STT, TTS, 이미지 생성, LLM 엔드포인트를 한 번에 제공하고 자체 WebUI도 있음. OpenAI, Ollama, Anthropic 호환 엔드포인트도 지원함
  - LM Studio처럼 여러 런타임을 추상화하지만, AMD의 **FastFlowML 런타임**을 통해 Ryzen AI CPU의 NPU를 리눅스에서 활용할 수 있음
  - LM Studio는 실제 LLM 실행을 다른 소프트웨어에 맡기는데, 그 소프트웨어가 NPU를 지원하지 않으면 성능이 떨어짐. Lemonade는 그런 **백엔드 역할**을 하는 것으로 보임

- Linux용 서버 설치 가이드에 Docker/Podman 옵션이 없는 게 의외임. Snap/PPA, RPM만 있음. 아마 컨테이너 사용자들은 직접 빌드하라는 뜻일지도 모름
  - 실제로는 [Docker 설치 옵션](https://lemonade-server.ai/install_options.html#docker)이 있음. 릴리스 페이지에 추가되면 좋겠음

- Ollama와 비교한 사람 있는지 궁금함. 나는 ROCm 7.4에서 9070 XT로 Ollama를 잘 쓰고 있음
  - Lemonade는 여러 API와 **AMD GPU·NPU 전용 빌드**를 지원함. AMD가 직접 운영함. 내부적으로는 둘 다 llama.cpp 기반이지만, Lemonade는 GPU별로 최적화된 빌드를 가짐
  - MacBook M1 Max(64GB RAM)에서 qwen3.59b 모델로 테스트했을 때, Ollama는 1분44초, Lemonade는 1분14초로 **Lemonade가 더 빠름**
  - 나도 vLLM과의 비교가 궁금함
  - 현재 Ollama를 쓰고 있지만, Lemonade와의 **성능 차이**가 궁금함
  - Vulkan보다 나은지도 알고 싶음