# LLM 추론 핸드북

> Clean Markdown view of GeekNews topic #21941. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21941](https://news.hada.io/topic?id=21941)
- GeekNews Markdown: [https://news.hada.io/topic/21941.md](https://news.hada.io/topic/21941.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-07-12T10:05:57+09:00
- Updated: 2025-07-12T10:05:57+09:00
- Original source: [bentoml.com](https://bentoml.com/llm/)
- Points: 3
- Comments: 1

## Topic Body

- **LLM 추론 핸드북**은 실제 프로덕션 환경에서 LLM 추론에 필요한 **핵심 개념과 최적화 기법**을 종합적으로 안내함
- **성능 지표**(예: Time to First Token, Tokens per Second)와 **운영 모범 사례** 등 실무에 필수적인 정보 제공
- **지속적 배치, 프리픽스 캐싱** 등 최신 **최적화 방법**을 상세하게 설명함
- **흩어져 있던 LLM 추론 지식**을 한 곳에 정리하여 개발자의 이해와 활용성을 높임
- 핸드북은 **최신 현장 정보와 실증된 방법론**을 지속적으로 반영하여 업데이트함

---

### LLM 추론 핸드북 소개

*LLM Inference in Production*은 **기술 용어집, 가이드북, 그리고 참고서**를 하나로 결합한 형태임  
이 핸드북에서는 **LLM 추론의 기본 개념, 성능 지표, 최적화 기법(지속적 배치, 프리픽스 캐싱 등), 운영 모범 사례** 등 실무에 반드시 알아야 할 내용을 상세히 다룸

- 프로덕션 환경에서의 **LLM 배포, 확장, 운영 지침**을 실제적으로 안내함
- 비현실적인 예외나 불필요한 기술적 잡음을 배제하고, **현장에서 중요한 부분**에 집중함
- **각 사용 사례에 맞는 성능 향상 기법**을 소개하여 퍼포먼스 개선에 실질적인 도움이 됨
- 업계 최신 동향 및 **실무에 검증된 인사이트**를 지속적으로 업데이트함

### 집필 동기

개발자들은 LLM 추론에 관한 정보를 찾기 어렵거나 여러 곳에 산재되어 있어 **지식의 파편화 문제**를 겪음  
핸드북 집필진은 논문, 벤더 블로그, GitHub 이슈, Discord 대화 등에 흩어져 있는 내용을 종합해,  
- **LLM 학습과 추론의 차이**
- **Goodput과 SLO 달성의 상관관계**
- **Prefill-Decode 분리 기법의 실제 활용**
등을 한 번에 이해할 수 있도록 정리함

### 대상 독자

이 핸드북은 **프로덕션 환경에서 LLM을 배포, 확장, 운영하는 엔지니어**를 위해 제작됨  
소형 오픈모델의 파인튜닝부터 대규모 자체 인프라 운영까지,  
- LLM 추론을 **더 빠르고, 저렴하며, 신뢰성 있게** 만들려는 모든 이들을 주요 독자로 함

### 활용 방법

이 핸드북은 처음부터 끝까지 정독하거나, **참고서처럼 필요한 부분만 찾아볼 수 있는 구조**임  
특정 진입 순서나 사용법은 없으며,  
- **LLM 추론 분야의 빠른 변화**에 발맞춰 최신 내용을 계속 추가/갱신할 예정임

### 기여 안내

오류 발견, 개선 제안, 새로운 토픽 추가를 환영함  
- 이슈 등록 또는 **GitHub 저장소에 Pull Request 제출**을 통해 누구나 참여할 수 있음

## Comments



### Comment 41292

- Author: neo
- Created: 2025-07-12T10:05:57+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44527947) 
* 안녕하세요, 저는 이 프로젝트의 메인테이너 중 한 명임, Hacker News에 우리 프로젝트가 소개되어 기쁘고 영광스러운 마음임, 이 핸드북을 만든 이유는 실제 LLM 애플리케이션을 개발하는 개발자들도 LLM 추론 개념을 쉽게 접할 수 있도록 하기 위함임, 여러 곳에 흩어진 지식을 명확하고 실용적이며 확장성이 높게 모으고자 했음, 계속해서 더 나은 핸드북을 위해 개선할 예정이니 피드백을 적극적으로 받고 있음, [GitHub 저장소](https://github.com/bentoml/llm-inference-in-production)도 참고해 주었으면 좋겠음
  * 이렇게 정리해줘서 정말 고마움, 하나 질문이 있는데, [이 그림](https://github.com/bentoml/llm-inference-in-production/blob/main/docs/llm-inference-basics/img/llm-inference-flow.png)에서 TTFT와 ITL을 정의하는 이미지를 보면, 모델이 T0부터 T3까지 4개의 토큰을 생성한 후에 하나의 출력 토큰을 내보내는 것으로 보임, 내 생각엔 이 그림은 ITL을 설명하는 데 더 적합해 보이고, TTFT의 경우에는 디코드 단계에서 T0 하나만 나와 바로 detokenization으로 첫 번째 출력 토큰이 도착해야 할 것 같음(스트리밍 환경이라면 TTFT 측정이 아니면 의미가 없기 때문)
  * 이슈를 따로 열 생각은 없지만, 핸드북의 셀프호스팅 부분에서 llama.cpp 같은 로컬 셀프호스팅 추론 오픈소스를 명확히 추천해줬으면 하는 바람임
  * 이 핸드북이 유용하고 잘 정리되어 있는 것 같아서 좋음, 하지만 너무 많은 작은 페이지로 쪼개져 있어서 모바일에서 목차를 기본적으로 보여주지 않아 읽기 불편함, 몇 페이지만 읽고 그만두게 되었음, 최소한 한 섹션씩만이라도 하나의 페이지로 보이게 해줬으면 함
  * 정말 멋진 작업이고, 예쁘게 잘 만들어져 있어서 유용함
* 디자인도 정말 멋지고 궁금해서 물어봄, 웹사이트에 사용한 디자인 트렌드나 명칭이 무엇인지 알고 싶음, 이 사이트 디자인도 정말 마음에 들었음
  * Infima라는 기본 CSS 프레임워크를 쓰는 것 같음, 이건 Docusaurus의 디폴트 CSS 프레임워크이고, 시스템 폰트 스택을 그대로 활용한 것임, font-family는 -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif임
* 앞으로 Structured outputs/Guided generation 및 샘플링에 대한 내용도 더 추가되었으면 좋겠음, 추론 단계에서의 샘플링 관련 알고리즘을 소개하는 추가적인 레퍼런스로는 [여기](https://rentry.co/samplers)도 참고할 만함
  * 와, 이 샘플링 정리 자료도 정말 자세함
* 이런 핸드북이 나온 것이 무척 기쁨, 공개된 자료에서 모델 학습에 대한 관심과 흥분이 많은 건 이해가 되지만, 실제로 모델을 잘 운영하는 것도 매우 중요함, 앞으로 다양한 애플리케이션에 폭넓게 도입하려면 실행과 운영에 대한 지식이 점점 더 필요해질 것임
* 이렇게 모아서 정리해줘서 고마움, 앞으로는 이 한 링크만 공유하면 관심 있는 사람이 배울 수 있을 것 같음, 한 가지 제안을 하자면, "OpenAI-compatible API" 페이지에서 OpenAI 패키지 없이 순수 REST 콜 방식 예제도 추가해주면 좋겠음
* BentoML에 대해 기억나는 건 원래 MLOps 관련이었던 것 같은데, 1년 전에 써본 기억이 있음, 혹시 회사가 축을 전환한 것인지 궁금함
  * LLM 서빙 쪽이 시장에서 큰 비중을 차지하고 있어서, 서빙 프레임워크라면 이 영역으로 확장하는 게 당연한 흐름임
* 너무 좋은 참고서임, 이렇게 잘 정리해줘서 고마움
