1P by GN⁺ 18시간전 | ★ favorite | 댓글 1개
  • LLM 추론 핸드북은 실제 프로덕션 환경에서 LLM 추론에 필요한 핵심 개념과 최적화 기법을 종합적으로 안내함
  • 성능 지표(예: Time to First Token, Tokens per Second)와 운영 모범 사례 등 실무에 필수적인 정보 제공
  • 지속적 배치, 프리픽스 캐싱 등 최신 최적화 방법을 상세하게 설명함
  • 흩어져 있던 LLM 추론 지식을 한 곳에 정리하여 개발자의 이해와 활용성을 높임
  • 핸드북은 최신 현장 정보와 실증된 방법론을 지속적으로 반영하여 업데이트함

LLM 추론 핸드북 소개

LLM Inference in Production기술 용어집, 가이드북, 그리고 참고서를 하나로 결합한 형태임
이 핸드북에서는 LLM 추론의 기본 개념, 성능 지표, 최적화 기법(지속적 배치, 프리픽스 캐싱 등), 운영 모범 사례 등 실무에 반드시 알아야 할 내용을 상세히 다룸

  • 프로덕션 환경에서의 LLM 배포, 확장, 운영 지침을 실제적으로 안내함
  • 비현실적인 예외나 불필요한 기술적 잡음을 배제하고, 현장에서 중요한 부분에 집중함
  • 각 사용 사례에 맞는 성능 향상 기법을 소개하여 퍼포먼스 개선에 실질적인 도움이 됨
  • 업계 최신 동향 및 실무에 검증된 인사이트를 지속적으로 업데이트함

집필 동기

개발자들은 LLM 추론에 관한 정보를 찾기 어렵거나 여러 곳에 산재되어 있어 지식의 파편화 문제를 겪음
핸드북 집필진은 논문, 벤더 블로그, GitHub 이슈, Discord 대화 등에 흩어져 있는 내용을 종합해,

  • LLM 학습과 추론의 차이
  • Goodput과 SLO 달성의 상관관계
  • Prefill-Decode 분리 기법의 실제 활용 등을 한 번에 이해할 수 있도록 정리함

대상 독자

이 핸드북은 프로덕션 환경에서 LLM을 배포, 확장, 운영하는 엔지니어를 위해 제작됨
소형 오픈모델의 파인튜닝부터 대규모 자체 인프라 운영까지,

  • LLM 추론을 더 빠르고, 저렴하며, 신뢰성 있게 만들려는 모든 이들을 주요 독자로 함

활용 방법

이 핸드북은 처음부터 끝까지 정독하거나, 참고서처럼 필요한 부분만 찾아볼 수 있는 구조
특정 진입 순서나 사용법은 없으며,

  • LLM 추론 분야의 빠른 변화에 발맞춰 최신 내용을 계속 추가/갱신할 예정임

기여 안내

오류 발견, 개선 제안, 새로운 토픽 추가를 환영함

  • 이슈 등록 또는 GitHub 저장소에 Pull Request 제출을 통해 누구나 참여할 수 있음
Hacker News 의견
  • 안녕하세요, 저는 이 프로젝트의 메인테이너 중 한 명임, Hacker News에 우리 프로젝트가 소개되어 기쁘고 영광스러운 마음임, 이 핸드북을 만든 이유는 실제 LLM 애플리케이션을 개발하는 개발자들도 LLM 추론 개념을 쉽게 접할 수 있도록 하기 위함임, 여러 곳에 흩어진 지식을 명확하고 실용적이며 확장성이 높게 모으고자 했음, 계속해서 더 나은 핸드북을 위해 개선할 예정이니 피드백을 적극적으로 받고 있음, GitHub 저장소도 참고해 주었으면 좋겠음
    • 이렇게 정리해줘서 정말 고마움, 하나 질문이 있는데, 이 그림에서 TTFT와 ITL을 정의하는 이미지를 보면, 모델이 T0부터 T3까지 4개의 토큰을 생성한 후에 하나의 출력 토큰을 내보내는 것으로 보임, 내 생각엔 이 그림은 ITL을 설명하는 데 더 적합해 보이고, TTFT의 경우에는 디코드 단계에서 T0 하나만 나와 바로 detokenization으로 첫 번째 출력 토큰이 도착해야 할 것 같음(스트리밍 환경이라면 TTFT 측정이 아니면 의미가 없기 때문)
    • 이슈를 따로 열 생각은 없지만, 핸드북의 셀프호스팅 부분에서 llama.cpp 같은 로컬 셀프호스팅 추론 오픈소스를 명확히 추천해줬으면 하는 바람임
    • 이 핸드북이 유용하고 잘 정리되어 있는 것 같아서 좋음, 하지만 너무 많은 작은 페이지로 쪼개져 있어서 모바일에서 목차를 기본적으로 보여주지 않아 읽기 불편함, 몇 페이지만 읽고 그만두게 되었음, 최소한 한 섹션씩만이라도 하나의 페이지로 보이게 해줬으면 함
    • 정말 멋진 작업이고, 예쁘게 잘 만들어져 있어서 유용함
  • 디자인도 정말 멋지고 궁금해서 물어봄, 웹사이트에 사용한 디자인 트렌드나 명칭이 무엇인지 알고 싶음, 이 사이트 디자인도 정말 마음에 들었음
    • Infima라는 기본 CSS 프레임워크를 쓰는 것 같음, 이건 Docusaurus의 디폴트 CSS 프레임워크이고, 시스템 폰트 스택을 그대로 활용한 것임, font-family는 -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif임
  • 앞으로 Structured outputs/Guided generation 및 샘플링에 대한 내용도 더 추가되었으면 좋겠음, 추론 단계에서의 샘플링 관련 알고리즘을 소개하는 추가적인 레퍼런스로는 여기도 참고할 만함
    • 와, 이 샘플링 정리 자료도 정말 자세함
  • 이런 핸드북이 나온 것이 무척 기쁨, 공개된 자료에서 모델 학습에 대한 관심과 흥분이 많은 건 이해가 되지만, 실제로 모델을 잘 운영하는 것도 매우 중요함, 앞으로 다양한 애플리케이션에 폭넓게 도입하려면 실행과 운영에 대한 지식이 점점 더 필요해질 것임
  • 이렇게 모아서 정리해줘서 고마움, 앞으로는 이 한 링크만 공유하면 관심 있는 사람이 배울 수 있을 것 같음, 한 가지 제안을 하자면, "OpenAI-compatible API" 페이지에서 OpenAI 패키지 없이 순수 REST 콜 방식 예제도 추가해주면 좋겠음
  • BentoML에 대해 기억나는 건 원래 MLOps 관련이었던 것 같은데, 1년 전에 써본 기억이 있음, 혹시 회사가 축을 전환한 것인지 궁금함
    • LLM 서빙 쪽이 시장에서 큰 비중을 차지하고 있어서, 서빙 프레임워크라면 이 영역으로 확장하는 게 당연한 흐름임
  • 너무 좋은 참고서임, 이렇게 잘 정리해줘서 고마움