두 가지 다른 방식의 빠른 LLM 추론 기법

(seangoedecke.com)

1P by GN⁺ 9시간전 | ★ favorite | 댓글 1개

Anthropic과 OpenAI가 각각 자사 최고 코딩 모델의 ‘fast mode’ 를 공개하며 추론 속도를 대폭 향상시킴
Anthropic은 Opus 4.6 모델을 그대로 사용하면서 배치 크기를 줄여 최대 2.5배 빠른 토큰 처리 속도를 제공
OpenAI는 Cerebras 칩 기반의 새로운 모델 GPT-5.3-Codex-Spark를 도입해 초당 1000토큰 이상을 생성하지만, 정확도는 낮은 편
두 접근법은 각각 저배치 추론과 초대형 칩 기반 인메모리 추론이라는 전혀 다른 기술적 원리를 사용
빠른 추론은 기술적으로 인상적이지만, 속도보다 정확성이 더 중요하다는 지적과 함께 경제성·활용성은 아직 불확실함

Anthropic의 Fast Mode 구조

Anthropic의 방식은 배치 크기를 줄여 지연 시간을 최소화하는 형태
- GPU의 주요 병목은 메모리 전송이며, 여러 사용자의 요청을 묶는 배칭은 처리량을 높이지만 대기 시간을 증가시킴
- Fast mode는 사용자가 요청하자마자 즉시 처리되는 ‘즉시 출발 버스’ 와 같음
이 방식은 6배 높은 비용으로 2.5배 빠른 속도를 제공
- 배치 대기 시간이 사라져 첫 토큰까지의 지연이 줄어듦
- 다만 GPU 전체 처리량은 감소함
일부 사용자는 첫 토큰 이후에는 대기 시간이 크지 않다고 지적했으며, 작은 배치의 효과는 연산량 감소로 인한 실행 속도 향상에 더 가까움

OpenAI의 Fast Mode 구조

OpenAI는 Cerebras 칩을 활용해 완전히 다른 접근을 취함
- 기존 모델 대신 GPT-5.3-Codex-Spark라는 경량화(distilled) 모델을 사용
- Spark는 원본보다 덜 정교하지만 15배 이상 빠른 추론 속도를 달성
Cerebras 칩은 70제곱인치 크기의 초대형 웨이퍼 스케일 칩으로, SRAM 44GB를 내장
- 모델 전체를 SRAM에 적재해 외부 메모리 접근 없이 인메모리 추론 수행
- GPU의 수십MB 수준 SRAM 대비 큰 차이를 보임
Spark 모델은 여러 Cerebras 칩에 샤딩(sharding) 되어 상주하는 것으로 추정되며, 이 구성이 속도 향상의 핵심 요인

기술적 비교와 평가

Anthropic은 기존 모델을 그대로 유지하면서 단순히 배치 정책을 조정
OpenAI는 새로운 하드웨어 아키텍처와 모델 설계를 결합해 더 근본적인 성능 향상을 달성
Cerebras 칩 위에서 모델을 구동하는 것은 복잡한 기술적 도전이며, Spark 모델의 학습 또한 쉽지 않은 작업
두 회사의 접근은 속도 향상이라는 동일 목표를 서로 다른 기술적 경로로 달성한 사례로, OpenAI의 방식이 기술적으로 더 인상적임

빠른 추론의 의미와 한계

두 회사의 발표가 이어지면서 ‘빠른 AI 추론’이 차세대 경쟁 축으로 보이지만, 실제로는 전략적 대응 성격이 강함
- Anthropic은 OpenAI의 발표에 맞춰 빠르게 대응한 것으로 보임
- OpenAI는 Cerebras 협력의 실험적 결과를 공개한 단계
빠르지만 덜 정교한 모델은 실제 활용도에서 한계가 있음
- 사용자는 모델의 오류를 처리하는 데 더 많은 시간을 소비하므로, 속도보다 정확성이 중요
다만 이러한 ‘저정확도·고속 추론’ 모델이 AI 시스템의 하위 구성요소로 활용될 가능성은 있음
- 예: Claude Code의 Haiku 사용 사례, OpenAI의 Spark 내재화 가능성

커뮤니티 논의와 추가 관찰

Hacker News에서는 배칭의 성능 특성과 칩 간 통신 병목에 대한 다양한 의견이 제시됨
- 일부는 연속 배칭(continuous batching) 으로 대기 시간이 거의 없다고 주장
- 다른 이들은 칩 간 연결이 추론 속도에 영향을 미친다고 반박
배치 크기와 지연 시간의 상충 관계는 여전히 존재함
Anthropic은 첫 토큰 지연이 여전히 느릴 수 있음을 명시했고, OpenAI는 웹소켓 기반 지속 연결로 이를 최소화하려 함
전체적으로 빠른 LLM 추론의 구조는 복잡하며 단순한 모델로 설명하기 어려움

▲

GN⁺ 9시간전 [-]

Hacker News 의견들

사람들이 Anthropic의 fast mode를 오해하고 있음. 이름 때문에 그런 듯함
실제로는 더 비용이 크고, 어려운 문제에서 더 똑똑하게 작동하는 방식임.
이 논문의 parallel distill and refine 접근이 정확히 들어맞음.
여러 경로를 병렬로 생성한 뒤 빠르게 증류(distill)하고 정제(refine)해서 결과를 내는 구조임.
이 방식은 토큰을 더 많이 소모하지만, 더 빠르고 더 똑똑한 출력을 가능하게 함
speculative decoding은 품질 향상과는 무관하며, 단순 배칭(batch)은 속도를 높이지만 비용은 낮음
Gemini Deepthink과 GPT-5.2-pro도 비슷한 병렬 추론을 하지만, 전체 경로를 끝까지 계산한 뒤 결과를 정제함
- Anthropic의 공식 문서에 따르면 fast mode는 Opus 4.6 모델 그대로이며, 단지 API 설정만 달라 속도를 우선시함. 품질은 동일함
Cerebras 칩의 44GB SRAM으로 모델 전체를 메모리에 올려 추론하는 아이디어가 흥미로움
GPT-5.3-Codex-Spark의 크기는 단일 칩 메모리보다, 연결 가능한 칩 수로 제한됨
Cerebras는 40B보다 큰 모델도 더 빠르게 지원하므로, Spark는 GLM 4.7(355B 파라미터, 32B 활성)에 가까울 가능성이 높음
Cerebras 가격 페이지 참고
- 모델을 샤딩하면 속도가 매우 느려짐. wafer-scale 칩의 장점은 온칩 메모리 대역폭인데, 이를 포기하면 의미가 없음
  Groq, TPU, Nvidia 솔루션이 전력 효율 측면에서는 더 나음
- Cerebras가 40B보다 큰 모델을 더 빠르게 돌릴 수 있다는 점에서, 원글의 주장은 신뢰하기 어려움
- 칩을 직렬로 연결하면 지연(latency) 만 늘어나고, 처리량(throughput) 은 줄지 않음
- Groq 칩처럼 SRAM이 작아도 대규모 모델을 돌릴 수 있음. 따라서 칩 연결이 곧 속도 저하로 이어지진 않음
Anthropic은 fast 요청을 최신 하드웨어로 라우팅할 가능성이 높음
TPU, GPU 등 다양한 세대의 장비를 운영하며, fast 모드는 가장 빠른 장비에서만 처리될 것이라 추정함
- GB200의 메모리 대역폭이 H100보다 2.4배 빠름. 그래서 fast 모드는 단순히 하드웨어 차이일 가능성이 큼
  speculative decoding 같은 기법은 이미 쓰이고 있으므로, 배칭 개선 때문은 아닐 것이라 생각함
기사 마지막의 주장처럼, 속도보다 정확도가 중요하다는 말은 현재는 맞을 수 있음
하지만 OpenAI–Cerebras 협력으로 Codex-5.3 같은 대형 모델이 칩 위에서 직접 구동되면,
빠르고 정확한 모델이 가능해져 고객 응대 업무를 대체할 수준이 될 것이라 봄
- 다만 40GB SRAM으로 5~7TB급 모델을 돌리려면 수 메가와트급 전력이 필요함. Cerebras는 전력 소모가 매우 큼
  향후 LLM 전용 실리콘이 등장하면 훨씬 효율적인 시대가 올 것임
- 여전히 AI 생성 데이터로 학습 시 품질 저하 문제가 해결되지 않았다면, 모델 업데이트는 점점 어려워질 것임
배칭을 기다리게 하는 문제는 continuous batching으로 이미 해결됨
이 기술 덕분에 Claude Code가 저렴하게 제공될 수 있었음
관련 글
버스 비유는 좀 이상함. 실제로는 fast 모드가 배치의 더 큰 비중을 차지해 처리량을 높이는 방식임
Anthropic의 트래픽 규모를 보면 배치가 거의 즉시 채워질 것이라 예상함
ChatGPT가 메시지를 보내자마자 바로 응답하는 이유가 궁금함
배치를 기다리지 않아도 되는 건, 워낙 트래픽이 많거나, 입력을 WebSocket으로 GPU에 미리 스트리밍하기 때문일 수 있음
SRAM과 HBM의 차이를 혼동하는 경우가 많음
HBM은 DRAM 기반으로 용량은 크지만 느리고, SRAM은 훨씬 빠르지만 비쌈
Cerebras는 44GB의 거대한 SRAM을 한 칩에 통합해 극단적인 속도를 얻음
하지만 설계가 단순하지 않아 실제 성능은 여러 요인에 좌우됨
- Nvidia의 80GB HBM은 외부 메모리이고, Cerebras의 44GB는 내부 SRAM임
  OpenAI는 모델이 44GB에 맞게 설계했거나, 여러 칩을 체인 형태로 연결했을 가능성이 있음
실시간 음성 AI에서는 지연(latency)이 핵심임
사람은 800ms 이상의 대기 시간을 어색하게 느끼므로, LLM 추론에 쓸 수 있는 시간은 400~500ms 정도임
Sonnet 속도(80 tok/s)로는 한 문장도 어렵지만, Cerebras나 Groq 속도(1000 tok/s 이상)면 400토큰 이상 가능함
그래서 작은 모델을 도메인 특화로 튜닝하면 대형 모델보다 효율적일 수 있음
여러 개의 소형 에이전트를 조합하는 council 접근법이 속도와 품질을 모두 잡는 방법임
또한 speculative decoding으로 자주 쓰는 응답을 미리 예측해 TTS를 준비하면, 60%의 대화에서 200ms 이하 응답이 가능함
- OpenAI가 유일하게 음성 모델에 집중하는 주요 연구소라, 이 방향으로 더 발전할 것 같음

답변달기