두 가지 다른 방식의 빠른 LLM 추론 기법
(seangoedecke.com)- Anthropic과 OpenAI가 각각 자사 최고 코딩 모델의 ‘fast mode’ 를 공개하며 추론 속도를 대폭 향상시킴
- Anthropic은 Opus 4.6 모델을 그대로 사용하면서 배치 크기를 줄여 최대 2.5배 빠른 토큰 처리 속도를 제공
- OpenAI는 Cerebras 칩 기반의 새로운 모델 GPT-5.3-Codex-Spark를 도입해 초당 1000토큰 이상을 생성하지만, 정확도는 낮은 편
- 두 접근법은 각각 저배치 추론과 초대형 칩 기반 인메모리 추론이라는 전혀 다른 기술적 원리를 사용
- 빠른 추론은 기술적으로 인상적이지만, 속도보다 정확성이 더 중요하다는 지적과 함께 경제성·활용성은 아직 불확실함
Anthropic의 Fast Mode 구조
- Anthropic의 방식은 배치 크기를 줄여 지연 시간을 최소화하는 형태
- GPU의 주요 병목은 메모리 전송이며, 여러 사용자의 요청을 묶는 배칭은 처리량을 높이지만 대기 시간을 증가시킴
- Fast mode는 사용자가 요청하자마자 즉시 처리되는 ‘즉시 출발 버스’ 와 같음
- 이 방식은 6배 높은 비용으로 2.5배 빠른 속도를 제공
- 배치 대기 시간이 사라져 첫 토큰까지의 지연이 줄어듦
- 다만 GPU 전체 처리량은 감소함
- 일부 사용자는 첫 토큰 이후에는 대기 시간이 크지 않다고 지적했으며, 작은 배치의 효과는 연산량 감소로 인한 실행 속도 향상에 더 가까움
OpenAI의 Fast Mode 구조
- OpenAI는 Cerebras 칩을 활용해 완전히 다른 접근을 취함
- 기존 모델 대신 GPT-5.3-Codex-Spark라는 경량화(distilled) 모델을 사용
- Spark는 원본보다 덜 정교하지만 15배 이상 빠른 추론 속도를 달성
- Cerebras 칩은 70제곱인치 크기의 초대형 웨이퍼 스케일 칩으로, SRAM 44GB를 내장
- 모델 전체를 SRAM에 적재해 외부 메모리 접근 없이 인메모리 추론 수행
- GPU의 수십MB 수준 SRAM 대비 큰 차이를 보임
- Spark 모델은 여러 Cerebras 칩에 샤딩(sharding) 되어 상주하는 것으로 추정되며, 이 구성이 속도 향상의 핵심 요인
기술적 비교와 평가
- Anthropic은 기존 모델을 그대로 유지하면서 단순히 배치 정책을 조정
- OpenAI는 새로운 하드웨어 아키텍처와 모델 설계를 결합해 더 근본적인 성능 향상을 달성
- Cerebras 칩 위에서 모델을 구동하는 것은 복잡한 기술적 도전이며, Spark 모델의 학습 또한 쉽지 않은 작업
- 두 회사의 접근은 속도 향상이라는 동일 목표를 서로 다른 기술적 경로로 달성한 사례로, OpenAI의 방식이 기술적으로 더 인상적임
빠른 추론의 의미와 한계
- 두 회사의 발표가 이어지면서 ‘빠른 AI 추론’이 차세대 경쟁 축으로 보이지만, 실제로는 전략적 대응 성격이 강함
- Anthropic은 OpenAI의 발표에 맞춰 빠르게 대응한 것으로 보임
- OpenAI는 Cerebras 협력의 실험적 결과를 공개한 단계
- 빠르지만 덜 정교한 모델은 실제 활용도에서 한계가 있음
- 사용자는 모델의 오류를 처리하는 데 더 많은 시간을 소비하므로, 속도보다 정확성이 중요
- 다만 이러한 ‘저정확도·고속 추론’ 모델이 AI 시스템의 하위 구성요소로 활용될 가능성은 있음
- 예: Claude Code의 Haiku 사용 사례, OpenAI의 Spark 내재화 가능성
커뮤니티 논의와 추가 관찰
- Hacker News에서는 배칭의 성능 특성과 칩 간 통신 병목에 대한 다양한 의견이 제시됨
- 일부는 연속 배칭(continuous batching) 으로 대기 시간이 거의 없다고 주장
- 다른 이들은 칩 간 연결이 추론 속도에 영향을 미친다고 반박
- 배치 크기와 지연 시간의 상충 관계는 여전히 존재함
- Anthropic은 첫 토큰 지연이 여전히 느릴 수 있음을 명시했고, OpenAI는 웹소켓 기반 지속 연결로 이를 최소화하려 함
- 전체적으로 빠른 LLM 추론의 구조는 복잡하며 단순한 모델로 설명하기 어려움
Hacker News 의견들
-
사람들이 Anthropic의 fast mode를 오해하고 있음. 이름 때문에 그런 듯함
실제로는 더 비용이 크고, 어려운 문제에서 더 똑똑하게 작동하는 방식임.
이 논문의 parallel distill and refine 접근이 정확히 들어맞음.
여러 경로를 병렬로 생성한 뒤 빠르게 증류(distill)하고 정제(refine)해서 결과를 내는 구조임.
이 방식은 토큰을 더 많이 소모하지만, 더 빠르고 더 똑똑한 출력을 가능하게 함
speculative decoding은 품질 향상과는 무관하며, 단순 배칭(batch)은 속도를 높이지만 비용은 낮음
Gemini Deepthink과 GPT-5.2-pro도 비슷한 병렬 추론을 하지만, 전체 경로를 끝까지 계산한 뒤 결과를 정제함- Anthropic의 공식 문서에 따르면 fast mode는 Opus 4.6 모델 그대로이며, 단지 API 설정만 달라 속도를 우선시함. 품질은 동일함
-
Cerebras 칩의 44GB SRAM으로 모델 전체를 메모리에 올려 추론하는 아이디어가 흥미로움
GPT-5.3-Codex-Spark의 크기는 단일 칩 메모리보다, 연결 가능한 칩 수로 제한됨
Cerebras는 40B보다 큰 모델도 더 빠르게 지원하므로, Spark는 GLM 4.7(355B 파라미터, 32B 활성)에 가까울 가능성이 높음
Cerebras 가격 페이지 참고- 모델을 샤딩하면 속도가 매우 느려짐. wafer-scale 칩의 장점은 온칩 메모리 대역폭인데, 이를 포기하면 의미가 없음
Groq, TPU, Nvidia 솔루션이 전력 효율 측면에서는 더 나음 - Cerebras가 40B보다 큰 모델을 더 빠르게 돌릴 수 있다는 점에서, 원글의 주장은 신뢰하기 어려움
- 칩을 직렬로 연결하면 지연(latency) 만 늘어나고, 처리량(throughput) 은 줄지 않음
- Groq 칩처럼 SRAM이 작아도 대규모 모델을 돌릴 수 있음. 따라서 칩 연결이 곧 속도 저하로 이어지진 않음
- 모델을 샤딩하면 속도가 매우 느려짐. wafer-scale 칩의 장점은 온칩 메모리 대역폭인데, 이를 포기하면 의미가 없음
-
Anthropic은 fast 요청을 최신 하드웨어로 라우팅할 가능성이 높음
TPU, GPU 등 다양한 세대의 장비를 운영하며, fast 모드는 가장 빠른 장비에서만 처리될 것이라 추정함- GB200의 메모리 대역폭이 H100보다 2.4배 빠름. 그래서 fast 모드는 단순히 하드웨어 차이일 가능성이 큼
speculative decoding 같은 기법은 이미 쓰이고 있으므로, 배칭 개선 때문은 아닐 것이라 생각함
- GB200의 메모리 대역폭이 H100보다 2.4배 빠름. 그래서 fast 모드는 단순히 하드웨어 차이일 가능성이 큼
-
기사 마지막의 주장처럼, 속도보다 정확도가 중요하다는 말은 현재는 맞을 수 있음
하지만 OpenAI–Cerebras 협력으로 Codex-5.3 같은 대형 모델이 칩 위에서 직접 구동되면,
빠르고 정확한 모델이 가능해져 고객 응대 업무를 대체할 수준이 될 것이라 봄- 다만 40GB SRAM으로 5~7TB급 모델을 돌리려면 수 메가와트급 전력이 필요함. Cerebras는 전력 소모가 매우 큼
향후 LLM 전용 실리콘이 등장하면 훨씬 효율적인 시대가 올 것임 - 여전히 AI 생성 데이터로 학습 시 품질 저하 문제가 해결되지 않았다면, 모델 업데이트는 점점 어려워질 것임
- 다만 40GB SRAM으로 5~7TB급 모델을 돌리려면 수 메가와트급 전력이 필요함. Cerebras는 전력 소모가 매우 큼
-
배칭을 기다리게 하는 문제는 continuous batching으로 이미 해결됨
이 기술 덕분에 Claude Code가 저렴하게 제공될 수 있었음
관련 글 -
버스 비유는 좀 이상함. 실제로는 fast 모드가 배치의 더 큰 비중을 차지해 처리량을 높이는 방식임
Anthropic의 트래픽 규모를 보면 배치가 거의 즉시 채워질 것이라 예상함 -
ChatGPT가 메시지를 보내자마자 바로 응답하는 이유가 궁금함
배치를 기다리지 않아도 되는 건, 워낙 트래픽이 많거나, 입력을 WebSocket으로 GPU에 미리 스트리밍하기 때문일 수 있음 -
SRAM과 HBM의 차이를 혼동하는 경우가 많음
HBM은 DRAM 기반으로 용량은 크지만 느리고, SRAM은 훨씬 빠르지만 비쌈
Cerebras는 44GB의 거대한 SRAM을 한 칩에 통합해 극단적인 속도를 얻음
하지만 설계가 단순하지 않아 실제 성능은 여러 요인에 좌우됨- Nvidia의 80GB HBM은 외부 메모리이고, Cerebras의 44GB는 내부 SRAM임
OpenAI는 모델이 44GB에 맞게 설계했거나, 여러 칩을 체인 형태로 연결했을 가능성이 있음
- Nvidia의 80GB HBM은 외부 메모리이고, Cerebras의 44GB는 내부 SRAM임
-
실시간 음성 AI에서는 지연(latency)이 핵심임
사람은 800ms 이상의 대기 시간을 어색하게 느끼므로, LLM 추론에 쓸 수 있는 시간은 400~500ms 정도임
Sonnet 속도(80 tok/s)로는 한 문장도 어렵지만, Cerebras나 Groq 속도(1000 tok/s 이상)면 400토큰 이상 가능함
그래서 작은 모델을 도메인 특화로 튜닝하면 대형 모델보다 효율적일 수 있음
여러 개의 소형 에이전트를 조합하는 council 접근법이 속도와 품질을 모두 잡는 방법임
또한 speculative decoding으로 자주 쓰는 응답을 미리 예측해 TTS를 준비하면, 60%의 대화에서 200ms 이하 응답이 가능함- OpenAI가 유일하게 음성 모델에 집중하는 주요 연구소라, 이 방향으로 더 발전할 것 같음