GPU에 대한 오해

(fly.io)

7P by GN⁺ 5달전 | ★ favorite | 댓글 1개

Fly.io는 자체 하드웨어를 사용하는 퍼블릭 클라우드를 구축 중이며, GPU를 활용한 AI/ML 추론을 제공하는 것을 목표로 Fly GPU Machines를 개발함
Fly GPU Machines는 Docker/OCI 컨테이너를 실행하는 VM으로, NVIDIA GPU를 직접 매핑하여 빠른 CUDA 연산이 가능하도록 설계됨
AI/ML의 중요성은 예상보다 컸지만, GPU 제품은 시장의 니즈를 제대로 반영하지 못한 것으로 보임

GPU 도입의 기술적 어려움

Fly GPU Machines는 Firecracker 대신 Intel의 Cloud Hypervisor를 사용하여 PCI 패스스루를 지원하도록 설계됨
NVIDIA의 생태계는 마이크로 VM 하이퍼바이저를 지원하지 않아, GPU 보안 및 성능 최적화가 어려움
GPU는 보안팀의 우려 대상이었으며, 다방향 DMA(Direct Memory Access) 전송과 사용자 제어 연산이 가능하여 높은 보안 리스크를 초래함
GPU와 비GPU 워크로드를 분리하기 위해 별도 서버 하드웨어를 사용, 비용 비효율적 구조가 발생함
보안 검증을 위해 Atredis 및 Tetrel과의 대규모 보안 평가 진행, 높은 비용과 시간 소모

기술적 시행착오

NVIDIA가 권장한 방식(K8s 클러스터 구축 또는 QEMU 사용)을 따르지 않고, Fly Machines의 빠른 시작 속도를 유지하려고 시도함
NVIDIA의 가상 GPU(vGPU) 드라이버를 Intel Cloud Hypervisor에서 사용하려다 실패
NVIDIA의 폐쇄적인 드라이버 환경으로 인해 GPU를 효율적으로 활용할 수 있는 구조를 만들기 어려웠음
GPU를 활용한 모델 가중치 로딩 최적화가 필요했으나, 개발자 경험(DX)을 유지하면서 해결하기 어려웠음
많은 GPU를 구매했지만, 기대만큼의 성과를 내지 못함

GPU 비즈니스 모델의 실패 원인

일반 개발자들은 GPU보다는 LLM을 원함
- AI/ML 모델 최적화보다 OpenAI, Anthropic 등의 LLM API를 활용하는 것이 더 간편하고 성능 차이도 크지 않음
- 대부분의 개발자들은 "초당 토큰(tokens per second)" 단위의 성능을 중요시하며, GPU가 제공하는 밀리초 단위의 최적화에는 큰 관심이 없음
대규모 AI 작업을 수행하는 기업들은 엄청난 GPU 연산 능력을 필요로 하며, 단일 A100 GPU도 부족함
- 대규모 AI 연구소 및 기업들은 SXM 기반 H100 클러스터를 원함
경량 ML 작업을 위한 소형 GPU 시장이 존재할 가능성은 있으나, NVIDIA MIG를 완전 가상화된 환경에서 활용하기 어려움
L40S GPU는 유용하게 사용되고 있지만, Fly.io의 핵심 비즈니스 성장 요인이 되지 못함

얻은 교훈

초기(2022년)에는 다양한 AI 모델이 등장할 것이라 예상했으나, 현재는 OpenAI, Anthropic 등의 소수 LLM 모델로 수렴됨
Fly.io는 "10,000명의 개발자를 위한 기능을 설계한다"는 원칙을 따름
- GPU는 10,001번째 개발자를 위한 기능에 불과하여 주요 제품으로 자리 잡기 어려웠음
스타트업은 여러 번의 도전을 통해 배우는 과정이며, GPU 도입은 하나의 실패한 베팅이었음
GPU 관련 투자는 전부 손실이 아니며, 일부 하드웨어는 나중에 매각 가능함
Fly Machines의 보안성과 개발자 경험을 유지하면서 GPU 지원을 축소하는 방향으로 조정 가능
Fly.io의 초기 제품이었던 JavaScript 엣지 컴퓨팅 런타임도 시장에서 원하지 않았으며, 결국 컨테이너 지원으로 전환한 것처럼, GPU도 시장의 필요에 맞지 않았던 선택이었음
스타트업은 종종 잘못된 가정을 통해 올바른 답을 찾아가며, 이번 GPU 사례도 그러한 과정 중 하나였음

▲

GN⁺ 5달전 [-]

Hacker News 의견

개발자들은 GPU나 AI/ML 모델보다 LLMs를 원함. 시스템 엔지니어들은 CUDA와 GPU에 대해 신경 쓰지만, 소프트웨어 개발자들은 그렇지 않음
- 소프트웨어 개발자들 사이에 큰 분열이 있음. 일부는 코드의 실행 위치와 작동 방식을 이해하고 싶어함
- 다른 그룹은 git push만으로 끝내고 싶어하며, DNS나 리눅스 같은 것을 이해하고 싶어하지 않음
- fly.io 같은 회사는 후자에게 매력적임. GPU 인스턴스는 전자에게 매력적임
- 두 시장을 다르게 접근해야 함. 후자에게는 추상화와 자동화를 많이 판매할 수 있음
2012년부터 무어의 법칙이 사실상 끝남. 단일 스레드 실행은 2GHz에서 멈춤
- 2012-2022년 동안 클라우드로 이동하면서 단일 스레드의 정체를 눈치채지 못함
- 2022년 데이터 센터는 더 많은 코어를 가진 차세대 칩을 구매할 필요가 없음을 깨달음
- LLMs는 100% 병렬 처리 가능하므로 다시 자본을 투자할 수 있음
- 2024년 웨이퍼 스케일 실리콘이 등장할 것임. Llama 모델을 A100보다 10배 빠르게 실행할 수 있음
- 소프트웨어는 이 성능을 활용할 방법을 찾아야 함
fly GPU 머신은 매우 빠르고 신뢰할 수 있으며, 대안에 비해 가격이 비싸지 않음
- DX가 훌륭함. 새로운 명령어를 배울 필요가 없음
- 가격이 더 저렴하고 더 많은 지역에서 사용할 수 있기를 바람
4090을 구매했지만, 24GB VRAM으로는 충분하지 않음
- 2개 이상의 3090과 맞춤형 전원 공급 장치가 더 나았을 것임
- 성능과 품질이 아직 부족함
Fly를 선택하는 고객은 전용 GPU 서버를 장기간 사용하는 마지막 사람일 것임
- 서버리스 솔루션을 사용할 가능성이 높음
GPU 슬라이스가 없는 것이 아쉬움. 월 $1,000의 비용은 정당화하기 어려움
- AMD 소비자 GPU를 Raspberry Pi에 연결하는 것이 경제적일 수 있음
"우리가 틀렸다"는 말은 영어에서 가장 고귀하고 아름다운 말 중 하나임
Fly.io는 Cloudflare의 Workers 플랫폼과 유사한 개발자를 끌어들임
- PaaS 환경의 개발 속도를 원함
- Cloudflare는 GPU와 함께 PaaS 접근 방식을 유지하며 Workers AI를 구축함
Runpod에서 서버리스 엔드포인트를 설정하는 데 한 달이 걸렸고, 비싸고 신뢰할 수 없었음
- Google Cloud 크레딧을 사용하여 제품을 고객에게 제공할 수 있었음
- GPU 제공자에 대한 수요가 있음. Fly가 이 시장에 진입할 수 있을지는 확실하지 않음

답변달기