GPT-OSS-120B를 NVIDIA GPU에서 초당

▲

GN⁺ 8달전 | parent | ★ favorite | on: GPT-OSS-120B를 NVIDIA GPU에서 초당 500 토큰 속도로 실행하는 법(baseten.co)

Hacker News 의견

widely-available H100 GPUs

라고 해서 집에 부품 서랍을 뒤져봤는데 아무리 찾아봐도 2만5천 달러짜리 H100 GPU가 왜 없을까?
- NVIDIA 제품 페이지에 실제로 H100이 GPU로 분류되어 있는 걸 직접 확인했음. 이제는 ‘게이밍 위주로 쓰이지만 LLM 추론도 아주 제한적으로 가능한 소비자 등급 하드웨어’와 ‘AI 훈련이나 LLM 추론이 주 목적이자 비즈니스용 전문가 하드웨어’를 더 쉽게 구분할 수 있는 명칭이 필요하다고 생각함
- Ollama로 20B 모델을 8개의 TitanX 카드(2015년산)에서 돌려봤음. Ollama가 전체 15GB VRAM을 8개의 카드에 골고루 분산시켜줬고, 토큰 속도도 읽기 속도보다 빨랐음
- 이런 GPU들은 임대는 정말로 쉽게 할 수 있음. 오랫동안 24/7로 GPU를 돌릴 게 아니라면 직접 사는 것보다 호스팅을 임대하는 게 훨씬 경제적임. 개인 용도로 최신 데이터센터급 카드를 쓸 일도 잘 없고, 그럴 땐 Mac Studio나 Strix Halo 같은 걸로 충분하지만 속도는 다소 느림
- 이 댓글 덕분에 오늘 하루가 즐거워졌음. 확실히 데이터센터 관점에서 얘기한 거고, 내 서랍에 있는 가장 빠른 하드웨어는 아마 예전 아이폰8임
- ‘집에 $25,000 GPU가 없다’는 건 실제로 그런 걸 구입할 수는 있단 뜻임. 즉, 재고가 있고 ‘구할 수 있다’는 말일 뿐, 꼭 그걸 살 수 있을 정도로 돈이 있다는 의미는 아니라는 점임
MacBook Pro(M4, 128GB RAM)로 대서양 횡단 비행기 안에서 GPT-OSS-120B를 써봤음
컨텍스트 윈도우가 작고 전체 토큰 수가 적을 때만 빠름. 1만 토큰 넘어가면 거의 모든 처리가 오래 걸리고 큐에 쌓여버림
MCPs, 웹 검색, URL 패치 같은 게 이미 LLM 사용 경험에 매우 중요해졌음. 이 기능들이 없으면 LLM 유틸리티도 크게 감소함
오프라인 환경용으로 미리 세팅했던 CLI/TUI 코딩 툴(opencode 등)이 모델과 함께 신뢰성 있게 동작하지 않았음
OSS 모델의 다른 특이점들도 이전 댓글에서 많이 언급된 것 외에도 이런 점이 있음
- 예전 위키피디아도 로컬로 저장해서 쓸 수 있었으니, 곧 많은 데이터를 MCP로 노출시키고 AI들이 ‘웹 검색’처럼 로컬로 검색하게 될 거라 생각함. 웹 검색의 99%는 똑같은 100~1000개 사이트에서만 일어남. 종합하면 몇 GB만 저장해도 커버 가능하니 저작권 문제가 남음
- Ollama, LMStudio, llama.cpp 중에 뭘 쓰는지 궁금함 ggerganov 트윗
- iogpu.wired_limit_mb 세팅을 어떻게 했는지 궁금함. 기본값이면 RAM의 약 70%, 즉 90GB 정도만 GPU 코어가 쓸 수 있음. 더 활용하려면 세팅을 바꿔야 함
- M2 Max 프로세서로 했음. 짧은 대화는 초당 60개 이상 토큰을 봤지만, 길어지면 30까지 떨어졌음. 이 속도 저하의 원인이 뭘까 궁금함. 열처리 이슈는 아니었던 것 같음
- 컴퓨트 바운드 프리필(CPU의 대역폭/연산비율이 높을 때)과 디코드 차이라고 생각함. 1만 컨텍스트여도 첫 토큰까지는 0.5초가 안 걸림
여러 엔지니어가 병렬로 vLLM, SGLang, TensorRT-LLM을 시도함. TensorRT-LLM이 가장 빠르다고들 하지만 보통 세팅하기도 가장 어렵고, 최신 아키텍처 반영도 잘 안 되고, 프로덕션 환경과 똑같은 하드웨어-드라이버-라이브러리 스택에서 모델을 직접 컴파일해야 해서 정말 번거로움. 멀티모달은 한동안 거의 불가능할 정도였고, 대표적인 라마 멀티모달 모델조차 제대로 동작이 안 됐음. 가치가 있는지 의문이고, 예를 들어 GPT-OSS-120B를 H100에서 vLLM으로 돌리면 문제없이 돌아가고 토큰 착실하게 130~140t/s 뽑아줌. 제목만 보면 GPU 하나에 500t/s가 나올 줄 알았는데 실상은 텐서 병렬 세팅임. gpt-oss를 위해 TRT-LLM 따로 패키징한 것도 조금 우스움. TRT-LLM 자체가 좀 혼란스러운 툴임
- TRT-LLM을 경험해보면 DX 측면으로 도전과제가 많음. 멀티모달 할 때는 여전히 vLLM을 많이 씀. 그래도 우리가 서비스하는 트래픽처럼 대용량, 저지연 환경에서는 벤치마크에서 TRT-LLM이 항상 우수해서 이쪽 툴링에 많이 투자했음
GPT-OSS 20B는 설치가 정말 쉬움. Llama 덕에 내 Mac에서 5분 만에 돌릴 수 있었음
- CPU 자원이 충분하면 120B도 어렵지 않게 돌릴 수 있음. 집에서 LLM CPU 추론 서버에 GGUF 파일만 다운로드하고, git pull해서 llama-server만 다시 빌드해주면 바로 됐고, 40t/s는 수정 없이, 50t/s는 약간만 튜닝해도 얻었음. 아쉽게도 120B도 이미 더 좋은 모델들이 많이 나와서 굳이 돌릴 필요는 없음. ggerganov와 llama.cpp 팀이 개인 컴퓨팅 환경에서도 LLM을 쓸 수 있게 민주화한 점은 정말 대단함
- LLM 세팅이 어렵다고들 하는데, LLM한테 세팅을 시키면 되는 거 아님? 이런 간단한 일도 못할 정도면 LLM이 무슨 의미가 있지?라는 생각임
- 어제 돌려봤는데 모든 세션에서 사실관계가 틀린 정보가 계속 나왔음. 속도, 편리함도 좋지만 정확성 희생하면 의미없음
- 메모리가 충분하다면 120B도 정말 쉽게 돌아감
읽으면서 알게 되었는데, 모델을 잘 동작하게 하려면 엄청난 전처리와 튜닝 작업이 필요하단 걸 몰랐음. 그저 기본설정 그대로 잘 되는 줄 알았음
- 내 생각엔 대기업들은 LLM 출시 전에 인기 있는 추론 엔진 개발자들과 적극적으로 협력해서 자기네 LLM도 지원되게 했으면 좋겠음. 아직 모든 게 실험적이라 그렇겠지만, 개발자들이 저가형 하드웨어에서도 LLM을 얹어 쓸 수 있도록 정말 큰 노력을 해주고 있음
미국 AI Action Plan에서 “오픈소스와 오픈 가중치 AI 장려”가 “프론티어 AI가 자유 표현과 미국의 가치를 지키기” 바로 다음에 나오더라. 합리적이지는 않지만 OpenAI OSS 모델을 이 시점에서 읽는 게 약간 소름 돋게 느껴짐. 그래도 OSS 모델 개발사가 하드웨어 이야기를 해주는 건 좋음. 대다수 개발자에게 하드웨어가 진입장벽이니까 이쪽 이야기를 해줘서 반가움
- “프론티어 AI가 자유와 미국적 가치를 보호하게 하자”는 항목도 언급되었는데, 아직 내 생각을 정리하는 단계라 조금 양해를 바람. AI 모델은 세계관이 담기기 마련이고, 난 차라리 서구적 세계관을 선호함. 이게 더 나은 사회를 만들어준 전례도 많음. 적어도 모델은 자기 세계관을 문서화하고 그에 맞춰져 있어서, 사용자에게 몰래 사회공학적으로 사고방식을 바꾸도록 유도하지 않았으면 좋겠음
혹시 OS별, GPU별로 어떤 LLM 모델이 잘 돌아가는지 명확하게 알려주는 사이트 알고 있는지 궁금함. VRAM 산정은 파라미터 수 × (Precision/8) × 1.2가 가장 신뢰가는 경험적 공식이었음 (참고)
- 비슷한 계산기를 만들어보려 했는데, 실제론 변수(트래픽 동접 등)가 너무 많음. 그 공식도 대략 맞긴 한데 동시 트래픽이 많으면 2배로 계산하는 게 안전함
- huggingface에 하드웨어/소프트웨어 스펙을 입력하면, 각 모델 상세페이지에서 해당 모델 사용 가능 여부를 보여주는 기능이 있음 huggingface 설정
- 나는 인터넷 속도도 좋아서, 모델 무게파일을 다운받아서 직접 여러 러너(llama.cpp, LM Studio, vLLM, SGLang 등)로 돌려보는 게 제일 빠르더라. 러너/구현/하드웨어 등 변수가 너무 많아서 어떤 계산기도 실제 경험과 딱 들어맞은 적이 없었음. 방법은 실제로 돌려보는 수밖에 없음
- 여러분 의견에 감사함. 산출이 어렵다면, 각자 러너, 하드웨어, 모델, 파라미터, 양자화, 작동여부, tokens/s 같은 지표까지 커뮤니티가 실험해서 공유하는 DB 사이트를 만들면 어떨까 생각함. 하드웨어/러너 조합별로 걸러서 바로 쓸 수 있으면 정말 실용적임
GPT-OSS-120B 모델의 실제 배열 크기 같은 정확한 수치 찾기가 의외로 어렵다는 걸 말하고 싶음. 정적 타입 언어였다면 배열 크기를 대충 눈에 보며 알 수 있는데, 실제 데이터(가중치 말고)가 어떻게 흐르고 출력 스트림이 얼마만큼 넓은지 파악하고 싶음. 기가비트 이더넷에서 ‘토큰 출력’ 대역폭이 최대 몇 t/s인지가 궁금해서, Github 레포지토리 gpt-oss를 찾고 있는데 잘 안 보임
- 연속되는 토큰 모두에 대해 로짓을 스트림 처리(토큰 샘플링도 규약에 맞춰 하면서)하려는 어플리케이션이 어떤 사례인지 궁금함. 또 보통 문법 같은 걸 맞추기 위해 샘플링 전에 로짓 가공과 토큰 반환을 해야 다음 추론에 들어갈 수 있음을 감안해야 함
- huggingface 모델 설정 보면 값이 2880개 있음 (dtype 곱하기)
GPT-OSS는 fp4 지원으로 Blackwell 칩에서 더 빠르게 돌아감. Rust로 훈련/추론 엔진 만드는 중인데 cudarc와 candle에 fp8, fp4 지원을 추가하고 있음. cudarc PR, candle PR, Mixlayer 엔진에 이 모델들을 지원하려고 이 작업을 진행 중임
- RTX Pro 6000 유저인데 gpt-oss-120b 추론이 지금 가능할지 궁금함. PR들은 이미 머지되어 있는 것 같은데 실제로 돌릴 수 있을지 여부가 궁금함