라고 해서 집에 부품 서랍을 뒤져봤는데 아무리 찾아봐도 2만5천 달러짜리 H100 GPU가 왜 없을까?
NVIDIA 제품 페이지에 실제로 H100이 GPU로 분류되어 있는 걸 직접 확인했음. 이제는 ‘게이밍 위주로 쓰이지만 LLM 추론도 아주 제한적으로 가능한 소비자 등급 하드웨어’와 ‘AI 훈련이나 LLM 추론이 주 목적이자 비즈니스용 전문가 하드웨어’를 더 쉽게 구분할 수 있는 명칭이 필요하다고 생각함
Ollama로 20B 모델을 8개의 TitanX 카드(2015년산)에서 돌려봤음. Ollama가 전체 15GB VRAM을 8개의 카드에 골고루 분산시켜줬고, 토큰 속도도 읽기 속도보다 빨랐음
이런 GPU들은 임대는 정말로 쉽게 할 수 있음. 오랫동안 24/7로 GPU를 돌릴 게 아니라면 직접 사는 것보다 호스팅을 임대하는 게 훨씬 경제적임. 개인 용도로 최신 데이터센터급 카드를 쓸 일도 잘 없고, 그럴 땐 Mac Studio나 Strix Halo 같은 걸로 충분하지만 속도는 다소 느림
이 댓글 덕분에 오늘 하루가 즐거워졌음. 확실히 데이터센터 관점에서 얘기한 거고, 내 서랍에 있는 가장 빠른 하드웨어는 아마 예전 아이폰8임
‘집에 $25,000 GPU가 없다’는 건 실제로 그런 걸 구입할 수는 있단 뜻임. 즉, 재고가 있고 ‘구할 수 있다’는 말일 뿐, 꼭 그걸 살 수 있을 정도로 돈이 있다는 의미는 아니라는 점임
MacBook Pro(M4, 128GB RAM)로 대서양 횡단 비행기 안에서 GPT-OSS-120B를 써봤음
컨텍스트 윈도우가 작고 전체 토큰 수가 적을 때만 빠름. 1만 토큰 넘어가면 거의 모든 처리가 오래 걸리고 큐에 쌓여버림
MCPs, 웹 검색, URL 패치 같은 게 이미 LLM 사용 경험에 매우 중요해졌음. 이 기능들이 없으면 LLM 유틸리티도 크게 감소함
오프라인 환경용으로 미리 세팅했던 CLI/TUI 코딩 툴(opencode 등)이 모델과 함께 신뢰성 있게 동작하지 않았음
OSS 모델의 다른 특이점들도 이전 댓글에서 많이 언급된 것 외에도 이런 점이 있음
예전 위키피디아도 로컬로 저장해서 쓸 수 있었으니, 곧 많은 데이터를 MCP로 노출시키고 AI들이 ‘웹 검색’처럼 로컬로 검색하게 될 거라 생각함. 웹 검색의 99%는 똑같은 100~1000개 사이트에서만 일어남. 종합하면 몇 GB만 저장해도 커버 가능하니 저작권 문제가 남음
Ollama, LMStudio, llama.cpp 중에 뭘 쓰는지 궁금함 ggerganov 트윗
iogpu.wired_limit_mb 세팅을 어떻게 했는지 궁금함. 기본값이면 RAM의 약 70%, 즉 90GB 정도만 GPU 코어가 쓸 수 있음. 더 활용하려면 세팅을 바꿔야 함
M2 Max 프로세서로 했음. 짧은 대화는 초당 60개 이상 토큰을 봤지만, 길어지면 30까지 떨어졌음. 이 속도 저하의 원인이 뭘까 궁금함. 열처리 이슈는 아니었던 것 같음
컴퓨트 바운드 프리필(CPU의 대역폭/연산비율이 높을 때)과 디코드 차이라고 생각함. 1만 컨텍스트여도 첫 토큰까지는 0.5초가 안 걸림
여러 엔지니어가 병렬로 vLLM, SGLang, TensorRT-LLM을 시도함. TensorRT-LLM이 가장 빠르다고들 하지만 보통 세팅하기도 가장 어렵고, 최신 아키텍처 반영도 잘 안 되고, 프로덕션 환경과 똑같은 하드웨어-드라이버-라이브러리 스택에서 모델을 직접 컴파일해야 해서 정말 번거로움. 멀티모달은 한동안 거의 불가능할 정도였고, 대표적인 라마 멀티모달 모델조차 제대로 동작이 안 됐음. 가치가 있는지 의문이고, 예를 들어 GPT-OSS-120B를 H100에서 vLLM으로 돌리면 문제없이 돌아가고 토큰 착실하게 130~140t/s 뽑아줌. 제목만 보면 GPU 하나에 500t/s가 나올 줄 알았는데 실상은 텐서 병렬 세팅임. gpt-oss를 위해 TRT-LLM 따로 패키징한 것도 조금 우스움. TRT-LLM 자체가 좀 혼란스러운 툴임
TRT-LLM을 경험해보면 DX 측면으로 도전과제가 많음. 멀티모달 할 때는 여전히 vLLM을 많이 씀. 그래도 우리가 서비스하는 트래픽처럼 대용량, 저지연 환경에서는 벤치마크에서 TRT-LLM이 항상 우수해서 이쪽 툴링에 많이 투자했음
GPT-OSS 20B는 설치가 정말 쉬움. Llama 덕에 내 Mac에서 5분 만에 돌릴 수 있었음
CPU 자원이 충분하면 120B도 어렵지 않게 돌릴 수 있음. 집에서 LLM CPU 추론 서버에 GGUF 파일만 다운로드하고, git pull해서 llama-server만 다시 빌드해주면 바로 됐고, 40t/s는 수정 없이, 50t/s는 약간만 튜닝해도 얻었음. 아쉽게도 120B도 이미 더 좋은 모델들이 많이 나와서 굳이 돌릴 필요는 없음. ggerganov와 llama.cpp 팀이 개인 컴퓨팅 환경에서도 LLM을 쓸 수 있게 민주화한 점은 정말 대단함
LLM 세팅이 어렵다고들 하는데, LLM한테 세팅을 시키면 되는 거 아님? 이런 간단한 일도 못할 정도면 LLM이 무슨 의미가 있지?라는 생각임
어제 돌려봤는데 모든 세션에서 사실관계가 틀린 정보가 계속 나왔음. 속도, 편리함도 좋지만 정확성 희생하면 의미없음
메모리가 충분하다면 120B도 정말 쉽게 돌아감
읽으면서 알게 되었는데, 모델을 잘 동작하게 하려면 엄청난 전처리와 튜닝 작업이 필요하단 걸 몰랐음. 그저 기본설정 그대로 잘 되는 줄 알았음
내 생각엔 대기업들은 LLM 출시 전에 인기 있는 추론 엔진 개발자들과 적극적으로 협력해서 자기네 LLM도 지원되게 했으면 좋겠음. 아직 모든 게 실험적이라 그렇겠지만, 개발자들이 저가형 하드웨어에서도 LLM을 얹어 쓸 수 있도록 정말 큰 노력을 해주고 있음
미국 AI Action Plan에서 “오픈소스와 오픈 가중치 AI 장려”가 “프론티어 AI가 자유 표현과 미국의 가치를 지키기” 바로 다음에 나오더라. 합리적이지는 않지만 OpenAI OSS 모델을 이 시점에서 읽는 게 약간 소름 돋게 느껴짐. 그래도 OSS 모델 개발사가 하드웨어 이야기를 해주는 건 좋음. 대다수 개발자에게 하드웨어가 진입장벽이니까 이쪽 이야기를 해줘서 반가움
“프론티어 AI가 자유와 미국적 가치를 보호하게 하자”는 항목도 언급되었는데, 아직 내 생각을 정리하는 단계라 조금 양해를 바람. AI 모델은 세계관이 담기기 마련이고, 난 차라리 서구적 세계관을 선호함. 이게 더 나은 사회를 만들어준 전례도 많음. 적어도 모델은 자기 세계관을 문서화하고 그에 맞춰져 있어서, 사용자에게 몰래 사회공학적으로 사고방식을 바꾸도록 유도하지 않았으면 좋겠음
혹시 OS별, GPU별로 어떤 LLM 모델이 잘 돌아가는지 명확하게 알려주는 사이트 알고 있는지 궁금함. VRAM 산정은 파라미터 수 × (Precision/8) × 1.2가 가장 신뢰가는 경험적 공식이었음 (참고)
비슷한 계산기를 만들어보려 했는데, 실제론 변수(트래픽 동접 등)가 너무 많음. 그 공식도 대략 맞긴 한데 동시 트래픽이 많으면 2배로 계산하는 게 안전함
huggingface에 하드웨어/소프트웨어 스펙을 입력하면, 각 모델 상세페이지에서 해당 모델 사용 가능 여부를 보여주는 기능이 있음 huggingface 설정
나는 인터넷 속도도 좋아서, 모델 무게파일을 다운받아서 직접 여러 러너(llama.cpp, LM Studio, vLLM, SGLang 등)로 돌려보는 게 제일 빠르더라. 러너/구현/하드웨어 등 변수가 너무 많아서 어떤 계산기도 실제 경험과 딱 들어맞은 적이 없었음. 방법은 실제로 돌려보는 수밖에 없음
여러분 의견에 감사함. 산출이 어렵다면, 각자 러너, 하드웨어, 모델, 파라미터, 양자화, 작동여부, tokens/s 같은 지표까지 커뮤니티가 실험해서 공유하는 DB 사이트를 만들면 어떨까 생각함. 하드웨어/러너 조합별로 걸러서 바로 쓸 수 있으면 정말 실용적임
GPT-OSS-120B 모델의 실제 배열 크기 같은 정확한 수치 찾기가 의외로 어렵다는 걸 말하고 싶음. 정적 타입 언어였다면 배열 크기를 대충 눈에 보며 알 수 있는데, 실제 데이터(가중치 말고)가 어떻게 흐르고 출력 스트림이 얼마만큼 넓은지 파악하고 싶음. 기가비트 이더넷에서 ‘토큰 출력’ 대역폭이 최대 몇 t/s인지가 궁금해서, Github 레포지토리 gpt-oss를 찾고 있는데 잘 안 보임
연속되는 토큰 모두에 대해 로짓을 스트림 처리(토큰 샘플링도 규약에 맞춰 하면서)하려는 어플리케이션이 어떤 사례인지 궁금함. 또 보통 문법 같은 걸 맞추기 위해 샘플링 전에 로짓 가공과 토큰 반환을 해야 다음 추론에 들어갈 수 있음을 감안해야 함
GPT-OSS는 fp4 지원으로 Blackwell 칩에서 더 빠르게 돌아감. Rust로 훈련/추론 엔진 만드는 중인데 cudarc와 candle에 fp8, fp4 지원을 추가하고 있음. cudarc PR, candle PR, Mixlayer 엔진에 이 모델들을 지원하려고 이 작업을 진행 중임
RTX Pro 6000 유저인데 gpt-oss-120b 추론이 지금 가능할지 궁금함. PR들은 이미 머지되어 있는 것 같은데 실제로 돌릴 수 있을지 여부가 궁금함
Hacker News 의견
라고 해서 집에 부품 서랍을 뒤져봤는데 아무리 찾아봐도 2만5천 달러짜리 H100 GPU가 왜 없을까?
MacBook Pro(M4, 128GB RAM)로 대서양 횡단 비행기 안에서 GPT-OSS-120B를 써봤음
컨텍스트 윈도우가 작고 전체 토큰 수가 적을 때만 빠름. 1만 토큰 넘어가면 거의 모든 처리가 오래 걸리고 큐에 쌓여버림
MCPs, 웹 검색, URL 패치 같은 게 이미 LLM 사용 경험에 매우 중요해졌음. 이 기능들이 없으면 LLM 유틸리티도 크게 감소함
오프라인 환경용으로 미리 세팅했던 CLI/TUI 코딩 툴(opencode 등)이 모델과 함께 신뢰성 있게 동작하지 않았음
OSS 모델의 다른 특이점들도 이전 댓글에서 많이 언급된 것 외에도 이런 점이 있음
여러 엔지니어가 병렬로 vLLM, SGLang, TensorRT-LLM을 시도함. TensorRT-LLM이 가장 빠르다고들 하지만 보통 세팅하기도 가장 어렵고, 최신 아키텍처 반영도 잘 안 되고, 프로덕션 환경과 똑같은 하드웨어-드라이버-라이브러리 스택에서 모델을 직접 컴파일해야 해서 정말 번거로움. 멀티모달은 한동안 거의 불가능할 정도였고, 대표적인 라마 멀티모달 모델조차 제대로 동작이 안 됐음. 가치가 있는지 의문이고, 예를 들어 GPT-OSS-120B를 H100에서 vLLM으로 돌리면 문제없이 돌아가고 토큰 착실하게 130~140t/s 뽑아줌. 제목만 보면 GPU 하나에 500t/s가 나올 줄 알았는데 실상은 텐서 병렬 세팅임. gpt-oss를 위해 TRT-LLM 따로 패키징한 것도 조금 우스움. TRT-LLM 자체가 좀 혼란스러운 툴임
GPT-OSS 20B는 설치가 정말 쉬움. Llama 덕에 내 Mac에서 5분 만에 돌릴 수 있었음
읽으면서 알게 되었는데, 모델을 잘 동작하게 하려면 엄청난 전처리와 튜닝 작업이 필요하단 걸 몰랐음. 그저 기본설정 그대로 잘 되는 줄 알았음
미국 AI Action Plan에서 “오픈소스와 오픈 가중치 AI 장려”가 “프론티어 AI가 자유 표현과 미국의 가치를 지키기” 바로 다음에 나오더라. 합리적이지는 않지만 OpenAI OSS 모델을 이 시점에서 읽는 게 약간 소름 돋게 느껴짐. 그래도 OSS 모델 개발사가 하드웨어 이야기를 해주는 건 좋음. 대다수 개발자에게 하드웨어가 진입장벽이니까 이쪽 이야기를 해줘서 반가움
혹시 OS별, GPU별로 어떤 LLM 모델이 잘 돌아가는지 명확하게 알려주는 사이트 알고 있는지 궁금함. VRAM 산정은 파라미터 수 × (Precision/8) × 1.2가 가장 신뢰가는 경험적 공식이었음 (참고)
GPT-OSS-120B 모델의 실제 배열 크기 같은 정확한 수치 찾기가 의외로 어렵다는 걸 말하고 싶음. 정적 타입 언어였다면 배열 크기를 대충 눈에 보며 알 수 있는데, 실제 데이터(가중치 말고)가 어떻게 흐르고 출력 스트림이 얼마만큼 넓은지 파악하고 싶음. 기가비트 이더넷에서 ‘토큰 출력’ 대역폭이 최대 몇 t/s인지가 궁금해서, Github 레포지토리 gpt-oss를 찾고 있는데 잘 안 보임
GPT-OSS는 fp4 지원으로 Blackwell 칩에서 더 빠르게 돌아감. Rust로 훈련/추론 엔진 만드는 중인데 cudarc와 candle에 fp8, fp4 지원을 추가하고 있음. cudarc PR, candle PR, Mixlayer 엔진에 이 모델들을 지원하려고 이 작업을 진행 중임