GPT-OSS-120B, 8GB VRAM만으로도 훌륭하

▲

GN⁺ 8달전 | parent | ★ favorite | on: GPT-OSS-120B, 8GB VRAM만으로도 훌륭하게 구동가능(old.reddit.com)

Hacker News 의견

직접 하드웨어에서 모델을 돌리면 가드레일을 해제할 수 있는지 궁금함
- 가드레일을 우회하려면, 거부 반응을 일으키는 뉴런 경로를 추적해 삭제하는 식의 ‘abliterated finetune’을 찾아야 함
- 최근 읽은 글에 따르면 GPT-OSS는 인공/생성 데이터로만 학습돼서 애초에 ‘금지된 지식’이 많지 않음
  관련 글
- jailbreak 프롬프트로 우회 가능하며, 약간 번거롭지만 잘 작동함
- 가드레일이 일부 제거된 버전은 성능이 확 떨어져서 개인적으로는 손해라고 생각함
- 기본적으로는 모델에 내장돼 있지만, 이를 크랙하고 수정하는 커뮤니티가 존재함
5950x + 128GB RAM + 12GB 3060 GPU 환경에서 토큰 생성 속도는 빠르지만, 컨텍스트가 조금만 커져도 처리 속도가 매우 느려짐
그래서 qwen, mistral, gemma 같은 다른 모델을 주로 사용 중임
- ‘빠르다’ ‘느리다’ 같은 주관적 표현보다 구체적인 토큰 수치가 궁금함
- 단순 채팅/텍스트 조작 외에 이 모델로 무엇을 하려는지 궁금함
32GB RAM + 16GB VRAM 환경에서 20B 모델은 VRAM에 전부 올릴 수 있지만, 컨텍스트 창을 8k 토큰 이상 늘리면 VRAM이 부족해짐
다른 사람들은 더 적은 VRAM으로 120B 모델을 돌리는데, 아마 ROCm 미지원과 Vulkan 사용 때문일 수 있음
그래도 하드웨어 한계까지 밀어붙이는 게 재미있음
- 컨텍스트 크기가 커질수록 더 많은 레이어를 시스템 RAM으로 오프로드해야 함
  llama.cpp는 GPU 계산 레이어 수를 직접 설정할 수 있지만, ollama는 자동 조정함
  세션 길이에 따라 RAM/VRAM 비율을 동적으로 조정할 수 있으면 좋겠음
64GB RAM + 8GB VRAM을 ‘겨우’라고 말하는 게 웃김, 나에겐 수천 달러짜리 세팅임
- RAM 약 300 CAD, GPU 약 400 CAD로 데스크톱이면 저렴하게 가능함
- 게이밍 PC 중저가 수준이라, 몇 백 달러 업그레이드로 집에서 바로 돌릴 수 있음
- $1599~$1999 정도면 비싸지 않은 프리오더 제품도 있음
- 미화 1000달러 이하로 새 부품 조립 가능, 중고면 더 저렴하고 GPU 성능도 나을 수 있음
- DDR5 64GB는 $150, 12GB 3060은 $300 수준이며, eBay에서 더 싸게 구할 수 있음
MacBook Air M4나 RTX 3060에서 20B 모델을 돌려본 사람이 있는지 궁금함
RAM이 부족해 큰 모델은 못 쓰지만, 20B 모델은 MacBook에서 빠르고 내 용도에 충분함
다만 llama.cpp에서 function calling이 아직 깨져 있음
- 해당 버그는 이 PR에서 수정됨
- RAM 한계가 아니라 버그라 다행이며, 16GB RAM MacBook Air에서도 여러 모델을 잘 돌림
  방에서 $149 미니 PC로 AI 챗봇을 호스팅할 계획이며, Qwen3 4B 모델이 좋아 보임
  관련 계획
OpenWebUI나 다른 GUI에서 이 스펙으로 설정 최적화가 가능한지 궁금하며, 20B 모델이 더 나을 것 같음
LLM 초보인데, 이 최적화가 모든 MoE 모델에 적용 가능한지 궁금함
- 레이어 이름에 정규식을 적용하는 방식이라, 비슷한 네이밍이면 다른 모델에도 가능함
  예를 들어 Qwen 3에서도 동작했고, 직접 정규식을 지정해 특정 레이어를 특정 장치로 옮길 수 있음
mlx 최적화 버전이 64GB Mac에서 돌아갈지 궁금함
- LM Studio의 추정치로는 3-bit 양자화(~50GB)면 문제없이 가능함