가드레일을 우회하려면, 거부 반응을 일으키는 뉴런 경로를 추적해 삭제하는 식의 ‘abliterated finetune’을 찾아야 함
최근 읽은 글에 따르면 GPT-OSS는 인공/생성 데이터로만 학습돼서 애초에 ‘금지된 지식’이 많지 않음 관련 글
jailbreak 프롬프트로 우회 가능하며, 약간 번거롭지만 잘 작동함
가드레일이 일부 제거된 버전은 성능이 확 떨어져서 개인적으로는 손해라고 생각함
기본적으로는 모델에 내장돼 있지만, 이를 크랙하고 수정하는 커뮤니티가 존재함
5950x + 128GB RAM + 12GB 3060 GPU 환경에서 토큰 생성 속도는 빠르지만, 컨텍스트가 조금만 커져도 처리 속도가 매우 느려짐
그래서 qwen, mistral, gemma 같은 다른 모델을 주로 사용 중임
‘빠르다’ ‘느리다’ 같은 주관적 표현보다 구체적인 토큰 수치가 궁금함
단순 채팅/텍스트 조작 외에 이 모델로 무엇을 하려는지 궁금함
32GB RAM + 16GB VRAM 환경에서 20B 모델은 VRAM에 전부 올릴 수 있지만, 컨텍스트 창을 8k 토큰 이상 늘리면 VRAM이 부족해짐
다른 사람들은 더 적은 VRAM으로 120B 모델을 돌리는데, 아마 ROCm 미지원과 Vulkan 사용 때문일 수 있음
그래도 하드웨어 한계까지 밀어붙이는 게 재미있음
컨텍스트 크기가 커질수록 더 많은 레이어를 시스템 RAM으로 오프로드해야 함
llama.cpp는 GPU 계산 레이어 수를 직접 설정할 수 있지만, ollama는 자동 조정함
세션 길이에 따라 RAM/VRAM 비율을 동적으로 조정할 수 있으면 좋겠음
64GB RAM + 8GB VRAM을 ‘겨우’라고 말하는 게 웃김, 나에겐 수천 달러짜리 세팅임
RAM 약 300 CAD, GPU 약 400 CAD로 데스크톱이면 저렴하게 가능함
게이밍 PC 중저가 수준이라, 몇 백 달러 업그레이드로 집에서 바로 돌릴 수 있음
$1599~$1999 정도면 비싸지 않은 프리오더 제품도 있음
미화 1000달러 이하로 새 부품 조립 가능, 중고면 더 저렴하고 GPU 성능도 나을 수 있음
DDR5 64GB는 $150, 12GB 3060은 $300 수준이며, eBay에서 더 싸게 구할 수 있음
MacBook Air M4나 RTX 3060에서 20B 모델을 돌려본 사람이 있는지 궁금함
RAM이 부족해 큰 모델은 못 쓰지만, 20B 모델은 MacBook에서 빠르고 내 용도에 충분함
다만 llama.cpp에서 function calling이 아직 깨져 있음
Hacker News 의견
관련 글
그래서 qwen, mistral, gemma 같은 다른 모델을 주로 사용 중임
다른 사람들은 더 적은 VRAM으로 120B 모델을 돌리는데, 아마 ROCm 미지원과 Vulkan 사용 때문일 수 있음
그래도 하드웨어 한계까지 밀어붙이는 게 재미있음
llama.cpp는 GPU 계산 레이어 수를 직접 설정할 수 있지만, ollama는 자동 조정함
세션 길이에 따라 RAM/VRAM 비율을 동적으로 조정할 수 있으면 좋겠음
다만 llama.cpp에서 function calling이 아직 깨져 있음
방에서 $149 미니 PC로 AI 챗봇을 호스팅할 계획이며, Qwen3 4B 모델이 좋아 보임
관련 계획
예를 들어 Qwen 3에서도 동작했고, 직접 정규식을 지정해 특정 레이어를 특정 장치로 옮길 수 있음