로컬에서 실행할 때 GGUF 모델을 만들어 놓았음, 동적 2bit 방식(2bit MoE, 나머지는 6-8bit)으로 좋은 성능 내려면 RAM과 VRAM 합쳐 약 250GB 필요함, SSD 오프로딩도 가능한데 느림, 실행법과 최적 파라미터 등 자세한 내용은 공식 문서 참고 바람
그런데 unsloth가 파이썬 라이브러리이면서 apt-get을 sudo로 실행하려고 하는 점이 의아함, 내 nixos에서는 이게 실패해서 사용하기가 어려움
이런 동적 2bit 압축에서 원본 모델 대비 얼마나 성능이 떨어지는지에 대한 벤치마크 결과가 궁금함
참고로 terminal-bench 리더보드를 공유함, GPT-5, Claude 4, GLM-4.5와는 차이가 크지만, 다른 오픈웨이트 모델과는 비교적 준수한 성능임, 벤치마크가 전부를 말해주진 않으니 실제 결과는 시간이 지나봐야 알 수 있음
해당 벤치마크는 agent tool과 모델을 뒤섞어 결과가 일관성이 부족하다고 봄, agent tool만 고정해서 모델만 비교해야 의미 있다고 생각함, 이런 류의 벤치마크는 신뢰성이 떨어지는 편이고 직접 모델을 사용해 자신의 문제에 적용해보는 것이 나은 방법이라 생각함
내 체감상 결과물의 품질이 꽤 좋았음
Anthropic, OpenAI 같은 회사들도 특정 벤치마크를 위해 커스텀 에이전트를 개발하는 경향이 있음
DeepSeek R1은 이미 교체된 구 모델임을 알림, 업데이트 사항 파악함
가격이 너무 비싸진 않아서 SOTA 모델이어도 부담스럽지 않아야 관심이 생김
이전 비수기 할인이 사라진 점이 아쉬움, 그때는 토큰을 엄청나게 뽑으면서도 비용이 거의 들지 않았음, 그래도 여전히 가격 경쟁력이 아주 좋다는 점에서 크게 불만은 없음
Hacker News 의견