12P by GN⁺ 2일전 | ★ favorite | 댓글 2개
  • Qwen3.5 모델군(0.8B~122B) 을 LLM 파인튜닝 및 강화학습용 오픈소스 프레임워크인 Unsloth로 텍스트 및 비전 기반 파인튜닝을 할 수 있음
  • Unsloth는 FlashAttention-2 대비 1.5배 빠른 학습 속도VRAM 50% 절감을 제공하며, bf16 LoRA 설정으로 효율적 학습 가능
  • Colab 노트북을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, A100 환경용 27B·35B 모델 노트북도 제공
  • MoE 모델(35B, 122B 등) 은 최신 커널로 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이를 지원
  • 학습 후 모델은 GGUF, vLLM, Ollama, LM Studio, SGLang 등 다양한 배포 포맷으로 내보낼 수 있음

Qwen3.5 미세조정 개요

  • Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 Unsloth로 미세조정 가능
    • 텍스트와 비전(vision) 모두 지원
    • Qwen3.5‑35B‑A3B bf16 LoRA는 74GB VRAM에서 작동
  • Unsloth는 1.5배 빠른 학습 속도, 50% 적은 VRAM 사용량을 제공
    • VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • 무료 Google Colab 노트북으로 0.8B, 2B, 4B 모델을 실험 가능
  • 추론 능력 유지를 위해 reasoning 예시를 75% 이상 포함하는 데이터 구성이 권장됨
  • Full Fine-Tuning(FFT) 도 가능하나 VRAM 사용량이 4배 증가

학습 환경 및 설정

  • Qwen3.5는 201개 언어를 지원하는 다국어 모델
  • Reinforcement Learning(RL)Vision RL(VLM RL) 도 Unsloth를 통해 지원
  • A100 Colab 노트북 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • 로컬 학습 시 최신 버전으로 업데이트 필요
    • 명령어: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 필수, 구버전은 작동하지 않음
  • Mamba Triton 커널 컴파일로 인해 초기 학습이 느릴 수 있음 (특히 T4 GPU)
  • QLoRA(4-bit) 학습은 권장되지 않음

MoE 모델 미세조정 (35B, 122B)

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 모델 지원
    • 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이
  • bf16 LoRA 또는 Full Fine-Tuning 권장
  • MoE QLoRA 4-bit는 BitsandBytes 한계로 비추천
  • Unsloth MoE 커널 기본 활성화, UNSLOTH_MOE_BACKEND로 백엔드 전환 가능
  • Router-layer fine-tuning은 안정성 이유로 기본 비활성화
  • Qwen3.5‑122B‑A10B bf16 LoRA는 256GB VRAM 필요
    • 다중 GPU 사용 시 device_map = "balanced" 설정 또는 multiGPU 가이드 참고

Quickstart

  • 텍스트 전용 SFT(지도학습 미세조정) 예시 제공
  • Qwen3.5는 Causal Language Model + Vision Encoder 구조
    • 비전 종속성(torchvision, pillow) 설치 필요
  • 최신 Transformers 버전 사용 권장
  • GRPO 학습은 fast vLLM 비활성화 후 Unsloth inference로 수행 가능
  • OOM(메모리 초과) 발생 시
    • per_device_train_batch_size=1, max_seq_length 축소
    • gradient_checkpointing="unsloth" 유지로 VRAM 절감 및 컨텍스트 확장
  • MoE bf16 LoRA 로더 예시 제공

Vision 미세조정

  • 멀티모달 Qwen3.5 모델의 비전 미세조정 지원
    • Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)
  • 비전/텍스트 전용 학습 선택 가능
    • Vision, Language, Attention, MLP 레이어 중 선택적 미세조정
    • 기본값은 전체 활성화
  • 다중 이미지 학습은 별도 multi-image vision 가이드 참고

모델 저장 및 배포

  • llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang 등 다양한 배포 방식 지원

GGUF 저장

  • Unsloth에서 GGUF 포맷 직접 저장Hugging Face 업로드 지원
  • 추론 시 성능 저하 발생 시, 잘못된 chat template 또는 EOS 토큰 사용이 주요 원인

vLLM 저장

  • vLLM 0.16.0은 Qwen3.5 미지원
    • 0.170 이상 또는 Nightly 버전 필요
  • 16-bit 저장 및 LoRA 어댑터만 저장 가능
  • 세부 내용은 Unsloth의 inference 가이드 참고

지난 번에 에이전트 통해서 파인튠 돌려봤을땐 데이터에 따라 과적합 문제가 발생하는게 빈번해보였는데 이번 노트북에선 LoRA/QLoRA 조합으로 가능할지 궁금하네요

Hacker News 의견들
  • Qwen 모델을 NVIDIA Jetson 하드웨어에 파인튜닝해봤는데 성능이 놀라울 정도로 좋았음
    여러 7B 변형 모델을 엣지 AI 용도로 배포했는데, 정확도보다 지연 시간(latency) 이 중요한 산업 검사나 리테일 분석 같은 환경에서 특히 유용했음
    LoRA 파인튜닝 덕분에 모델이 작아져서 통합 메모리에 잘 맞고, 실시간 추론 속도도 충분히 빠름
    가장 놀란 건 전력 효율성이었음 — Jetson Orin이 15W 미만으로 지속 추론을 돌릴 수 있었고, 클라우드 왕복보다 훨씬 에너지 절약됨

    • 이 댓글은 AI가 생성한 것처럼 보임
      요즘 트위터나 레딧에서도 이런 가짜 일화체 포맷의 댓글을 자주 봄. 실제 사람처럼 보이지만 전부 만들어진 이야기 같음
    • 흥미로움. 정확도가 조금 떨어져도 괜찮은 산업용 작업 예시를 들 수 있을지 궁금함
    • 실제로 이런 모델을 어떤 작업에 쓰는지 구체적인 사례가 궁금함
    • 단순한 질문이지만, 이런 용도에 기존 신경망(neural network) 으로도 충분하지 않을까 하는 생각이 듦
    • 7B 모델을 15W에서 돌린다고 했는데, Orin 시리즈 중 어떤 모델인지 궁금함
      Nano(40 TOPS), NX(100), AGX(275) 중 어느 쪽인지, 혹시 Thor(2070) 에서 더 큰 모델도 실험해봤는지 알고 싶음
  • 사람들이 직접 소형/중형 모델을 파인튜닝해서 쓰는 실제 사례가 궁금함

    • 이 주제에 대해 X에 정리한 글이 있음
      관련 포스트
      예를 들어,
      1. Cursor가 온라인 RL로 승인율 28% 향상 (링크)
      2. Vercel이 AutoFix 모델에 RFT 적용 (링크)
      3. Perplexity Sonar는 Deep Research Reasoning용 파인튜닝 모델 (링크)
      4. DoorDash는 LoRA/QLoRA로 속성 추출 모델 구축 (링크)
      5. NASA의 홍수 감지 모델 (링크)
      6. 로보틱스용 온라인 RL
      7. OpenAI RFT 사례 모음 (링크)
      8. Mercor의 전문가 데이터 기반 모델 성능 향상 (링크)
    • 간단한 문서 분류 작업을 여러 모델로 벤치마크해봤음
      Llama-70B, Gemma-4B, Ministral-14B 등 모델별 정확도와 비용을 비교했는데,
      4B 모델들도 꽤 괜찮은 성능을 보여줌.
      다만 “데이터 양과 성능 향상 간의 관계”에 대한 직관이 사라진 느낌
      직접 파인튜닝을 시도해볼까 고민 중임
    • 내 필체 인식 정확도를 높이기 위해 파인튜닝을 고려 중임
      기본 모델도 잘 작동하지만, 내 악필 때문에 가끔 인식 오류가 생김
    • 좋은 예시로 Atredis 블로그의 LLM 학습 가이드를 추천함
  • 요즘 LLM 파인튜닝의 필요성이 점점 줄어드는 것 같음
    최신 모델들은 few-shot 학습만으로도 복잡한 작업을 잘 수행함
    Qwen3.5처럼 큰 컨텍스트 윈도우를 가진 모델은 강력한 프롬프트 설계로 충분히 대체 가능함
    이미지 모델이나 과거 LLM에는 여전히 의미가 있지만, 텍스트 LLM에서는 점점 비효율적이 되어가고 있음

    • 작은 모델을 특정 구조화된 출력에 맞게 파인튜닝하면, 저렴한 비용으로 대규모 추론을 돌릴 수 있음
      대형 모델의 컨텍스트 확장은 비용이 너무 큼
    • LLM이 발전하고 있지만, 로봇의 지속 학습이나 멀티모달 LoRA 파인튜닝 같은 영역에서는 여전히 가능성이 큼
      Unsloth 가이드처럼 비전+텍스트 파인튜닝도 가능함
      앞으로는 모델 라우팅이 일반화되어, 로컬에서는 작은 LoRA 모델을 쓰고 복잡한 작업은 클라우드로 넘기는 구조가 될 것 같음
      실제로 DoorDash, Vercel, NASA, Cursor 등도 자체 파인튜닝을 하고 있음
    • 나는 모델을 내 글쓰기 스타일에 맞게 파인튜닝하려 했음
      Claude나 Qwen, Llama, Gemma 등으로 시도했지만, 스타일 전이가 잘 안 됨
      수백 개의 내 댓글을 학습 데이터로 써도, 이미 Instruct 모델이 과도하게 튜닝되어 있어서 추가 학습이 거의 불가능했음
    • 한마디로 요약하면 성인물 데이터 때문임
      Qwen은 학습 시 이런 데이터를 걸러냈기 때문에, 파인튜닝으로만 복원 가능함
      관련 작업 예시: chenrm의 Qwen3 LoRA 모델
    • 실제 서비스에서는 여전히 파인튜닝이 중요함
      결정적이고 감사 가능한 동작, 환각 감소, 비용 절감형 LoRA/QLoRA 조합이 유용함
      RAG와 FAISS 벡터 DB를 함께 쓰면 컨텍스트 폭주를 막을 수 있음
      장기적으로는 프롬프트 조정보다 작은 어댑터 관리가 훨씬 효율적임
  • Qwen 팀의 몇몇 리드가 교체된 게 아쉬움
    새로운 경영진이 비즈니스 중심으로 바뀌면서 오픈소스 정신이 약해질까 걱정됨

  • 문서 중심의 RAG 접근만으로 충분한데, 파인튜닝이 실제로 더 나은 결과를 주는지 궁금함

    • 전문화된 모델은 확실히 SOTA를 능가함
      예시: FlashCheck
    • 예전에 Cursor의 tab-next-action 모델이 큰 화제가 됐는데, 사실 그게 70B 모델의 파인튜닝 버전이었음
  • 이번 자료는 대형 MoE 모델만 다루는 것 같음
    대부분의 사용자는 소형 모델(예: 9B) 을 목표로 할 텐데,
    이 모델은 하이브리드 Mamba 아키텍처를 사용해서 별도 고려가 필요할 듯함