Qwen3.5 파인튜닝 가이드
(unsloth.ai)- Qwen3.5 모델군(0.8B~122B) 을 LLM 파인튜닝 및 강화학습용 오픈소스 프레임워크인 Unsloth로 텍스트 및 비전 기반 파인튜닝을 할 수 있음
- Unsloth는 FlashAttention-2 대비 1.5배 빠른 학습 속도와 VRAM 50% 절감을 제공하며, bf16 LoRA 설정으로 효율적 학습 가능
- Colab 노트북을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, A100 환경용 27B·35B 모델 노트북도 제공
- MoE 모델(35B, 122B 등) 은 최신 커널로 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이를 지원
- 학습 후 모델은 GGUF, vLLM, Ollama, LM Studio, SGLang 등 다양한 배포 포맷으로 내보낼 수 있음
Qwen3.5 미세조정 개요
- Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 Unsloth로 미세조정 가능
- 텍스트와 비전(vision) 모두 지원
- Qwen3.5‑35B‑A3B bf16 LoRA는 74GB VRAM에서 작동
- Unsloth는 1.5배 빠른 학습 속도, 50% 적은 VRAM 사용량을 제공
- VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- 무료 Google Colab 노트북으로 0.8B, 2B, 4B 모델을 실험 가능
- 추론 능력 유지를 위해 reasoning 예시를 75% 이상 포함하는 데이터 구성이 권장됨
- Full Fine-Tuning(FFT) 도 가능하나 VRAM 사용량이 4배 증가
학습 환경 및 설정
- Qwen3.5는 201개 언어를 지원하는 다국어 모델
- Reinforcement Learning(RL) 및 Vision RL(VLM RL) 도 Unsloth를 통해 지원
- A100 Colab 노트북 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- 로컬 학습 시 최신 버전으로 업데이트 필요
- 명령어:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- 명령어:
- transformers v5 필수, 구버전은 작동하지 않음
- Mamba Triton 커널 컴파일로 인해 초기 학습이 느릴 수 있음 (특히 T4 GPU)
- QLoRA(4-bit) 학습은 권장되지 않음
MoE 모델 미세조정 (35B, 122B)
-
Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 모델 지원
- 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이
- bf16 LoRA 또는 Full Fine-Tuning 권장
- MoE QLoRA 4-bit는 BitsandBytes 한계로 비추천
-
Unsloth MoE 커널 기본 활성화,
UNSLOTH_MOE_BACKEND로 백엔드 전환 가능 - Router-layer fine-tuning은 안정성 이유로 기본 비활성화
-
Qwen3.5‑122B‑A10B bf16 LoRA는 256GB VRAM 필요
- 다중 GPU 사용 시
device_map = "balanced"설정 또는 multiGPU 가이드 참고
- 다중 GPU 사용 시
Quickstart
- 텍스트 전용 SFT(지도학습 미세조정) 예시 제공
- Qwen3.5는 Causal Language Model + Vision Encoder 구조
- 비전 종속성(
torchvision,pillow) 설치 필요
- 비전 종속성(
- 최신 Transformers 버전 사용 권장
- GRPO 학습은 fast vLLM 비활성화 후 Unsloth inference로 수행 가능
-
OOM(메모리 초과) 발생 시
-
per_device_train_batch_size=1,max_seq_length축소 -
gradient_checkpointing="unsloth"유지로 VRAM 절감 및 컨텍스트 확장
-
- MoE bf16 LoRA 로더 예시 제공
Vision 미세조정
-
멀티모달 Qwen3.5 모델의 비전 미세조정 지원
- Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)
-
비전/텍스트 전용 학습 선택 가능
- Vision, Language, Attention, MLP 레이어 중 선택적 미세조정
- 기본값은 전체 활성화
- 다중 이미지 학습은 별도 multi-image vision 가이드 참고
모델 저장 및 배포
- llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang 등 다양한 배포 방식 지원
GGUF 저장
- Unsloth에서 GGUF 포맷 직접 저장 및 Hugging Face 업로드 지원
- 추론 시 성능 저하 발생 시, 잘못된 chat template 또는 EOS 토큰 사용이 주요 원인
vLLM 저장
-
vLLM 0.16.0은 Qwen3.5 미지원
- 0.170 이상 또는 Nightly 버전 필요
- 16-bit 저장 및 LoRA 어댑터만 저장 가능
- 세부 내용은 Unsloth의 inference 가이드 참고
지난 번에 에이전트 통해서 파인튠 돌려봤을땐 데이터에 따라 과적합 문제가 발생하는게 빈번해보였는데 이번 노트북에선 LoRA/QLoRA 조합으로 가능할지 궁금하네요
Hacker News 의견들
-
Qwen 모델을 NVIDIA Jetson 하드웨어에 파인튜닝해봤는데 성능이 놀라울 정도로 좋았음
여러 7B 변형 모델을 엣지 AI 용도로 배포했는데, 정확도보다 지연 시간(latency) 이 중요한 산업 검사나 리테일 분석 같은 환경에서 특히 유용했음
LoRA 파인튜닝 덕분에 모델이 작아져서 통합 메모리에 잘 맞고, 실시간 추론 속도도 충분히 빠름
가장 놀란 건 전력 효율성이었음 — Jetson Orin이 15W 미만으로 지속 추론을 돌릴 수 있었고, 클라우드 왕복보다 훨씬 에너지 절약됨- 이 댓글은 AI가 생성한 것처럼 보임
요즘 트위터나 레딧에서도 이런 가짜 일화체 포맷의 댓글을 자주 봄. 실제 사람처럼 보이지만 전부 만들어진 이야기 같음 - 흥미로움. 정확도가 조금 떨어져도 괜찮은 산업용 작업 예시를 들 수 있을지 궁금함
- 실제로 이런 모델을 어떤 작업에 쓰는지 구체적인 사례가 궁금함
- 단순한 질문이지만, 이런 용도에 기존 신경망(neural network) 으로도 충분하지 않을까 하는 생각이 듦
- 7B 모델을 15W에서 돌린다고 했는데, Orin 시리즈 중 어떤 모델인지 궁금함
Nano(40 TOPS), NX(100), AGX(275) 중 어느 쪽인지, 혹시 Thor(2070) 에서 더 큰 모델도 실험해봤는지 알고 싶음
- 이 댓글은 AI가 생성한 것처럼 보임
-
사람들이 직접 소형/중형 모델을 파인튜닝해서 쓰는 실제 사례가 궁금함
- 이 주제에 대해 X에 정리한 글이 있음
관련 포스트
예를 들어, - 간단한 문서 분류 작업을 여러 모델로 벤치마크해봤음
Llama-70B, Gemma-4B, Ministral-14B 등 모델별 정확도와 비용을 비교했는데,
4B 모델들도 꽤 괜찮은 성능을 보여줌.
다만 “데이터 양과 성능 향상 간의 관계”에 대한 직관이 사라진 느낌임
직접 파인튜닝을 시도해볼까 고민 중임 - 내 필체 인식 정확도를 높이기 위해 파인튜닝을 고려 중임
기본 모델도 잘 작동하지만, 내 악필 때문에 가끔 인식 오류가 생김 - 좋은 예시로 Atredis 블로그의 LLM 학습 가이드를 추천함
- 이 주제에 대해 X에 정리한 글이 있음
-
요즘 LLM 파인튜닝의 필요성이 점점 줄어드는 것 같음
최신 모델들은 few-shot 학습만으로도 복잡한 작업을 잘 수행함
Qwen3.5처럼 큰 컨텍스트 윈도우를 가진 모델은 강력한 프롬프트 설계로 충분히 대체 가능함
이미지 모델이나 과거 LLM에는 여전히 의미가 있지만, 텍스트 LLM에서는 점점 비효율적이 되어가고 있음- 작은 모델을 특정 구조화된 출력에 맞게 파인튜닝하면, 저렴한 비용으로 대규모 추론을 돌릴 수 있음
대형 모델의 컨텍스트 확장은 비용이 너무 큼 - LLM이 발전하고 있지만, 로봇의 지속 학습이나 멀티모달 LoRA 파인튜닝 같은 영역에서는 여전히 가능성이 큼
Unsloth 가이드처럼 비전+텍스트 파인튜닝도 가능함
앞으로는 모델 라우팅이 일반화되어, 로컬에서는 작은 LoRA 모델을 쓰고 복잡한 작업은 클라우드로 넘기는 구조가 될 것 같음
실제로 DoorDash, Vercel, NASA, Cursor 등도 자체 파인튜닝을 하고 있음 - 나는 모델을 내 글쓰기 스타일에 맞게 파인튜닝하려 했음
Claude나 Qwen, Llama, Gemma 등으로 시도했지만, 스타일 전이가 잘 안 됨
수백 개의 내 댓글을 학습 데이터로 써도, 이미 Instruct 모델이 과도하게 튜닝되어 있어서 추가 학습이 거의 불가능했음 - 한마디로 요약하면 성인물 데이터 때문임
Qwen은 학습 시 이런 데이터를 걸러냈기 때문에, 파인튜닝으로만 복원 가능함
관련 작업 예시: chenrm의 Qwen3 LoRA 모델 - 실제 서비스에서는 여전히 파인튜닝이 중요함
결정적이고 감사 가능한 동작, 환각 감소, 비용 절감형 LoRA/QLoRA 조합이 유용함
RAG와 FAISS 벡터 DB를 함께 쓰면 컨텍스트 폭주를 막을 수 있음
장기적으로는 프롬프트 조정보다 작은 어댑터 관리가 훨씬 효율적임
- 작은 모델을 특정 구조화된 출력에 맞게 파인튜닝하면, 저렴한 비용으로 대규모 추론을 돌릴 수 있음
-
Qwen 팀의 몇몇 리드가 교체된 게 아쉬움
새로운 경영진이 비즈니스 중심으로 바뀌면서 오픈소스 정신이 약해질까 걱정됨- X에서 관련 소식을 봤음
Alibaba CEO/CTO 긴급 미팅 소식
잘 해결되길 바람
- X에서 관련 소식을 봤음
-
문서 중심의 RAG 접근만으로 충분한데, 파인튜닝이 실제로 더 나은 결과를 주는지 궁금함
-
전문화된 모델은 확실히 SOTA를 능가함
예시: FlashCheck - 예전에 Cursor의 tab-next-action 모델이 큰 화제가 됐는데, 사실 그게 70B 모델의 파인튜닝 버전이었음
-
전문화된 모델은 확실히 SOTA를 능가함
-
이번 자료는 대형 MoE 모델만 다루는 것 같음
대부분의 사용자는 소형 모델(예: 9B) 을 목표로 할 텐데,
이 모델은 하이브리드 Mamba 아키텍처를 사용해서 별도 고려가 필요할 듯함