# Qwen3.5 파인튜닝 가이드

> Clean Markdown view of GeekNews topic #27225. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27225](https://news.hada.io/topic?id=27225)
- GeekNews Markdown: [https://news.hada.io/topic/27225.md](https://news.hada.io/topic/27225.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-06T00:34:36+09:00
- Updated: 2026-03-06T00:34:36+09:00
- Original source: [unsloth.ai](https://unsloth.ai/docs/models/qwen3.5/fine-tune)
- Points: 16
- Comments: 2

## Summary

**Qwen3.5 모델군**이 오픈소스 프레임워크 **Unsloth**를 통해 텍스트와 비전 기반으로 손쉽게 파인튜닝할 수 있게 되었습니다. Unsloth는 FlashAttention‑2 대비 **1.5배 빠른 학습 속도**와 **VRAM 50% 절감**을 제공하며, Colab 환경에서 0.8B~4B 모델을 무료로 실험할 수 있습니다. 특히 **MoE 모델(35B·122B)** 은 최신 커널을 통해 학습 속도가 12배 향상되고, VRAM 사용량이 35% 줄어든 구성을 지원합니다. 학습된 모델은 GGUF, vLLM, Ollama 등 다양한 포맷으로 내보내 실서비스에 바로 활용할 수 있습니다.

## Topic Body

- **Qwen3.5 모델군(0.8B~122B)** 을 LLM 파인튜닝 및 강화학습용 오픈소스 프레임워크인 Unsloth로 **텍스트 및 비전 기반 파인튜닝**을 할 수 있음  
- Unsloth는 **FlashAttention-2 대비 1.5배 빠른 학습 속도**와 **VRAM 50% 절감**을 제공하며, **bf16 LoRA** 설정으로 효율적 학습 가능  
- **Colab 노트북**을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, **A100 환경용 27B·35B 모델 노트북**도 제공  
- **MoE 모델(35B, 122B 등)** 은 최신 커널로 **12배 빠른 학습**, **35% 적은 VRAM**, **6배 긴 컨텍스트 길이**를 지원  
- 학습 후 모델은 **GGUF, vLLM, Ollama, LM Studio, SGLang** 등 다양한 배포 포맷으로 내보낼 수 있음  
  
---  
### Qwen3.5 미세조정 개요  
- Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 **Unsloth**로 미세조정 가능  
  - 텍스트와 비전(vision) 모두 지원  
  - **Qwen3.5‑35B‑A3B bf16 LoRA**는 74GB VRAM에서 작동  
- Unsloth는 **1.5배 빠른 학습 속도**, **50% 적은 VRAM 사용량**을 제공  
  - VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)  
- **무료 Google Colab 노트북**으로 0.8B, 2B, 4B 모델을 실험 가능  
- **추론 능력 유지**를 위해 reasoning 예시를 75% 이상 포함하는 데이터 구성이 권장됨  
- **Full Fine-Tuning(FFT)** 도 가능하나 VRAM 사용량이 4배 증가  
  
### 학습 환경 및 설정  
- Qwen3.5는 **201개 언어**를 지원하는 다국어 모델  
- **Reinforcement Learning(RL)** 및 **Vision RL(VLM RL)** 도 Unsloth를 통해 지원  
- **A100 Colab 노트북** 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B  
- 로컬 학습 시 최신 버전으로 업데이트 필요  
  - 명령어: `pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo`  
- **transformers v5** 필수, 구버전은 작동하지 않음  
- **Mamba Triton 커널** 컴파일로 인해 초기 학습이 느릴 수 있음 (특히 T4 GPU)  
- **QLoRA(4-bit)** 학습은 권장되지 않음  
  
### MoE 모델 미세조정 (35B, 122B)  
- **Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B** 모델 지원  
  - **12배 빠른 학습**, **35% 적은 VRAM**, **6배 긴 컨텍스트 길이**  
- **bf16 LoRA 또는 Full Fine-Tuning** 권장  
- **MoE QLoRA 4-bit**는 BitsandBytes 한계로 비추천  
- **Unsloth MoE 커널** 기본 활성화, `UNSLOTH_MOE_BACKEND`로 백엔드 전환 가능  
- **Router-layer fine-tuning**은 안정성 이유로 기본 비활성화  
- **Qwen3.5‑122B‑A10B bf16 LoRA**는 256GB VRAM 필요  
  - 다중 GPU 사용 시 `device_map = "balanced"` 설정 또는 multiGPU 가이드 참고  
  
### Quickstart  
- 텍스트 전용 SFT(지도학습 미세조정) 예시 제공  
- Qwen3.5는 **Causal Language Model + Vision Encoder** 구조  
  - 비전 종속성(`torchvision`, `pillow`) 설치 필요  
- 최신 **Transformers** 버전 사용 권장  
- **GRPO 학습**은 fast vLLM 비활성화 후 Unsloth inference로 수행 가능  
- **OOM(메모리 초과)** 발생 시  
  - `per_device_train_batch_size=1`, `max_seq_length` 축소  
  - `gradient_checkpointing="unsloth"` 유지로 VRAM 절감 및 컨텍스트 확장  
- **MoE bf16 LoRA 로더 예시** 제공  
  
### Vision 미세조정  
- **멀티모달 Qwen3.5 모델**의 비전 미세조정 지원  
  - Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)  
- **비전/텍스트 전용 학습 선택 가능**  
  - Vision, Language, Attention, MLP 레이어 중 선택적 미세조정  
  - 기본값은 전체 활성화  
- **다중 이미지 학습**은 별도 multi-image vision 가이드 참고  
  
### 모델 저장 및 배포  
- **llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang** 등 다양한 배포 방식 지원  
  
#### GGUF 저장  
- Unsloth에서 **GGUF 포맷 직접 저장** 및 **Hugging Face 업로드** 지원  
- 추론 시 성능 저하 발생 시, **잘못된 chat template 또는 EOS 토큰** 사용이 주요 원인  
  
#### vLLM 저장  
- **vLLM 0.16.0**은 Qwen3.5 미지원  
  - **0.170 이상** 또는 **Nightly 버전** 필요  
- 16-bit 저장 및 **LoRA 어댑터만 저장** 가능  
- 세부 내용은 Unsloth의 **inference 가이드** 참고

## Comments



### Comment 52500

- Author: hmmhmmhm
- Created: 2026-03-06T10:52:52+09:00
- Points: 1

지난 번에 에이전트 통해서 파인튠 돌려봤을땐 데이터에 따라 과적합 문제가 발생하는게 빈번해보였는데 이번 노트북에선 LoRA/QLoRA 조합으로 가능할지 궁금하네요

### Comment 52482

- Author: neo
- Created: 2026-03-06T00:34:37+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47246296) 
- **Qwen** 모델을 **NVIDIA Jetson** 하드웨어에 파인튜닝해봤는데 성능이 놀라울 정도로 좋았음  
  여러 7B 변형 모델을 엣지 AI 용도로 배포했는데, 정확도보다 **지연 시간(latency)** 이 중요한 산업 검사나 리테일 분석 같은 환경에서 특히 유용했음  
  LoRA 파인튜닝 덕분에 모델이 작아져서 통합 메모리에 잘 맞고, 실시간 추론 속도도 충분히 빠름  
  가장 놀란 건 **전력 효율성**이었음 — Jetson Orin이 15W 미만으로 지속 추론을 돌릴 수 있었고, 클라우드 왕복보다 훨씬 에너지 절약됨
  - 이 댓글은 AI가 생성한 것처럼 보임  
    요즘 트위터나 레딧에서도 이런 **가짜 일화체 포맷**의 댓글을 자주 봄. 실제 사람처럼 보이지만 전부 만들어진 이야기 같음
  - 흥미로움. 정확도가 조금 떨어져도 괜찮은 **산업용 작업 예시**를 들 수 있을지 궁금함
  - 실제로 이런 모델을 어떤 작업에 쓰는지 **구체적인 사례**가 궁금함
  - 단순한 질문이지만, 이런 용도에 **기존 신경망(neural network)** 으로도 충분하지 않을까 하는 생각이 듦
  - 7B 모델을 15W에서 돌린다고 했는데, Orin 시리즈 중 어떤 모델인지 궁금함  
    Nano(40 TOPS), NX(100), AGX(275) 중 어느 쪽인지, 혹시 **Thor(2070)** 에서 더 큰 모델도 실험해봤는지 알고 싶음

- 사람들이 직접 **소형/중형 모델을 파인튜닝**해서 쓰는 실제 사례가 궁금함
  - 이 주제에 대해 X에 정리한 글이 있음  
    [관련 포스트](https://x.com/danielhanchen/status/1979389893165060345?s=20)  
    예를 들어,  
    1. **Cursor**가 온라인 RL로 승인율 28% 향상 ([링크](https://cursor.com/blog/tab-rl))  
    2. **Vercel**이 AutoFix 모델에 RFT 적용 ([링크](https://vercel.com/blog/v0-composite-model-family))  
    3. **Perplexity Sonar**는 Deep Research Reasoning용 파인튜닝 모델 ([링크](https://docs.perplexity.ai/docs/getting-started/overview))  
    4. **DoorDash**는 LoRA/QLoRA로 속성 추출 모델 구축 ([링크](https://careersatdoordash.com/blog/unleashing-the-power-of-large-language-models-at-doordash-for-a-seamless-shopping-adventure/))  
    5. **NASA**의 홍수 감지 모델 ([링크](https://earthdata.nasa.gov/news/nasa-ibm-openly-release-geospatial-ai-foundation-model-nasa-earth-observation-data))  
    6. 로보틱스용 온라인 RL  
    7. **OpenAI RFT** 사례 모음 ([링크](https://developers.openai.com/api/docs/guides/rft-use-cases))  
    8. **Mercor**의 전문가 데이터 기반 모델 성능 향상 ([링크](https://www.mercor.com/blog/expert-data-drives-model-performance/))
  - 간단한 문서 분류 작업을 여러 모델로 벤치마크해봤음  
    **Llama-70B**, **Gemma-4B**, **Ministral-14B** 등 모델별 정확도와 비용을 비교했는데,  
    4B 모델들도 꽤 괜찮은 성능을 보여줌.  
    다만 “데이터 양과 성능 향상 간의 관계”에 대한 **직관이 사라진 느낌**임  
    직접 파인튜닝을 시도해볼까 고민 중임
  - 내 필체 인식 정확도를 높이기 위해 파인튜닝을 고려 중임  
    기본 모델도 잘 작동하지만, 내 **악필** 때문에 가끔 인식 오류가 생김
  - 좋은 예시로 [Atredis 블로그의 LLM 학습 가이드](https://www.atredis.com/blog/2024/6/3/how-to-train-your-large-language-model)를 추천함

- 요즘 **LLM 파인튜닝의 필요성**이 점점 줄어드는 것 같음  
  최신 모델들은 **few-shot 학습**만으로도 복잡한 작업을 잘 수행함  
  Qwen3.5처럼 **큰 컨텍스트 윈도우**를 가진 모델은 강력한 프롬프트 설계로 충분히 대체 가능함  
  이미지 모델이나 과거 LLM에는 여전히 의미가 있지만, 텍스트 LLM에서는 점점 **비효율적**이 되어가고 있음
  - 작은 모델을 특정 **구조화된 출력**에 맞게 파인튜닝하면, 저렴한 비용으로 대규모 추론을 돌릴 수 있음  
    대형 모델의 컨텍스트 확장은 비용이 너무 큼
  - LLM이 발전하고 있지만, **로봇의 지속 학습**이나 **멀티모달 LoRA 파인튜닝** 같은 영역에서는 여전히 가능성이 큼  
    [Unsloth 가이드](https://unsloth.ai/docs/models/qwen3.5/fine-tune)처럼 비전+텍스트 파인튜닝도 가능함  
    앞으로는 **모델 라우팅**이 일반화되어, 로컬에서는 작은 LoRA 모델을 쓰고 복잡한 작업은 클라우드로 넘기는 구조가 될 것 같음  
    실제로 DoorDash, Vercel, NASA, Cursor 등도 자체 파인튜닝을 하고 있음
  - 나는 모델을 내 글쓰기 스타일에 맞게 파인튜닝하려 했음  
    Claude나 Qwen, Llama, Gemma 등으로 시도했지만, **스타일 전이**가 잘 안 됨  
    수백 개의 내 댓글을 학습 데이터로 써도, 이미 **Instruct 모델이 과도하게 튜닝**되어 있어서 추가 학습이 거의 불가능했음
  - 한마디로 요약하면 **성인물 데이터** 때문임  
    Qwen은 학습 시 이런 데이터를 걸러냈기 때문에, 파인튜닝으로만 복원 가능함  
    관련 작업 예시: [chenrm의 Qwen3 LoRA 모델](https://huggingface.co/chenrm/qwen3-235b-a22b-h-corpus-lora)
  - 실제 서비스에서는 여전히 파인튜닝이 중요함  
    **결정적이고 감사 가능한 동작**, **환각 감소**, **비용 절감형 LoRA/QLoRA** 조합이 유용함  
    RAG와 **FAISS 벡터 DB**를 함께 쓰면 컨텍스트 폭주를 막을 수 있음  
    장기적으로는 프롬프트 조정보다 **작은 어댑터 관리**가 훨씬 효율적임

- Qwen 팀의 몇몇 리드가 교체된 게 아쉬움  
  새로운 경영진이 **비즈니스 중심**으로 바뀌면서 오픈소스 정신이 약해질까 걱정됨
  - X에서 관련 소식을 봤음  
    [Alibaba CEO/CTO 긴급 미팅 소식](https://x.com/poezhao0605/status/2029151951167078454)  
    잘 해결되길 바람

- 문서 중심의 RAG 접근만으로 충분한데, **파인튜닝이 실제로 더 나은 결과**를 주는지 궁금함
  - **전문화된 모델**은 확실히 SOTA를 능가함  
    예시: [FlashCheck](https://nehmeailabs.com/flashcheck)
  - 예전에 **Cursor의 tab-next-action 모델**이 큰 화제가 됐는데, 사실 그게 70B 모델의 파인튜닝 버전이었음

- 이번 자료는 **대형 MoE 모델**만 다루는 것 같음  
  대부분의 사용자는 **소형 모델(예: 9B)** 을 목표로 할 텐데,  
  이 모델은 **하이브리드 Mamba 아키텍처**를 사용해서 별도 고려가 필요할 듯함
