Qwen3.5 파인튜닝 가이드

▲

GN⁺ 2달전 | parent | ★ favorite | on: Qwen3.5 파인튜닝 가이드(unsloth.ai)

Hacker News 의견들

Qwen 모델을 NVIDIA Jetson 하드웨어에 파인튜닝해봤는데 성능이 놀라울 정도로 좋았음
여러 7B 변형 모델을 엣지 AI 용도로 배포했는데, 정확도보다 지연 시간(latency) 이 중요한 산업 검사나 리테일 분석 같은 환경에서 특히 유용했음
LoRA 파인튜닝 덕분에 모델이 작아져서 통합 메모리에 잘 맞고, 실시간 추론 속도도 충분히 빠름
가장 놀란 건 전력 효율성이었음 — Jetson Orin이 15W 미만으로 지속 추론을 돌릴 수 있었고, 클라우드 왕복보다 훨씬 에너지 절약됨
- 이 댓글은 AI가 생성한 것처럼 보임
  요즘 트위터나 레딧에서도 이런 가짜 일화체 포맷의 댓글을 자주 봄. 실제 사람처럼 보이지만 전부 만들어진 이야기 같음
- 흥미로움. 정확도가 조금 떨어져도 괜찮은 산업용 작업 예시를 들 수 있을지 궁금함
- 실제로 이런 모델을 어떤 작업에 쓰는지 구체적인 사례가 궁금함
- 단순한 질문이지만, 이런 용도에 기존 신경망(neural network) 으로도 충분하지 않을까 하는 생각이 듦
- 7B 모델을 15W에서 돌린다고 했는데, Orin 시리즈 중 어떤 모델인지 궁금함
  Nano(40 TOPS), NX(100), AGX(275) 중 어느 쪽인지, 혹시 Thor(2070) 에서 더 큰 모델도 실험해봤는지 알고 싶음
사람들이 직접 소형/중형 모델을 파인튜닝해서 쓰는 실제 사례가 궁금함
- 이 주제에 대해 X에 정리한 글이 있음
  관련 포스트
  예를 들어,
  1. Cursor가 온라인 RL로 승인율 28% 향상 (링크)
  2. Vercel이 AutoFix 모델에 RFT 적용 (링크)
  3. Perplexity Sonar는 Deep Research Reasoning용 파인튜닝 모델 (링크)
  4. DoorDash는 LoRA/QLoRA로 속성 추출 모델 구축 (링크)
  5. NASA의 홍수 감지 모델 (링크)
  6. 로보틱스용 온라인 RL
  7. OpenAI RFT 사례 모음 (링크)
  8. Mercor의 전문가 데이터 기반 모델 성능 향상 (링크)
- 간단한 문서 분류 작업을 여러 모델로 벤치마크해봤음
  Llama-70B, Gemma-4B, Ministral-14B 등 모델별 정확도와 비용을 비교했는데,
  4B 모델들도 꽤 괜찮은 성능을 보여줌.
  다만 “데이터 양과 성능 향상 간의 관계”에 대한 직관이 사라진 느낌임
  직접 파인튜닝을 시도해볼까 고민 중임
- 내 필체 인식 정확도를 높이기 위해 파인튜닝을 고려 중임
  기본 모델도 잘 작동하지만, 내 악필 때문에 가끔 인식 오류가 생김
- 좋은 예시로 Atredis 블로그의 LLM 학습 가이드를 추천함
요즘 LLM 파인튜닝의 필요성이 점점 줄어드는 것 같음
최신 모델들은 few-shot 학습만으로도 복잡한 작업을 잘 수행함
Qwen3.5처럼 큰 컨텍스트 윈도우를 가진 모델은 강력한 프롬프트 설계로 충분히 대체 가능함
이미지 모델이나 과거 LLM에는 여전히 의미가 있지만, 텍스트 LLM에서는 점점 비효율적이 되어가고 있음
- 작은 모델을 특정 구조화된 출력에 맞게 파인튜닝하면, 저렴한 비용으로 대규모 추론을 돌릴 수 있음
  대형 모델의 컨텍스트 확장은 비용이 너무 큼
- LLM이 발전하고 있지만, 로봇의 지속 학습이나 멀티모달 LoRA 파인튜닝 같은 영역에서는 여전히 가능성이 큼
  Unsloth 가이드처럼 비전+텍스트 파인튜닝도 가능함
  앞으로는 모델 라우팅이 일반화되어, 로컬에서는 작은 LoRA 모델을 쓰고 복잡한 작업은 클라우드로 넘기는 구조가 될 것 같음
  실제로 DoorDash, Vercel, NASA, Cursor 등도 자체 파인튜닝을 하고 있음
- 나는 모델을 내 글쓰기 스타일에 맞게 파인튜닝하려 했음
  Claude나 Qwen, Llama, Gemma 등으로 시도했지만, 스타일 전이가 잘 안 됨
  수백 개의 내 댓글을 학습 데이터로 써도, 이미 Instruct 모델이 과도하게 튜닝되어 있어서 추가 학습이 거의 불가능했음
- 한마디로 요약하면 성인물 데이터 때문임
  Qwen은 학습 시 이런 데이터를 걸러냈기 때문에, 파인튜닝으로만 복원 가능함
  관련 작업 예시: chenrm의 Qwen3 LoRA 모델
- 실제 서비스에서는 여전히 파인튜닝이 중요함
  결정적이고 감사 가능한 동작, 환각 감소, 비용 절감형 LoRA/QLoRA 조합이 유용함
  RAG와 FAISS 벡터 DB를 함께 쓰면 컨텍스트 폭주를 막을 수 있음
  장기적으로는 프롬프트 조정보다 작은 어댑터 관리가 훨씬 효율적임
Qwen 팀의 몇몇 리드가 교체된 게 아쉬움
새로운 경영진이 비즈니스 중심으로 바뀌면서 오픈소스 정신이 약해질까 걱정됨
- X에서 관련 소식을 봤음
  Alibaba CEO/CTO 긴급 미팅 소식
  잘 해결되길 바람
문서 중심의 RAG 접근만으로 충분한데, 파인튜닝이 실제로 더 나은 결과를 주는지 궁금함
- 전문화된 모델은 확실히 SOTA를 능가함
  예시: FlashCheck
- 예전에 Cursor의 tab-next-action 모델이 큰 화제가 됐는데, 사실 그게 70B 모델의 파인튜닝 버전이었음
이번 자료는 대형 MoE 모델만 다루는 것 같음
대부분의 사용자는 소형 모델(예: 9B) 을 목표로 할 텐데,
이 모델은 하이브리드 Mamba 아키텍처를 사용해서 별도 고려가 필요할 듯함