Qwen 모델을 NVIDIA Jetson 하드웨어에 파인튜닝해봤는데 성능이 놀라울 정도로 좋았음
여러 7B 변형 모델을 엣지 AI 용도로 배포했는데, 정확도보다 지연 시간(latency) 이 중요한 산업 검사나 리테일 분석 같은 환경에서 특히 유용했음
LoRA 파인튜닝 덕분에 모델이 작아져서 통합 메모리에 잘 맞고, 실시간 추론 속도도 충분히 빠름
가장 놀란 건 전력 효율성이었음 — Jetson Orin이 15W 미만으로 지속 추론을 돌릴 수 있었고, 클라우드 왕복보다 훨씬 에너지 절약됨
이 댓글은 AI가 생성한 것처럼 보임
요즘 트위터나 레딧에서도 이런 가짜 일화체 포맷의 댓글을 자주 봄. 실제 사람처럼 보이지만 전부 만들어진 이야기 같음
흥미로움. 정확도가 조금 떨어져도 괜찮은 산업용 작업 예시를 들 수 있을지 궁금함
실제로 이런 모델을 어떤 작업에 쓰는지 구체적인 사례가 궁금함
단순한 질문이지만, 이런 용도에 기존 신경망(neural network) 으로도 충분하지 않을까 하는 생각이 듦
7B 모델을 15W에서 돌린다고 했는데, Orin 시리즈 중 어떤 모델인지 궁금함
Nano(40 TOPS), NX(100), AGX(275) 중 어느 쪽인지, 혹시 Thor(2070) 에서 더 큰 모델도 실험해봤는지 알고 싶음
간단한 문서 분류 작업을 여러 모델로 벤치마크해봤음 Llama-70B, Gemma-4B, Ministral-14B 등 모델별 정확도와 비용을 비교했는데,
4B 모델들도 꽤 괜찮은 성능을 보여줌.
다만 “데이터 양과 성능 향상 간의 관계”에 대한 직관이 사라진 느낌임
직접 파인튜닝을 시도해볼까 고민 중임
내 필체 인식 정확도를 높이기 위해 파인튜닝을 고려 중임
기본 모델도 잘 작동하지만, 내 악필 때문에 가끔 인식 오류가 생김
요즘 LLM 파인튜닝의 필요성이 점점 줄어드는 것 같음
최신 모델들은 few-shot 학습만으로도 복잡한 작업을 잘 수행함
Qwen3.5처럼 큰 컨텍스트 윈도우를 가진 모델은 강력한 프롬프트 설계로 충분히 대체 가능함
이미지 모델이나 과거 LLM에는 여전히 의미가 있지만, 텍스트 LLM에서는 점점 비효율적이 되어가고 있음
작은 모델을 특정 구조화된 출력에 맞게 파인튜닝하면, 저렴한 비용으로 대규모 추론을 돌릴 수 있음
대형 모델의 컨텍스트 확장은 비용이 너무 큼
LLM이 발전하고 있지만, 로봇의 지속 학습이나 멀티모달 LoRA 파인튜닝 같은 영역에서는 여전히 가능성이 큼 Unsloth 가이드처럼 비전+텍스트 파인튜닝도 가능함
앞으로는 모델 라우팅이 일반화되어, 로컬에서는 작은 LoRA 모델을 쓰고 복잡한 작업은 클라우드로 넘기는 구조가 될 것 같음
실제로 DoorDash, Vercel, NASA, Cursor 등도 자체 파인튜닝을 하고 있음
나는 모델을 내 글쓰기 스타일에 맞게 파인튜닝하려 했음
Claude나 Qwen, Llama, Gemma 등으로 시도했지만, 스타일 전이가 잘 안 됨
수백 개의 내 댓글을 학습 데이터로 써도, 이미 Instruct 모델이 과도하게 튜닝되어 있어서 추가 학습이 거의 불가능했음
한마디로 요약하면 성인물 데이터 때문임
Qwen은 학습 시 이런 데이터를 걸러냈기 때문에, 파인튜닝으로만 복원 가능함
관련 작업 예시: chenrm의 Qwen3 LoRA 모델
실제 서비스에서는 여전히 파인튜닝이 중요함 결정적이고 감사 가능한 동작, 환각 감소, 비용 절감형 LoRA/QLoRA 조합이 유용함
RAG와 FAISS 벡터 DB를 함께 쓰면 컨텍스트 폭주를 막을 수 있음
장기적으로는 프롬프트 조정보다 작은 어댑터 관리가 훨씬 효율적임
Qwen 팀의 몇몇 리드가 교체된 게 아쉬움
새로운 경영진이 비즈니스 중심으로 바뀌면서 오픈소스 정신이 약해질까 걱정됨
Hacker News 의견들
Qwen 모델을 NVIDIA Jetson 하드웨어에 파인튜닝해봤는데 성능이 놀라울 정도로 좋았음
여러 7B 변형 모델을 엣지 AI 용도로 배포했는데, 정확도보다 지연 시간(latency) 이 중요한 산업 검사나 리테일 분석 같은 환경에서 특히 유용했음
LoRA 파인튜닝 덕분에 모델이 작아져서 통합 메모리에 잘 맞고, 실시간 추론 속도도 충분히 빠름
가장 놀란 건 전력 효율성이었음 — Jetson Orin이 15W 미만으로 지속 추론을 돌릴 수 있었고, 클라우드 왕복보다 훨씬 에너지 절약됨
요즘 트위터나 레딧에서도 이런 가짜 일화체 포맷의 댓글을 자주 봄. 실제 사람처럼 보이지만 전부 만들어진 이야기 같음
Nano(40 TOPS), NX(100), AGX(275) 중 어느 쪽인지, 혹시 Thor(2070) 에서 더 큰 모델도 실험해봤는지 알고 싶음
사람들이 직접 소형/중형 모델을 파인튜닝해서 쓰는 실제 사례가 궁금함
관련 포스트
예를 들어,
Llama-70B, Gemma-4B, Ministral-14B 등 모델별 정확도와 비용을 비교했는데,
4B 모델들도 꽤 괜찮은 성능을 보여줌.
다만 “데이터 양과 성능 향상 간의 관계”에 대한 직관이 사라진 느낌임
직접 파인튜닝을 시도해볼까 고민 중임
기본 모델도 잘 작동하지만, 내 악필 때문에 가끔 인식 오류가 생김
요즘 LLM 파인튜닝의 필요성이 점점 줄어드는 것 같음
최신 모델들은 few-shot 학습만으로도 복잡한 작업을 잘 수행함
Qwen3.5처럼 큰 컨텍스트 윈도우를 가진 모델은 강력한 프롬프트 설계로 충분히 대체 가능함
이미지 모델이나 과거 LLM에는 여전히 의미가 있지만, 텍스트 LLM에서는 점점 비효율적이 되어가고 있음
대형 모델의 컨텍스트 확장은 비용이 너무 큼
Unsloth 가이드처럼 비전+텍스트 파인튜닝도 가능함
앞으로는 모델 라우팅이 일반화되어, 로컬에서는 작은 LoRA 모델을 쓰고 복잡한 작업은 클라우드로 넘기는 구조가 될 것 같음
실제로 DoorDash, Vercel, NASA, Cursor 등도 자체 파인튜닝을 하고 있음
Claude나 Qwen, Llama, Gemma 등으로 시도했지만, 스타일 전이가 잘 안 됨
수백 개의 내 댓글을 학습 데이터로 써도, 이미 Instruct 모델이 과도하게 튜닝되어 있어서 추가 학습이 거의 불가능했음
Qwen은 학습 시 이런 데이터를 걸러냈기 때문에, 파인튜닝으로만 복원 가능함
관련 작업 예시: chenrm의 Qwen3 LoRA 모델
결정적이고 감사 가능한 동작, 환각 감소, 비용 절감형 LoRA/QLoRA 조합이 유용함
RAG와 FAISS 벡터 DB를 함께 쓰면 컨텍스트 폭주를 막을 수 있음
장기적으로는 프롬프트 조정보다 작은 어댑터 관리가 훨씬 효율적임
Qwen 팀의 몇몇 리드가 교체된 게 아쉬움
새로운 경영진이 비즈니스 중심으로 바뀌면서 오픈소스 정신이 약해질까 걱정됨
Alibaba CEO/CTO 긴급 미팅 소식
잘 해결되길 바람
문서 중심의 RAG 접근만으로 충분한데, 파인튜닝이 실제로 더 나은 결과를 주는지 궁금함
예시: FlashCheck
이번 자료는 대형 MoE 모델만 다루는 것 같음
대부분의 사용자는 소형 모델(예: 9B) 을 목표로 할 텐데,
이 모델은 하이브리드 Mamba 아키텍처를 사용해서 별도 고려가 필요할 듯함