최근 Gemma 3 소형 모델들을 활용해 영화 추천 도메인으로 SFT 및 LoRA 파인튜닝을 진행해 보았습니다. 실험 과정에서 소형 모델(SLM)의 지식 습득 능력에 대해 몇 가지 한계를 느껴 질문을 올립니다.

[실험]

  • 사용 모델: gemma-3-270m-it, gemma-3-1b-it
  • 학습 방법: LoRA 및 SFT
  • 실험 결과: 1B 모델은 기존 지식을 바탕으로 어느 정도 추론이 가능했으나, 270M 모델은 파라미터 수의 한계로 인해 새로운 도메인 지식을 수용하는 '그릇' 자체가 부족하다는 인상을 받았습니다.

전체적인 튜닝과정은 아래 블로그에 여러 포스팅으로 기록을 남겼습니다.
https://seungsang.tistory.com/entry/…


[직면한 문제]

  • LoRA의 용량 한계: 학습 파라미터가 전체의 1% 내외이다 보니, 단순 태스크 적응(Task Adaptation)을 넘어선 지식 주입(Knowledge Injection)에는 한계가 있었습니다.
  • 전체 튜닝(Full Fine-tuning)의 고민: 모델의 전체 가중치를 업데이트할 경우 지식 주입은 유리하나, 기존에 가진 범용적인 추능 능력(Reasoning)이 상실될 것이라고 생각됩니다. 이를 방지하기 위한 Replay 데이터를 섞고 싶어도 베이스 모델의 학습 데이터가 공개되지 않아 어려운 상황입니다.

영화의 경우에는 이미 모델이 지식을 가지고 있어서 파인튜닝이 가능했다고 생각합니다.
근데, 제가 특정 도메인을 기반으로 하고 싶다면 어떻게 해야할까요?
소형 모델을 특정 도메인에 특화시키고 싶을 때, 부족한 파라미터 용량을 극복하고 효과적으로 도메인 지식을 주입할 수 있는 전략이 무엇이 있을까요?

많은 조언부탁드립니다. CPT(Continue Pre-training) 등 다양한 경험을 공유해주시면 감사합니다.

저도 7B 가지고 파인튜닝하다 잘 안돼서 미치는줄 알았어요. PTSD 올라오네요

LoRA와 파인튜닝은 지식 주입으로 부적합합니다. LoRA와 파인튜닝은 출력 스타일/톤 교정이 최적입니다. RAG 형태로 입력 프롬프트에 지식 관련 정보를 포함하고, 출력 데이터의 리콜/정확성을 평가하신 다음에 LoRA/파인튜닝을 진행하시면 훨씬 효과적입니다.

답변 감사드립니다.

RAG 라면 도메인 관련해서 어떻게 적절하게 데이터를 가져올지 약간 고민이네요.
임베딩 모델 자체를 학습시켜야할지...

소형모델의 토큰수도 줄이고 싶어서 지식을 내재화하고 싶었는데, LoRA 로는 한계가 있는가보군요.

말씀해주신 것들 고민해보겠습니다. 감사합니다.