정부 도메인 특화 sLLM 구축기 — Gemma-3-1B를 국토교통부 데이터로 파인튜닝한 RAG 챗봇

(riss.kr)

2P by chohi 3시간전 | ★ favorite | 댓글 1개

정부 도메인 특화 sLLM 구축기 — molit-gemma + RAG

공공기관에서 ChatGPT/Claude 같은 외부 LLM을 쓰기 어려운
보안 환경에서 온프레미스로 도메인 특화 챗봇을 구축한 사례입니다.

TL;DR

Google Gemma-3-1B를 국토교통부 정책 문서로 파인튜닝 → molit-gemma
OpenSearch 기반 RAG로 환각 완화
BLEU 0.6258, LLM-as-a-Judge 4.34/5.0
전체 온프레미스 배포 (외부 API 0)

왜 sLLM인가

정부 민원 응답은 외부 API 호출 시 데이터 유출 우려
70B급 모델은 GPU 인프라 부담 → 1B 모델 + RAG로 보완
도메인 특화 파인튜닝이 일반 LLM보다 정확도 우수

구조

사용자 질의 → OpenSearch 검색 → Top-K 정책 문서 →
molit-gemma 응답 생성 → 출처 인용

시사점

공공부문에서 sLLM + RAG 조합의 실증적 베이스라인 제시
1B 모델로도 도메인 한정하면 실용 수준 도달 가능
환각 완화 + 설명 가능성 확보

링크

논문(RISS): https://www.riss.kr/link?id=T17378943
모델(Hugging Face): https://huggingface.co/chohi/gemma-molit-finetuned/blob/main/README.md
코드(GitHub): https://github.com/chohi22/Industrial-AI/…

jhk0530 22분전 [-]

학위 논문 축하드립니다 !