믿:음 2.0 - KT의 자체개발 오픈소스 LLM
(huggingface.co)- "Mi:dm"은 한국 사회의 언어/문화적 특성을 반영한 상업적 활용이 가능한 오픈소스 모델
- 고품질 한국어 데이터 선별과 합성 데이터 생성, 커리큘럼 러닝, 한국어 특화된 고유 토크나이저 등 다층적 최적화 전략을 사용
- 온디바이스용 mini(2.3B), 성능과 효율의 밸런스 base(11B), 프론티어급 pro(41B, 공개예정)의 3가지 모델
- Mi:dm 2.0 Mini (2.3B): 경량화 모델로, 임베디드 환경과 특수 목적에 최적화
- Mi:dm 2.0 Base (11.5B): 대규모 범용 모델, Depth-up Scaling 기법으로 기존 8B 모델을 심층화하여 성능 강화
- Base, Mini 모두 32K 토큰 입력 지원
- KMMLU, HAERAE 등 한국어 벤치마크에서 최고 수준의 성능을 보이며, 연구/상업적 사용 모두 자유로운 MIT 라이선스로 공개
데이터 구성 및 전략
- 한국어 고품질 문서 확보에 중점, 맥락성, 가독성, 비유해성 기준으로 문서 선별
- 합성 데이터(번역, 키워드 기반 교재 생성, Chain-of-Thought 등)를 활용하여 도메인 다양성 확보
- 커리큘럼 러닝과 도메인 밸런싱으로 훈련 데이터의 불균형 해소
- 한국어 최적화 토크나이저로 압축 효율과 언어 구조 반영 강화
-
데이터 분류 체계
- 언어, 도메인, 데이터 소스, 표현/스타일 등 다차원 분류 체계 적용
- 6개 주요 도메인(인문, STEM, 응용과학, 건강/식품, 생활/문화, 기타)와 20개 하위 도메인
- 85.7% 이상을 자연적(organic) 데이터로 구성, 14%는 합성 데이터
-
품질 관리 파이프라인
- 8단계 대용량 웹문서 필터링: 중복제거, 휴리스틱, perplexity, 문자 손상/수정, 모델 기반 품질 필터, 유해성 필터, 라인 중복, PII 비식별화 등
- 각 소스별로 별도 정제 및 규칙 적용(예: 뉴스, 법률문서, 학술논문 등)
-
합성 데이터 생성
- STEM, 경제 등 저커버리지 분야는 고신뢰 오픈소스 데이터를 시드로, 한국어 교재/설명/문제 등 합성하여 데이터 강화
- 불용(부적격) 웹문서도 핵심 주제만 추출·재작성하여 활용
- 영어 웹문서의 구조적 다양성을 한국어로 변환·확장하여 장문의 QA·작문 데이터 확보
- Chain-of-Thought 데이터로 수학·코드 등 단계별 추론 학습 강화
모델 아키텍처 및 훈련
- Transformer 디코더-only 구조
- Base: 8B 모델 → Depth-up Scaling(32→48층) → 11.5B로 확장, 고품질 데이터로 2단계 연속 학습
- Mini: Base의 지식을 width pruning과 다단계 distillation으로 경량화, 효율적 추론 가능
- Long-context 학습으로 최대 32,768 토큰 입력 지원
- GQA, SiLU, RoPE 등 최신 기술 반영
사용 후기 및 소개 글들
- KT의 믿:음 2.0 소개 페이지
- KT의 믿:음 1.0 출시때 홍보자료 - 믿음(Mi:dm), 이성과 감성을 넘어 개성을 표현하다
한국 기업들이나 정부가 한국어 특화 언어 모델에 집중하는 이유가 뭘까요? 인터넷 스케일 대용량 데이터로 학습해서 성능을 높인다는 요즘 LLM 추세 생각해보면 오히려 언어 상관없이 범용적인 모델이 더 자연스러워 보이는데 굳이 한국어에 특화된 LM이 무슨 장점이 있는지 모르겠어요
저도 잘 모르지만 think 하는 과정들 보면 한국어로 질의해도 영어로 하는 경우가 있던데 그런 과정을 한국어로 할 수 있으면 좀 국내 정서?에 맞는 답을 내놓을 수 있지 않을까요
앞으로 개발되거나 발전될 새로운 AI 또는 기존 AI들의 상향평준화를 염두하고 투자하는게 아닐까요? 딥시크 처럼요. 이런 AI에 한국정서를 담아낸다면 경쟁력 있어 보입니다. 미래의 얘기지만요.