9P by xguru 23시간전 | ★ favorite | 댓글 14개
  • "Mi:dm"은 한국 사회의 언어/문화적 특성을 반영한 상업적 활용이 가능한 오픈소스 모델
  • 고품질 한국어 데이터 선별과 합성 데이터 생성, 커리큘럼 러닝, 한국어 특화된 고유 토크나이저 등 다층적 최적화 전략을 사용
  • 온디바이스용 mini(2.3B), 성능과 효율의 밸런스 base(11B), 프론티어급 pro(41B, 공개예정)의 3가지 모델
    • Mi:dm 2.0 Mini (2.3B): 경량화 모델로, 임베디드 환경과 특수 목적에 최적화
    • Mi:dm 2.0 Base (11.5B): 대규모 범용 모델, Depth-up Scaling 기법으로 기존 8B 모델을 심층화하여 성능 강화
    • Base, Mini 모두 32K 토큰 입력 지원
  • KMMLU, HAERAE 등 한국어 벤치마크에서 최고 수준의 성능을 보이며, 연구/상업적 사용 모두 자유로운 MIT 라이선스로 공개

데이터 구성 및 전략

  • 한국어 고품질 문서 확보에 중점, 맥락성, 가독성, 비유해성 기준으로 문서 선별
  • 합성 데이터(번역, 키워드 기반 교재 생성, Chain-of-Thought 등)를 활용하여 도메인 다양성 확보
  • 커리큘럼 러닝도메인 밸런싱으로 훈련 데이터의 불균형 해소
  • 한국어 최적화 토크나이저로 압축 효율과 언어 구조 반영 강화
  • 데이터 분류 체계

    • 언어, 도메인, 데이터 소스, 표현/스타일 등 다차원 분류 체계 적용
    • 6개 주요 도메인(인문, STEM, 응용과학, 건강/식품, 생활/문화, 기타)와 20개 하위 도메인
    • 85.7% 이상을 자연적(organic) 데이터로 구성, 14%는 합성 데이터
  • 품질 관리 파이프라인

    • 8단계 대용량 웹문서 필터링: 중복제거, 휴리스틱, perplexity, 문자 손상/수정, 모델 기반 품질 필터, 유해성 필터, 라인 중복, PII 비식별화 등
    • 각 소스별로 별도 정제 및 규칙 적용(예: 뉴스, 법률문서, 학술논문 등)
  • 합성 데이터 생성

    • STEM, 경제 등 저커버리지 분야는 고신뢰 오픈소스 데이터를 시드로, 한국어 교재/설명/문제 등 합성하여 데이터 강화
    • 불용(부적격) 웹문서도 핵심 주제만 추출·재작성하여 활용
    • 영어 웹문서의 구조적 다양성한국어로 변환·확장하여 장문의 QA·작문 데이터 확보
    • Chain-of-Thought 데이터로 수학·코드 등 단계별 추론 학습 강화

모델 아키텍처 및 훈련

  • Transformer 디코더-only 구조
  • Base: 8B 모델 → Depth-up Scaling(32→48층) → 11.5B로 확장, 고품질 데이터로 2단계 연속 학습
  • Mini: Base의 지식을 width pruning다단계 distillation으로 경량화, 효율적 추론 가능
  • Long-context 학습으로 최대 32,768 토큰 입력 지원
  • GQA, SiLU, RoPE 등 최신 기술 반영

사용 후기 및 소개 글들

단순히 이름만 봐도 신뢰성이 낮아 보여요.
이름 가운데에 콜론은 왜 넣어놓은 걸까요? 의미상의 이유가 있을까요? 아니면 설마 저게 멋있다고 생각하는 걸까요?
그리고 믿:음 이면 알파벳으로는 mid:m 이라고 표기해야 하지 않아요?

다양한 의견들이 있겠지만, 전 기본적으로 국내에서 시도하는 모든 AI 관련 프로젝트는 다 의미가 있다고 생각합니다. 남들과 비교해서 수준을 평가하는 것 보다, 시도 자체를 칭찬해줘야하는 상황이라고 생각해요.

대응이 늦은게 사실이고, 돈도 GPU도 미국/중국에 비해 열세이긴 하지만, 칭찬해주고 같이 써서 개선하다 보면 좋아지지 않을까요.

일부 동의합니다.
저는 AI 서비스랍시고 외부 API 쓰는 래퍼를 만드는 건 아무 생산성 없는 일이며 수수료 장사라고 생각하지만,
기업들이 모델 파인튜닝이라도 해서 올리는 건 결국 자사 자원을 들여서 공개하는 거니까 부정적으로 볼 이유가 없다고 생각합니다.

다만 외부, 가령 나라에서 돈을 받기 시작하면 좋게만 볼 수는 없을 것 같긴 합니다만...

저는 AI 서비스랍시고 외부 API 쓰는 래퍼를 만드는 건 아무 생산성 없는 일이며 수수료 장사라고 생각하지만,

이 말에 덧붙여서, api를 쓰더라도 manus 수준으로 잘 활용하면 성과로 볼 수 있지만, 아직 한국에 그 정도의 래퍼는 없는 거 같네요.

기반 성능을 올리는 과제로는 경쟁력있게 나설 수 없으니까요

AI 모델 이름이 포스트 아포칼립스나 디스토피아에 나올법한 불길한 이름이네요 ㅋㅋ

한국 기업들이나 정부가 한국어 특화 언어 모델에 집중하는 이유가 뭘까요? 인터넷 스케일 대용량 데이터로 학습해서 성능을 높인다는 요즘 LLM 추세 생각해보면 오히려 언어 상관없이 범용적인 모델이 더 자연스러워 보이는데 굳이 한국어에 특화된 LM이 무슨 장점이 있는지 모르겠어요

AI가 차세대의 기반이라고 진정 생각한다면, 국가 핵심 기반 기술이 타국의 기술에 의존성을 갖는 건 바람직하지 않으니까...?

사용자가 적은 언어의 품질이 떨어지는 것 자체는 사실이고, 그렇다고 한국어만 잘하게 만들 것 같지는 않습니다. 그럴이유도 딱히 없고요. 그리고 문제는 저희가 그 사용자가 적은 언어의 사용자라는게....

냉정하게 이야기해서 경쟁력이 없기 때문입니다.
프론티어 오픈소스 모델 개발은 보통 빅테크에서 수십억 이상의 연봉을 받는 Research Engineer들로 이루어진 팀이 굉장한 GPU 리소스 지원 아래 이루어집니다. (과거 Meta에서 1개의 프로젝트에 투입된 GPU가 A100 1만대 였는데, 당시 한국에 있던 A100 전체 물량보다 많았던 것으로 기억합니다.)

한국에서 LLM 개발에 투입하는 인력과 GPU 자원은 현실적으로 세계에서 경쟁하기 어려운 수준입니다.
우리가 유독 못하고 있다기 보다는 미국, 중국이 너무 압도적이라 따라가기 힘들다고 보는게 맞을 것 같습니다.

저도 잘 모르지만 think 하는 과정들 보면 한국어로 질의해도 영어로 하는 경우가 있던데 그런 과정을 한국어로 할 수 있으면 좀 국내 정서?에 맞는 답을 내놓을 수 있지 않을까요

앞으로 개발되거나 발전될 새로운 AI 또는 기존 AI들의 상향평준화를 염두하고 투자하는게 아닐까요? 딥시크 처럼요. 이런 AI에 한국정서를 담아낸다면 경쟁력 있어 보입니다. 미래의 얘기지만요.

정부의 눈먼 돈 빨아먹으려고 하는거 같습니다

한국어가 깨져서 그런게 아닐까요? 잼미니도 그렇고 쓰다보면 어느 시점에 다른 언어로 튀는 경우가 너무 많아서..