9P by neo 1일전 | ★ favorite | 댓글 1개
  • 카카오는 서비스 적용에 최적화된 AI 모델을 목표로, 높은 성능과 비용 효율성을 동시에 고려한 ‘카나나 모델 패밀리(Kanana Model Family)’를 개발하고 있음
  • 초거대 언어모델 ‘Kanana Flag’의 학습을 완료하고, 이를 포함한 Kanana Essence, Kanana Nano 등의 언어모델 라인업을 완성
  • AI 연구 생태계 기여 및 글로벌 AI 커뮤니티와의 협업을 위해 ‘Kanana Nano 2.1B’ 모델(base, instruct, embedding)을 오픈소스로 공개

1. Global Top 수준의 한국어·영어 고성능 달성

  • 카카오는 글로벌 경쟁력을 갖춘 모델 개발을 목표로, 한정된 자원 내에서 최고의 성능을 달성하기 위해 다양한 학습 기법을 실험
  • Kanana Flag는 학습자원 최적화를 통해 타사 모델 대비 50% 이상의 학습 비용 절감과 동시에 최고 수준(SOTA)의 성능을 기록
  • 영어 벤치마크(MMLU, MT-Bench)에서 글로벌 모델과 유사한 성능을 보였으며, 한국어 벤치마크(KMMLU, KoMT-Bench)에서는 경쟁 모델 대비 압도적인 성능을 입증
  • 벤치마크 성능 요약
    • 대화 및 요청 수행 성능
      • Kanana Flag 32.5B는 영어 및 한국어 기반 대화에서 경쟁 모델 대비 높은 점수를 기록함
      • 특히 지식 기반 한국어 대화(KoMT-Bench) 및 논리적 사고 평가(LogicKor)에서 우수한 성능을 보임
    • 지식, 코딩, 수학 성능
      • 영어(81.08점) 및 한국어(64.19점) 지식 평가에서 높은 점수를 기록하며, 경쟁 모델 대비 우수한 성과를 거둠
      • 코드 완성 및 코드 솔루션에서도 높은 정확도를 보였으며, 기초 수학(GSM8K)에서는 90.83점으로 우수한 성능을 달성함

2. 학습 효율화로 유사 사이즈 모델 대비 절반 이하의 학습 비용

  • 대규모 언어 모델 학습에는 막대한 컴퓨팅 자원이 소요되므로, 카카오는 학습 효율성을 극대화하는 Pre-training 전략을 적용함
  • Staged pre-training 방식을 활용하여 8B, 26.8B 크기의 모델을 학습한 후, 최적화를 통해 Kanana Nano 2.1B 모델을 구축함
  • 가지치기(Pruning) 및 지식 증류(Distillation) 기법을 활용하여 경량화 모델을 최적화함
  • 깊이 업스케일링(DUS, Depth Up-Scaling) 기법을 적용하여, Kanana Essence 9.8B 및 Kanana Flag 32.5B를 개발함
  • 이를 통해 유사한 크기의 글로벌 모델 대비 절반 이하의 비용으로 학습을 최적화하는 데 성공함

3. 온디바이스에서도 활용 가능한 고성능 경량 모델, Kanana Nano 2.1B 오픈소스 공개

  • 연구자 및 개발자의 활용도를 고려하여, ‘Kanana Nano 2.1B’의 base, instruct, embedding 버전을 오픈소스로 공개함
  • Kanana Nano 2.1B는 온디바이스 환경에서도 원활히 운영될 수 있도록 설계되어, 연구 및 개발 목적으로 활용 가능함
  • 대형 모델의 높은 비용 문제와 작은 모델의 낮은 정확도 문제를 고려하여, 가장 실용적인 크기로 공개를 결정함
  • 비교적 작은 모델임에도 글로벌 모델과 견줄 수 있는 성능을 보이며, 다양한 응용 가능성을 제공함
  • 다만, 복잡한 추론이나 수학 문제 해결 등 고난도 태스크에서는 한계가 있을 수 있으나, 연구자 및 개발자들이 이를 기반으로 다양한 연구를 진행할 수 있도록 지원할 예정임

마무리

  • 카카오는 이번 테크니컬 리포트를 통해 카나나 언어모델 전체 라인업오픈소스 모델 Kanana Nano 2.1B를 소개함
  • 향후 강화학습(RL) 기반 기술을 접목하여 reasoning(추론) 능력, 수학 및 코드 성능을 강화할 예정임
  • 연속 학습(Continual Learning) 을 통해 새로운 데이터를 지속적으로 학습하면서 기존 학습 내용을 유지할 수 있도록 개선할 계획임
  • 얼라인먼트(Alignment) 기술을 고도화하여 사용자 요청 수행 능력을 강화하고, AI가 보다 자연스럽게 이해하고 대화할 수 있도록 발전시킬 예정임
  • 궁극적으로 카나나 모델은 멀티모달 AI로 진화하여 사람처럼 보고, 듣고, 말하며 직관적으로 소통할 수 있도록 개발될 것임
  • 카카오는 AI가 사용자 일상에 가치를 더할 수 있도록 지속적으로 도전하고, 기술 경쟁력을 강화해 나갈 계획임

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] 가지치기(Pruning): AI 모델의 구성 요소를 가지치기해 중요 요소만 남기는 기법
[2] 지식증류(Distillation): 큰 모델의 지식을 더 작은 모델로 전달하는 기법
[3] 깊이 업스케일링(Depth Up-Scaling): 기존 모델의 레이어를 더 많이 쌓아 올려 모델 규모를 효과적으로 키우는 방식

라이센스가 어떻게 되어 있나 봤더니 CC BY-NC-ND 4.0네요..?? NonCommercial이면 카카오 외 회사는 쓰지말라는건지... 의도를 잘 모르겠네요