3P by GN⁺ 6일전 | ★ favorite | 댓글 1개
  • EuroLLM은 유럽 내 연구기관이 공동 개발한 24개 공식 EU 언어 지원 대형언어모델(LLM) 로, 유럽의 AI 주권과 기술 자립을 목표로 함
  • 9B 파라미터 모델로, 35개 언어에서 4조 개 이상의 토큰으로 학습되어 질문응답, 요약, 번역 등 언어 과제에 강점을 보임
  • EuroLLM 9B Base는 파인튜닝용으로 공개되었으며, EuroLLM 9B Instruct는 대화형 지시 수행 기능을 갖춘 버전으로 Hugging Face에서 사용 가능
  • 프로젝트는 Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe 등 유럽 주요 기관이 참여하고 MareNostrum 5 슈퍼컴퓨터에서 학습 수행
  • 멀티모달 확장(이미지·음성) 과 완전한 오픈소스 개방 정책을 예고하며, 유럽 내 AI 혁신 생태계의 핵심 인프라로 자리잡는 것을 목표로 함

EuroLLM 개요

  • EuroLLM은 유럽에서 개발된 대형 언어모델(Local LLM) 로, 모든 EU 공식 언어 24개를 지원
    • 언어 장벽 없이 유럽 시민·기업·연구자들이 사용할 수 있는 공공 인프라형 AI 모델로 설계됨
  • 유럽연합의 Horizon Europe, European Research Council, EuroHPC의 지원을 받아 개발됨
    • MareNostrum 5 슈퍼컴퓨터에서 학습을 수행함

기술 특징

  • EuroLLM 9B: 90억 파라미터 규모, 35개 언어 4조 토큰 데이터로 학습
    • Base 모델은 사용자 파인튜닝용으로, Instruct 모델은 대화형 지시 수행 기능을 갖춤
  • 주요 기능:
    • 질문응답, 요약, 번역 등 다국어 자연어 처리 성능에 최적화
    • 멀티모달 확장 예정 — 향후 이미지와 음성 이해 기능 추가 예정
    • 오픈소스 배포를 통해 연구자, 기관, 일반 시민이 자유롭게 활용 가능

참여 기관 및 협력 네트워크

  • 참여 기관:
    • Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
  • 주요 연구 인물:
    • André Martins (Unbabel, Lisbon 공대 교수) — 머신러닝 및 자연어처리 전문가
    • Alexandra Birch (Aveni.ai, Edinburgh 교수) — 다국어 번역 및 윤리적 AI 연구 선도
    • Pierre Colombo (Université Paris-Saclay) — AI 안전성과 법률 AI 응용 연구

미션과 비전

  • EuroLLM의 목표는 유럽의 AI 주권 확보다국어 기술 발전 촉진에 있음
    • 유럽 내에서 독자적으로 개발된 LLM을 통해 혁신의 선순환(flywheel for innovation) 을 창출
    • 연구자와 기업이 유럽산 AI 모델을 기반으로 새로운 서비스와 연구를 확장할 수 있도록 지원
  • 유럽이 언어 다양성에 기반한 기술 리더십을 강화하며,
    글로벌 AI 생태계에서 자립적 혁신 모델을 구축하는 것을 지향함
Hacker News 의견
  • 유럽연합의 공식 언어는 총 24개임. 불가리아어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 아일랜드어, 이탈리아어, 라트비아어, 리투아니아어, 몰타어, 폴란드어, 포르투갈어, 루마니아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어임
    몰타어는 유일하게 아프로아시아계 언어이고, 헝가리어·핀란드어·에스토니아어는 우랄어족에 속함. 나머지는 인도유럽어족이며, 그리스어는 헬레닉, 아일랜드어는 켈트어족임

    • 몰타어는 정확히 말하면 셈어파(Semitic) 언어임. 위키백과 참고
    • 내일 네덜란드 총선에서 두 정당이 프리지아어를 공식 언어 목록에 추가하자는 제안을 함. 관련 기사
      모델 재학습이 필요할지도 모르겠음
    • 나는 몰타어를 읽고 쓰고 말할 수 있음. 언어에 대해 궁금한 게 있으면 뭐든 물어보길 바람
    • 리투아니아어와 라트비아어는 발트어족임. 슬라브어와는 관련 없음
    • 논문을 보면 모델이 이 24개 언어에만 국한되지 않음. 아랍어, 카탈루냐어, 중국어, 힌디어, 일본어, 한국어, 노르웨이어, 러시아어, 터키어, 우크라이나어 등도 포함됨. 논문 PDF
      훈련 데이터 출처를 세밀히 다룬 점이 이 연구의 주요 기여로 보임
  • 유럽 정책 입안자들이 기술집약 산업을 어떻게 육성해야 하는지 전혀 모르는 것 같음. ‘승자 선정형’ 보조금 방식은 실패할 게 뻔함. 유럽 슈퍼컴퓨터 접근 관련 이야기도 흥미로움. 관련 트윗

    • EU의 보조금 절차가 재미있는 건 아니지만, Levels는 약간 자기 과신이 있는 듯함. 인플루언서로서 수익화는 잘하지만, 국가 지원 슈퍼컴퓨터로 광고 기반 브라우저 게임을 돌리는 건 적절하지 않다고 봄
    • 진짜 중요한 건 유럽이 AI 스타트업 친화적인 환경을 만드는 것임. 규제를 완화하고 세금 혜택을 주는 게 우선임.
      하지만 실제로 유럽 기업들이 겪는 가장 큰 제약은 규제가 아니라 자본 접근성임.
      중국은 오히려 더 강한 규제를 가지고도 소프트웨어 산업이 번성했음. 한국도 마찬가지로 보호주의 덕을 봄.
      유럽이 배워야 할 건 더 많은 기술 보호주의임. Pieter Levels는 결국 인플루언서일 뿐 진지한 창업자는 아님
    • ‘승자 선정 전략’이 실제로 어떤 결과를 낳는지 궁금함
    • 이런 정책의 목적이 정말 ‘승자 선정’인지, 아니면 창업자 역량 강화와 경제 자극인지 의문임.
      미국은 FAANG 출신 창업자가 많지만 유럽은 그런 생태계가 부족함.
      슈퍼컴퓨터 프로젝트가 실패하더라도 부수적 경제 효과가 목표일 수도 있음
    • 사람들이 너무 그에게 관대함. ‘levelsio’가 누군지 모르는 사람도 많을 텐데, 왜 다들 그를 아는 척하는지 궁금함
  • 제목에 “(2024)”가 빠져 있음. 9B 모델은 작년 12월에 공개됨. 공식 페이지

  • EuroLLM 팀은 Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs 등 유럽 주요 기관이 참여함.
    유럽은 EuroHPC JU를 통해 공공 슈퍼컴퓨터 네트워크를 운영 중이며, 접근권을 받자마자 모델 개발을 시작했다고 함. 공식 스토리
    물리 시뮬레이션용 컴퓨팅 자원을 재활용한 셈임

  • 이미 대부분의 프런티어 모델이 다국어를 지원하지 않나? 언어별 지원을 따로 넣을 필요가 없다고 생각함

    • 하지만 이 모델은 EU 공인 데이터로 훈련된 게 핵심임
    • 단순히 언어 예시가 있는 게 아니라, 각 언어의 데이터 비율이 중요함. 영어 데이터가 압도적으로 많기 때문에 다른 언어 성능이 떨어짐
    • 훈련 방식이 다름. 일본어의 경우 토크나이징 문제로 성능이 낮은 경우가 많음
    • 영어 외 언어로는 자연스럽지 않게 번역된 듯한 어투가 많음. 프랑스어 사용자들이 비문을 자주 지적함
    • 유럽 정부는 방대한 디지털 자료와 문화 데이터를 보유하고 있음. 이런 문화적 차이가 모델의 가치관에도 영향을 줄 수 있음
  • 실제 사용된 코퍼스가 공개되지 않아 아쉬움. 아일랜드어 같은 소수 언어는 대부분 법률 문서 기반일 텐데, 구어체 데이터는 거의 없을 것임.
    언어별 평가를 원어민 기준으로 해보면 흥미로울 듯함.
    LLM이 이런 소멸 위기 언어에 긍정적 영향을 줄 수 있지만, 그 전에 위험도 존재함 (예: 스코틀랜드 게일어 위키백과 사례).
    그래도 전반적으로 좋은 시도라고 생각함

  • EuroLLM-9B는 2024년 12월 공개 모델이며, MMLU-Pro 기준 17.6%로 랜덤보다 약간 높은 수준임.
    다른 EU 모델과 비교표는 여기 참고

  • 왜 미국과 중국만 뛰어난 모델을 내는지 의문임. 프랑스의 Mistral 외엔 유럽 모델이 거의 없음. 인도, 일본, 한국도 비슷한 상황임

    • 놀랍진 않음. 유럽은 기술 경쟁력에서 꾸준히 뒤처져 있음.
      인구는 미국의 1.3배, GDP는 75%지만, 기술산업 규모는 미국의 극히 일부임.
      미국 7대 빅테크 기업은 유럽 7대 기업보다 20배 크고, 매출은 10배 많음. 참고 링크
    • 유럽은 자본 접근성이 낮고 시장이 분절되어 있음.
      그래서 Horizon 같은 학술 중심 펀딩에 의존하지만, 이런 협업은 제품화로 이어지기 어려움
    • 프런티어 모델 훈련에는 막대한 자본 구조가 필요함. 미국과 중국만이 수십억 달러를 조달할 수 있음
    • EU는 900페이지짜리 AI 법안을 만들고 자축했지만, 중국은 이미 두 페이지짜리 법을 먼저 시행했음
    • 사실 이런 모델들의 상업적 가치는 아직 입증되지 않음. 대부분 정부 계약이나 투자금으로 운영 중임
  • EuroLLM-9B 모델을 Hugging Face에서 받으려면 연락처 제공 동의가 필요함. 이런 요구는 흔한 일인지 궁금함

    • 나도 몇몇 모델에서 본 적 있음. 예를 들어 Llama 3.1-8B-Instruct도 비슷한 절차가 있음
    • 네, 꽤 일반적인 절차
  • 9B 모델이 주목받는 건 흥미로움. 하지만 두 달 전 공개된 TildeOpen-30B 모델(19개 유럽 언어 지원)은 거의 언급되지 않았음. 모델 페이지
    기본 성능은 낮지만 파인튜닝 잠재력이 큰 오픈 모델임