# EuroLLM: 유럽에서 개발된, EU 24개 공식 언어를 지원하는 LLM

> Clean Markdown view of GeekNews topic #23986. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23986](https://news.hada.io/topic?id=23986)
- GeekNews Markdown: [https://news.hada.io/topic/23986.md](https://news.hada.io/topic/23986.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-10-29T10:52:33+09:00
- Updated: 2025-10-29T10:52:33+09:00
- Original source: [eurollm.io](https://eurollm.io/)
- Points: 3
- Comments: 1

## Topic Body

- **EuroLLM**은 유럽 내 연구기관이 공동 개발한 **24개 공식 EU 언어 지원 대형언어모델(LLM)** 로, 유럽의 **AI 주권과 기술 자립**을 목표로 함  
- **9B 파라미터 모델**로, 35개 언어에서 **4조 개 이상의 토큰**으로 학습되어 **질문응답, 요약, 번역 등 언어 과제에 강점**을 보임  
- **EuroLLM 9B Base**는 파인튜닝용으로 공개되었으며, **EuroLLM 9B Instruct**는 대화형 지시 수행 기능을 갖춘 버전으로 Hugging Face에서 사용 가능  
- 프로젝트는 **Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe** 등 유럽 주요 기관이 참여하고 **MareNostrum 5 슈퍼컴퓨터**에서 학습 수행  
- **멀티모달 확장(이미지·음성)** 과 완전한 **오픈소스 개방 정책**을 예고하며, 유럽 내 **AI 혁신 생태계의 핵심 인프라**로 자리잡는 것을 목표로 함  
  
---  
### EuroLLM 개요  
- EuroLLM은 유럽에서 개발된 **대형 언어모델(Local LLM)** 로, **모든 EU 공식 언어 24개를 지원**함  
  - 언어 장벽 없이 유럽 시민·기업·연구자들이 사용할 수 있는 **공공 인프라형 AI 모델**로 설계됨  
- 유럽연합의 **Horizon Europe**, **European Research Council**, **EuroHPC**의 지원을 받아 개발됨  
  - **MareNostrum 5 슈퍼컴퓨터**에서 학습을 수행함  
  
### 기술 특징  
- **EuroLLM 9B**: 90억 파라미터 규모, 35개 언어 4조 토큰 데이터로 학습  
  - **Base 모델**은 사용자 파인튜닝용으로, **Instruct 모델**은 대화형 지시 수행 기능을 갖춤  
- 주요 기능:  
  - **질문응답**, **요약**, **번역** 등 다국어 자연어 처리 성능에 최적화  
  - **멀티모달 확장 예정** — 향후 이미지와 음성 이해 기능 추가 예정  
  - **오픈소스 배포**를 통해 연구자, 기관, 일반 시민이 자유롭게 활용 가능  
  
### 참여 기관 및 협력 네트워크  
- 참여 기관:  
  - **Unbabel**, **Instituto Superior Técnico**, **University of Edinburgh**, **Université Paris-Saclay**, **Aveni.ai**, **Sorbonne University**, **Naver Labs Europe**, **University of Amsterdam**  
- 주요 연구 인물:  
  - **André Martins** (Unbabel, Lisbon 공대 교수) — 머신러닝 및 자연어처리 전문가  
  - **Alexandra Birch** (Aveni.ai, Edinburgh 교수) — 다국어 번역 및 윤리적 AI 연구 선도  
  - **Pierre Colombo** (Université Paris-Saclay) — AI 안전성과 법률 AI 응용 연구  
  
### 미션과 비전  
- EuroLLM의 목표는 **유럽의 AI 주권 확보**와 **다국어 기술 발전 촉진**에 있음  
  - 유럽 내에서 독자적으로 개발된 LLM을 통해 **혁신의 선순환(flywheel for innovation)** 을 창출  
  - 연구자와 기업이 유럽산 AI 모델을 기반으로 **새로운 서비스와 연구를 확장할 수 있도록 지원**  
- 유럽이 **언어 다양성에 기반한 기술 리더십**을 강화하며,  
  **글로벌 AI 생태계에서 자립적 혁신 모델**을 구축하는 것을 지향함

## Comments


### Comment 45572

- Author: neo
- Created: 2025-10-29T10:52:33+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45733707) 
- 유럽연합의 공식 언어는 총 24개임. 불가리아어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 아일랜드어, 이탈리아어, 라트비아어, 리투아니아어, 몰타어, 폴란드어, 포르투갈어, 루마니아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어임  
  몰타어는 유일하게 **아프로아시아계** 언어이고, 헝가리어·핀란드어·에스토니아어는 **우랄어족**에 속함. 나머지는 인도유럽어족이며, 그리스어는 헬레닉, 아일랜드어는 켈트어족임  
  - 몰타어는 정확히 말하면 **셈어파(Semitic)** 언어임. [위키백과 참고](https://en.wikipedia.org/wiki/Semitic_languages)
  - 내일 네덜란드 총선에서 두 정당이 프리지아어를 공식 언어 목록에 추가하자는 제안을 함. [관련 기사](https://neerlandistiek.nl/2025/10/kies-voor-taal/)  
    모델 재학습이 필요할지도 모르겠음
  - 나는 몰타어를 읽고 쓰고 말할 수 있음. 언어에 대해 궁금한 게 있으면 뭐든 물어보길 바람
  - 리투아니아어와 라트비아어는 **발트어족**임. 슬라브어와는 관련 없음
  - 논문을 보면 모델이 이 24개 언어에만 국한되지 않음. 아랍어, 카탈루냐어, 중국어, 힌디어, 일본어, 한국어, 노르웨이어, 러시아어, 터키어, 우크라이나어 등도 포함됨. [논문 PDF](https://arxiv.org/pdf/2409.16235)  
    훈련 데이터 출처를 세밀히 다룬 점이 이 연구의 주요 기여로 보임

- 유럽 정책 입안자들이 **기술집약 산업**을 어떻게 육성해야 하는지 전혀 모르는 것 같음. ‘승자 선정형’ 보조금 방식은 실패할 게 뻔함. 유럽 슈퍼컴퓨터 접근 관련 이야기도 흥미로움. [관련 트윗](https://x.com/levelsio/status/1981485945745788969)
  - EU의 보조금 절차가 재미있는 건 아니지만, Levels는 약간 **자기 과신**이 있는 듯함. 인플루언서로서 수익화는 잘하지만, 국가 지원 슈퍼컴퓨터로 광고 기반 브라우저 게임을 돌리는 건 적절하지 않다고 봄
  - 진짜 중요한 건 유럽이 **AI 스타트업 친화적인 환경**을 만드는 것임. 규제를 완화하고 세금 혜택을 주는 게 우선임.  
    하지만 실제로 유럽 기업들이 겪는 가장 큰 제약은 규제가 아니라 **자본 접근성**임.  
    중국은 오히려 더 강한 규제를 가지고도 소프트웨어 산업이 번성했음. 한국도 마찬가지로 보호주의 덕을 봄.  
    유럽이 배워야 할 건 더 많은 **기술 보호주의**임. Pieter Levels는 결국 인플루언서일 뿐 진지한 창업자는 아님
  - ‘승자 선정 전략’이 실제로 어떤 결과를 낳는지 궁금함
  - 이런 정책의 목적이 정말 ‘승자 선정’인지, 아니면 창업자 역량 강화와 경제 자극인지 의문임.  
    미국은 FAANG 출신 창업자가 많지만 유럽은 그런 생태계가 부족함.  
    슈퍼컴퓨터 프로젝트가 실패하더라도 **부수적 경제 효과**가 목표일 수도 있음
  - 사람들이 너무 그에게 관대함. ‘levelsio’가 누군지 모르는 사람도 많을 텐데, 왜 다들 그를 아는 척하는지 궁금함

- 제목에 “(2024)”가 빠져 있음. 9B 모델은 작년 12월에 공개됨. [공식 페이지](https://sites.google.com/view/eurollm/home)
- EuroLLM 팀은 Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs 등 유럽 주요 기관이 참여함.  
  유럽은 **EuroHPC JU**를 통해 공공 슈퍼컴퓨터 네트워크를 운영 중이며, 접근권을 받자마자 모델 개발을 시작했다고 함. [공식 스토리](https://www.eurohpc-ju.europa.eu/eurohpc-success-story-speaking-freely-eurollm_en)  
  물리 시뮬레이션용 컴퓨팅 자원을 재활용한 셈임
- 이미 대부분의 **프런티어 모델**이 다국어를 지원하지 않나? 언어별 지원을 따로 넣을 필요가 없다고 생각함
  - 하지만 이 모델은 **EU 공인 데이터**로 훈련된 게 핵심임
  - 단순히 언어 예시가 있는 게 아니라, 각 언어의 **데이터 비율**이 중요함. 영어 데이터가 압도적으로 많기 때문에 다른 언어 성능이 떨어짐
  - 훈련 방식이 다름. 일본어의 경우 **토크나이징** 문제로 성능이 낮은 경우가 많음
  - 영어 외 언어로는 자연스럽지 않게 번역된 듯한 어투가 많음. 프랑스어 사용자들이 비문을 자주 지적함
  - 유럽 정부는 방대한 **디지털 자료와 문화 데이터**를 보유하고 있음. 이런 문화적 차이가 모델의 가치관에도 영향을 줄 수 있음

- 실제 사용된 **코퍼스**가 공개되지 않아 아쉬움. 아일랜드어 같은 소수 언어는 대부분 법률 문서 기반일 텐데, 구어체 데이터는 거의 없을 것임.  
  언어별 평가를 원어민 기준으로 해보면 흥미로울 듯함.  
  LLM이 이런 **소멸 위기 언어**에 긍정적 영향을 줄 수 있지만, 그 전에 위험도 존재함 (예: 스코틀랜드 게일어 위키백과 사례).  
  그래도 전반적으로 좋은 시도라고 생각함
- EuroLLM-9B는 2024년 12월 공개 모델이며, MMLU-Pro 기준 17.6%로 **랜덤보다 약간 높은 수준**임.  
  다른 EU 모델과 비교표는 [여기](https://lifearchitect.ai/models-table/) 참고
- 왜 미국과 중국만 뛰어난 모델을 내는지 의문임. 프랑스의 Mistral 외엔 유럽 모델이 거의 없음. 인도, 일본, 한국도 비슷한 상황임
  - 놀랍진 않음. 유럽은 **기술 경쟁력**에서 꾸준히 뒤처져 있음.  
    인구는 미국의 1.3배, GDP는 75%지만, 기술산업 규모는 미국의 극히 일부임.  
    미국 7대 빅테크 기업은 유럽 7대 기업보다 20배 크고, 매출은 10배 많음. [참고 링크](https://eqtgroup.com/thinq/technology/why-is-europes-tech-industry-lagging-behind-the-us)
  - 유럽은 **자본 접근성**이 낮고 시장이 분절되어 있음.  
    그래서 Horizon 같은 학술 중심 펀딩에 의존하지만, 이런 협업은 제품화로 이어지기 어려움
  - 프런티어 모델 훈련에는 막대한 **자본 구조**가 필요함. 미국과 중국만이 수십억 달러를 조달할 수 있음
  - EU는 900페이지짜리 **AI 법안**을 만들고 자축했지만, 중국은 이미 두 페이지짜리 법을 먼저 시행했음
  - 사실 이런 모델들의 **상업적 가치**는 아직 입증되지 않음. 대부분 정부 계약이나 투자금으로 운영 중임

- EuroLLM-9B 모델을 Hugging Face에서 받으려면 **연락처 제공 동의**가 필요함. 이런 요구는 흔한 일인지 궁금함
  - 나도 몇몇 모델에서 본 적 있음. 예를 들어 [Llama 3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct)도 비슷한 절차가 있음
  - 네, 꽤 **일반적인 절차**임

- 9B 모델이 주목받는 건 흥미로움. 하지만 두 달 전 공개된 **TildeOpen-30B** 모델(19개 유럽 언어 지원)은 거의 언급되지 않았음. [모델 페이지](https://huggingface.co/TildeAI/TildeOpen-30b)  
  기본 성능은 낮지만 **파인튜닝 잠재력**이 큰 오픈 모델임