# Apertus, 주권 AI를 위한 오픈 파운데이션 모델

> Clean Markdown view of GeekNews topic #30718. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30718](https://news.hada.io/topic?id=30718)
- GeekNews Markdown: [https://news.hada.io/topic/30718.md](https://news.hada.io/topic/30718.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-22T15:33:21+09:00
- Updated: 2026-06-22T15:33:21+09:00
- Original source: [apertvs.ai](https://apertvs.ai/)
- Points: 1
- Comments: 1

## Topic Body

- 스위스 AI 생태계가 **주권 AI**를 겨냥해 자체 파운데이션 모델 Apertus를 공개하고, EPFL·ETH Zurich·CSCS 협력 기반을 전면에 내세움
- 핵심 차별점은 **오픈 가중치·오픈 데이터·오픈 과학**으로, 학습 데이터와 코드, 가중치, 방법론, 정렬 원칙까지 문서화해 재현 가능성을 강조함
- 규제와 신뢰 측면에서는 **EU AI Act** 요구사항을 고려하고, 옵트아웃 존중·PII 제거·암기 방지 같은 조건을 포함함
- 성능은 **8B와 70B 파라미터** 규모에서 동급 상위 오픈 모델과 경쟁 가능하다고 밝히며, 처음부터 1000개 이상 언어로 학습됨
- Swisscom이 **전략적 파트너**로 참여하며, 향후 릴리스와 연구, 커뮤니티 소식은 뉴스레터로 이어질 예정임

---

### 개발 주체와 공개 범위
- **Apertus**는 Swiss AI Initiative가 개발한 파운데이션 모델임
  - [Swiss AI Initiative](https://www.swiss-ai.org/)는 EPFL, ETH Zurich, CSCS의 협력으로 진행됨
- 공개 범위는 **학습 데이터**, 코드, 가중치, 방법론, 정렬 원칙을 포함함
- 공개 요소는 문서화되고 **재현 가능**한 형태를 지향함
- Apertus는 “AI에서 Open은 Source와 같다”는 문구로 공개 모델로서의 성격을 강조함

### 규제 대응과 모델 특성
- 모델은 **EU AI Act** 요구사항을 충족하도록 구축됨
  - 옵트아웃을 존중함
  - PII를 제거함
  - 암기를 방지함
- **8B와 70B 파라미터**의 동등한 규모에서 상위 오픈 모델과 경쟁 가능한 성능을 내세움
- 다국어 지원은 초기부터 포함되며, **1000개 이상 언어**로 학습됨

### 파트너십과 커뮤니티 소식
- [Swisscom](https://www.swisscom.ch/en/business/enterprise/offer/platforms-applications/data-driven-business/swiss-ai-platform.html)은 Swiss AI Initiative의 전략적 파트너임
- 뉴스레터는 Apertus 릴리스, 팀 연구, 커뮤니티 소식을 제공함

## Comments


### Comment 60146

- Author: neo
- Created: 2026-06-22T15:33:22+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48622778) 
- 완전 공개 LLM으로는 Allen AI의 **OLMo 3.1**과 MBZUAI의 **K2 Think V2**도 있으며, 둘 다 전체 학습 파이프라인과 데이터셋을 공개했음  
  Nvidia Nemotron도 공개 학습 소스 모델이지만, 데이터셋 일부는 독점임  
  lambda의 댓글을 인용하면, Nemotron 모델은 대체로 Olmo와 K2 Think V2보다 강하고(Artificial Analysis 벤치마크 기준), 데이터셋도 많이 겹침. 여러 데이터셋이 같은 원천에서 필터링만 다르게 만들어졌고, Olmo와 K2 Think V2도 일부 Nemotron 데이터셋을 사용했음  
  Nemotron은 현대적이고 꽤 유능한 LLM이며, 122b 모델도 대부분의 벤치마크에서 Deepseek R1(671b 모델)보다 강하고, 최근에는 550b Ultra도 나왔음  
  [https://news.ycombinator.com/item?id=48492439](<https://news.ycombinator.com/item?id=48492439>)
  - **Allen AI**는 충분히 주목받지 못하고 있음. 생성 AI는 원래 이런 방식으로 만들어졌어야 했다고 봄  
    최전선 기업들이 이 접근을 택했다면 출발은 훨씬 느렸겠지만, 2035년에는 지금보다 훨씬 더 앞서 있었을 것 같음. 대신 지금은 사회 다수가 AI가 실패하길 바라는 상태가 됨
  - **Nemotron**을 다시 한 번 써볼까 싶음. 어제 OpenRouter에서 최신 모델을 써봤는데 별로였고, StepFun보다도 나빴음

- 아이디어는 마음에 들고, 미국 밖의 모두가 **기술 주권**을 고민해야 할 필요성도 더 커졌음. 미국이 데이터를 보관하기에 안전하지 않은 곳이 되었기 때문임  
  다만 Apertus는 위원회 속도로 움직이는 느낌이라 경쟁력 있는 모델을 내놓을 거라는 기대가 없음. 적어도 현재 모델들과 경쟁하기는 어려워 보이고, 1년 전 모델들과는 경쟁 가능할지도 모르지만 아직 그것도 못 한 것 같음
  - “미국이 데이터를 보관하기에 안전하지 않은 곳이 되었다”는 말에는 공감하지만, 다른 나라가 왜 더 나은 **데이터 피난처**가 되는지는 궁금함  
    개인적으로는 EU의 데이터 보호 접근이 마음에 들지만, 데이터를 “안전하게” 지켜줄 만한 다른 지역이나 보호 장치를 염두에 둔 건지 궁금함

- Linux 비유는 여기에도 맞지 않는다고 봄. 이건 그보다 더 크고, 상업 AI 연구소와 그 **사업 모델**에 대한 직접적인 위협임  
  이 연구소들은 몇 년째 여러 기반 논문을 우려먹고 있고 끝이 가까워지고 있음  
  앞으로는 오픈소스, 공개 데이터, 공개 레시피 모델이 중심이 될 수 있고, 언젠가는 추론뿐 아니라 학습도 BitTorrent식으로 **크라우드소싱**될 수 있음  
  마지막으로 중국 모델(GLM, Deepseek, MiMax)도 정말 잘 작동하며, 그런 모델을 쓰는 사용자는 OpenAI/Anthropic/Gemini가 전혀 아쉽지 않다고 말할 것임. 그렇다면 이런 공개 모델이 있으면 중국 모델도 굳이 그리워하지 않게 된다는 충분한 근거가 됨

- 여러 언어에 집중한다고 주장하는 모델치고는 “X를 Y 언어로 어떻게 말하나”나 “Y 언어에서 동사 X를 어떻게 활용하나” 같은 단순한 질문에 꽤 불안정함  
  존재하지 않는 단어를 계속 환각하고, 정정해도 새로운 거짓말을 만들어냄
  - 아마 각 단어 묶음이 어떤 언어를 가리키는지 모를 가능성이 큼  
    언어 라벨이 붙은 학습 데이터를 많이 넣었을 것 같지는 않음  
    “X를 Y 언어로 어떻게 말하나”는 X를 Y 언어로 말하는 것과는 다른 과제임

- 이들의 지시 모델은 작년 **Llama3.1 미세조정**처럼 보임. 새 모델에 진전이 있는지 궁금함  
  주권 AI에 대한 마지막 희망은 중국 공개 모델 쪽에 있음
  - **주권 AI**는 단 하나의 모델만 쓰는 문제가 아님. 작업에 맞는 모델을 쓰고, 답을 내기 전에 여러 모델이 함께 해법을 논의하게 만드는 것임  
    이런 식으로 모델을 섞고 싶다면 [https://github.com/deepbluedynamics/nemesis8](<https://github.com/deepbluedynamics/nemesis8>)를 보면 됨

- Apretus 프로젝트에서 가장 영향력이 큰 산출물은 단연 **사람들**임. Dominique Paul([https://www.thisiscrispin.com/](<https://www.thisiscrispin.com/>))의 기억에 남는 문장을 인용하면, 대부분이 놓치는 점은 이 팀이 다른 거의 모든 LLM 제공자처럼 네 번째로 같은 일을 하는 팀이 아니며, 자기 과거 경험에서 배울 수 있었던 팀도 아니라는 것임  
  이 팀이 한 번 더 모델 학습을 한다면 비용은 4분의 1로 줄이고 결과는 훨씬 좋아질 수 있을 거라고 봄

- 라이선스가 꽤 흥미로운데, 장기적으로 누가 이 방식을 따를지는 모르겠음  
  학습 데이터와 Apertus LLM은 식별 가능한 개인을 직접 또는 간접적으로 가리키는 정보(**개인정보**)를 포함하거나 생성할 수 있음. 사용자는 적용 가능한 데이터 보호법에 따라 독립적인 처리자로서 개인정보를 처리함  
  SNAI는 Apertus LLM 개발자로서 접수한 데이터 보호 삭제 요청을 반영한 해시값 파일을 정기적으로 다운로드 제공하고, 사용자는 이를 출력 필터로 적용할 수 있음. 모델 출력에 포함된 개인정보를 제거할 수 있게 해주며, 모델 출시 후 6개월마다 SNAI에서 이 출력 필터를 내려받아 적용할 것을 강력히 권고함

- 이 모델의 이전 버전은 꽤 나빴지만, **저작권법을 준수한다**고 주장했음. 하지만 직접 테스트해보니 그것도 사실이 아니었고, 그래서 완전히 쓸모없다고 봄
  - 다음 조건이 사실인 한, 이 릴리스는 “닫힌 문 뒤에서” 학습된 대부분의 모델보다 과학 전반에 더 큰 기여가 됨  
    완전 공개 모델: 공개 가중치 + 공개 데이터 + 모든 데이터와 학습 레시피를 포함한 전체 학습 세부사항
  - **fineweb**을 사용하는데, 이는 Common Crawl에서 파생됐고, Common Crawl은 웹페이지를 무허가로 긁어온 것임
  - 어떻게 테스트했는지 궁금함. 설명해줄 수 있나? 저작권 대상이어야 하는 단편 사실 집합이 있고, 그 모델이 somehow 문자 그대로 전체 저작물을 생성하는지 확인한 건가?

- 전 세계 국가들이 자금을 대는 **주권 AI**에 대해 커뮤니티가 어떻게 보는지 궁금함  
  왜 “주권”을 강조하는 걸까? 공개면 충분하지 않나?