노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

(blocksandfiles.com)

1P by GN⁺ 1달전 | ★ favorite | 댓글 1개

노르웨이 국립도서관은 노르웨이어를 이해하는 주권(Sovereign) LLM 구축을 위해 2PB Huawei OceanStor Dorado 플래시 스토리지를 AI 학습 파이프라인에 투입함
상용 LLM 제공업체가 노르웨이어 로컬 모델을 만들지 않는 상황에서, 영어 중심 LLM은 지역 언어로 기록된 역사·뉴스·문화를 제대로 다루기 어려움
국립도서관은 2005년부터 책, 신문, 웹페이지, 소리, 동영상 등을 디지털화해 고유 데이터 20PB를 보유하고, 3-2-1 방식으로 약 60PB를 저장함
병목은 컴퓨트보다 데이터 품질·정제·처리량에 있으며, 내부 DGX H200·CPU 클러스터·Huawei 플래시에서 준비한 뒤 Sigma2 Olivia에서 학습함
보존 아카이브와 AI 파이프라인은 내구성·비용과 저지연·병렬 I/O라는 요구가 달라, 주권 LLM에는 관리와 보관 역량도 필요함

노르웨이 국립도서관의 주권 LLM 프로젝트

노르웨이 국립도서관(Nasjonalbiblioteket)은 노르웨이어를 이해하는 대규모 언어 모델(LLM) 을 개발 중이며, AI 학습 데이터 파이프라인에 2PB Huawei OceanStor Dorado 플래시 스토리지를 사용함
Marius Husnes 국립도서관 IT 플랫폼 책임자는 Huawei ID Forum 2026 Paris에서 상용 LLM 제공업체가 노르웨이어 지역 언어 LLM을 개발하지 않고 있다고 밝힘
자국어로 학습된 주권 LLM이 없는 국가는 전 세계 데이터와 영어 중심으로 학습된 LLM에 의존하게 되며, 이런 모델은 지역 언어로 기록된 역사, 뉴스, 문화를 알기 어려움
노르웨이 문화부는 국립도서관에 주권 AI, 즉 LLM 구축을 맡겼고, 국립도서관은 노르웨이에서 가장 큰 디지털 책, 신문, 웹페이지 컬렉션을 보유함
국립도서관은 출판된 모든 책과 방송 콘텐츠의 사본을 받을 권리가 있으며, 납본 의무는 책을 넘어 노르웨이 문화유산 전체를 수집·보존하는 역할로 확장됨
노르웨이 신문사들과의 합의로 저작권이 있는 콘텐츠도 LLM 학습에 사용할 수 있으며, Husnes는 “민간 기업에는 이것이 없다”고 말함

데이터 보유량과 디지털화 기반

국립도서관은 2005년부터 컬렉션을 디지털화해 고유 데이터 20PB를 축적함
이 데이터는 3-2-1 방식으로 저장됨
- 3개 사본
- 2개 미디어 유형
- 1개 오프사이트 보관
이 구조 때문에 전체 저장량은 약 60PB에 달함
디지털화 대상은 원문 텍스트, 소리, 동영상, 정지 이미지, 웹 콘텐츠를 포함함
디지털화 과정에서 많은 OCR 스캔이 이뤄졌고, 대량의 메타데이터와 온라인 접근용 API도 생성됨
대부분의 데이터는 디지털 디스크와 테이프 아카이브로 구성된 보존 시스템에 저장됨

아카이브에서 AI 파이프라인으로 데이터를 옮기는 문제

핵심 과제는 보존 시스템에 있는 데이터를 LLM 학습 시스템으로 전달하는 것임
병목은 컴퓨트가 아니라 데이터 품질, 정제, 파이프라인 처리량에 있음
처리 과정은 국립도서관 내부 컴퓨팅 환경의 데이터 준비와 국가 슈퍼컴퓨터의 실제 학습 실행으로 나뉨
내부 환경은 다음 장비로 구성됨
- Nvidia DGX H200 시스템
- 384코어 CPU 클러스터
- 총 2PB 플래시 용량의 여러 Huawei OceanStor Dorado 올플래시 어레이
Huawei 플래시 스토리지는 데이터 파이프라인과 학습 준비를 위한 저지연 스토리지로 사용됨
파이프라인은 데이터 수집, 정제, 중복 제거, 포맷 정규화, 검증, 준비 단계를 포함함

학습 실행 환경: Sigma2 Olivia

파이프라인을 통과한 데이터는 실제 학습 실행을 위해 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia 시스템으로 전송됨
Olivia는 HPE Cray Supercomputing EX 시스템임
Olivia의 구성은 다음과 같음
- 448개 GPU
- 64,512개 CPU 코어
- 5.3PB Cray ClusterStor E1000 스토리지 시스템
국립도서관의 온프레미스 AI 환경은 데이터를 준비하고, Olivia는 학습 실행을 담당함

서로 다른 스토리지 요구사항

보존 아카이브와 AI 파이프라인 스토리지는 요구사항이 다름
60PB 보존 시스템은 내구성과 비용에 최적화되어 있고, 빠른 I/O에는 최적화되어 있지 않음
보존 시스템은 드문 접근을 전제로 설계되어 읽기 지연시간이 높음
AI 파이프라인 스토리지는 높은 처리량, 낮은 지연시간, 병렬 데이터 I/O를 위해 설계됨
PB 규모 데이터셋을 아카이브에서 AI 데이터 파이프라인으로 옮기고 처리하는 방법은 팀이 직접 찾아야 했음

아직 해결 중인 과제

평가
- 주권 노르웨이어 LLM을 평가할 표준 평가 도구가 없음
- 노르웨이어에는 두 가지 문어 형태가 있고, 여러 방언과 역사적 변화가 존재함
- 국립도서관 팀은 자체 평가 도구를 구축하는 중임
거버넌스
- 주권 LLM 접근 권한을 누가 통제할지 정해야 함
- 주권 LLM을 무엇에 사용할 수 있는지 누가 결정할지도 과제임
- 이는 제도적·정치적 질문이며 쉬운 답이 없음
오케스트레이션
- 보존 아카이브, 온프레미스 AI 환경, 국가 Sigma2 슈퍼컴퓨터라는 세 시스템을 원활하게 함께 동작시키는 작업이 계속 진행 중임

의미와 결론

Huawei 스토리지는 유럽 시장에서 중요하고 실질적인 역할을 하고 있음
주권 지역 언어 LLM을 개발하려는 국가는 Husnes와 협의하고 필요한 작업을 이해하는 것이 유익할 수 있음
노르웨이는 영어권이 아닌 모든 국가가 마주할 문제를 다루는 작은 국가로 제시됨
핵심 질문은 자국 언어, 문화, 역사를 반영하는 AI를 어떻게 구축할 것인가임
AI에는 단순한 구축자뿐 아니라 관리자와 보관자가 필요함

GN⁺ 1달전 [-]

Hacker News 의견들

노르웨이인으로서 국립도서관을 거의 매일 텍스트 검색에 사용함
방대한 텍스트를 검색하는 사용자 인터페이스와 기능이 정말 최고 수준임
- 정말 훌륭함. 다만 접근 가능한 콘텐츠에 제한이 좀 더 적었으면 좋겠음
  상당수는 노르웨이 IP에서만 접근 가능해서, 영국에 살지만 노르웨이인인 내가 VPN을 유지하는 주요 이유 중 하나임. 또 다른 일부는 도서관이나 연구기관 IP에서만 접근 가능하지만, 그래도 일반 공개된 자료도 엄청나게 많음
- 통합 검색 엔진이 없어서 매우 답답함. 왜 TV 자막 안에서는 검색할 수 없는지 모르겠음
- Altavista 시절부터 모든 검색 엔진에 있던 기본적인 어간 처리와 철자 유연성에 얼마나 익숙해져 있었는지 깨닫게 됨
이 말이 얼마나 사실인지 궁금함: “자국어를 가진 나라가 그 언어로 학습된 주권형 LLM을 갖고 있지 않으면 불리하다. 전 세계 자료로 학습된 영어권 LLM은 현지어로 서술된 그 나라의 역사, 뉴스, 문화를 알지 못하기 때문이다”
큰 플레이어들은 언어나 품질과 관계없이 접근 가능한 거의 모든 자료를 이미 학습한다고 생각했기 때문에, 이 견해는 범용 LLM 초기 시절에 형성된 생각처럼 들림
- LLM이 노르웨이어 지식을 갖게 하고 싶다면, 가장 obvious한 방법은 좋은 학습 데이터셋을 만들어 널리 공개하는 것 아닌가 싶음
  자체 모델 학습에 큰 비용을 들일 이유가 뭔지 모르겠고, 특히 최첨단 모델보다 열등할 가능성이 크다면 더 그렇다
- 외국 LLM들은 아마 노르웨이 국립도서관 자료로 학습되지 않았을 것임
  계보학 때문에 일반 키워드 검색으로 그 안에서 자료를 자주 찾는데, 검색 엔진도 언어 모델도 모르는 것들이 나옴
  물론 관심 있는 정보는 보통 AI가 긁어갈 수 있는 어딘가에 올려두지만, 그 안의 흥미로운 자료를 전부 꺼내려면 정말 오래 걸릴 것임
- 내 판단으로는 거의 사실이 아님. 노르웨이어는 잘 못하지만 스웨덴어는 할 줄 알고, 두 언어가 매우 비슷해서 노르웨이어도 대체로 이해함
  내가 스웨덴어로 말해본 모든 모델은 완벽하게 처리했음. 노르웨이어도 이미 마찬가지일 가능성이 크다고 봄
- 적어도 영어를 노르웨이어로 번역한 문체가 아니라 노르웨이인처럼 쓰기는 가능해질지도 모름
  https://arxiv.org/pdf/2507.22445 같은 실험을 적용해보는지도 흥미로울 듯함
- 현재 최고 모델들은 주요 언어와 문화에는 꽤 유창하므로, 적어도 “모든”이라는 한정은 맞지 않음
  성능은 거의 영향이 없거나 때로는 더 나을 수도 있음. 다만 영어식 패턴이 다른 언어의 원어민식 패턴에 미묘하게 새어 들어갈 수 있음
  저자원 언어에서는 완전히 다른 문제지만, 이를 개선하려면 새 모델보다 더 많은 데이터가 필요함
“Olivia 시스템은 HPE Cray Supercomputing EX 시스템으로, 448개 GPU와 64,512개 CPU 코어를 갖췄다”
이 정도 빈약한 하드웨어로 오픈소스 모델 위에 LoRA를 얹는 대신 주권형 LLM을 학습하겠다는 건 큰 실수이자 위험 신호처럼 보임
완전한 LLM을 학습할 자원이 있을 리 없으니, 그걸 목표라고 주장하는 건 이 LLM을 실제로 유용하게 만들 생각이 없다는 뜻처럼 느껴짐. 그렇다면 누구 돈을 왜 낭비하는 건지 묻게 됨
- 외부 사람에게는 유용하지 않을 수 있지만, 목표 중 하나가 조직 학습일 가능성은 있음
  즉 LLM을 만드는 지식을 조직 안에 내재화하는 것임
  명목상 국립도서관이 주체지만, 기사에 따르면 노르웨이어 자료를 이 목적에 합법적으로 소유하고 사용할 수 있어서 선택된 듯함. 대학 같은 관련 기관 연구자들도 과정에 참여할 것 같음
- 이전에 개념증명용 미세조정 모델을 성공적으로 만든 적이 있으니, 다음 단계가 완전한 LLM 학습인 셈임
  다만 가치 있는 무언가를 목표로 한다고 보지는 않음. 그 미세조정 모델들은 매우 망가져 있었고, 방법론을 갖추는 데 더 가까운 듯함. 엄청 유용하다고 확신하진 않지만 연구비로 누가 무엇을 할지 내가 정할 일은 아님
  내가 써본 한 미세조정 모델은 채팅에서 감정을 표현하는 인간을 자주 조롱했음
  다른 미세조정 모델은 내가 “hei”라고만 써도, 의사라고 환각하며 내 아기가 끔찍한 병에 걸렸다고 매번 말했음. 아마 평범하고 중립적인 시스템 프롬프트가 그 행동을 유발했을 가능성이 큼
  Olivia는 용도에 비해 충분히 큰 편이라고 봄. 지금은 최신 흐름을 따라가되 하드웨어에 너무 많은 돈을 낭비하지 않는 편이 낫다고 생각함
- 다국어·국제화 언어 모델은 최전선 연구소들이 많은 자원을 집중하는 분야가 아니며, 특히 노르웨이어는 더 그렇지 않나 싶음
  노르웨이어 말뭉치는 아주 큰 클러스터가 필요하지 않을 수도 있고, 필요하더라도 도서관이 할 수 있는 최선일 것임. 노르웨이어 모델에 투자되는 것 중에서는 확실히 가장 큰 축일 가능성이 큼
  최고 수준 모델들은 국립도서관이 가진 콘텐츠 품질에 접근하지 못할 수 있음. 기사도 신문사와의 라이선스를 언급하고, 도서관 자체 아카이브도 있음
  영어와 노르웨이어가 가까운 어족이 아니므로 LoRA가 최선의 접근이 아닐 수도 있음
  대상 언어의 문법·어휘가 영어에서 얼마나 떨어져 있느냐에 따라 LoRA 기반 현지화가 얼마나 잘 되는지에 대한 공개 연구가 있는지 궁금함
  이런 프로젝트는 보통 목표가 하나가 아니고, 최첨단 모델만 만드는 게 아니라 대학이 위성을 쏘는 것처럼 지역 기반 인재를 만들고 훈련하는 목적도 있음
- 이 정도 자원이면 Olmo 3 레시피 같은 것을 바탕으로, 자체 데이터를 우선하는 혼합 데이터와 자체 작업용 후속 학습을 적용하기에는 충분함
  자체 임베딩 모델을 만들고 도서관 전체를 색인한 뒤, 역사·문화·법률·전략 질문에 자국 관점으로 답하면서 그 데이터를 조회하도록 모델을 학습한다면 꽤 흥미롭고 유용할 가능성이 큼
  React 코드를 뽑아내는 데서 Anthropic을 이기지는 못하겠지만, 굳이 그걸 복제할 이유도 없음
- 실제로 가장 큰 문제는 사용 가능한 학습 데이터임
  이미 100억 매개변수 미만의 여러 모델로 미세조정과 처음부터 학습을 모두 실험했고, 마지막으로 확인했을 때는 처음부터 학습한 쪽이 언어를 더 잘 포착했음
노르웨이가 대신, 혹은 병행해서 학습 데이터셋을 만들고 모든 모델 제작자에게 무료로 공유하는 편이 낫지 않을까 싶음
최전선 모델들이 노르웨이어와 그 문화를 알게 만드는 것이 여기서 추구하는 목표에 더 좋은, 혹은 추가적인 방법처럼 보임
- 최전선 모델들은 노르웨이어를 이미 잘 알고 있음. 노르웨이어 방언에도 적응하고, 옛 노르웨이어도 꽤 그럴듯하게 흉내 냄
  예를 들어 내가 읽어본 1911년 소설 “De knyttede næver”를 Claude에게 1911년 무렵 노르웨이어 표기법으로 설명하게 했는데 잘했음
  부족한 것은 노르웨이 문학·문화·역사에 대한 이해임. “De knyttede næver”는 출간 당시 베스트셀러급 노르웨이 소설 중 하나였는데, Claude는 이를 찾아본 뒤에야 뭔가를 내놓을 수 있었음. ChatGPT는 더 잘했고, 특히 사고 모드에서는 자세한 요약을 줌
  오늘날 널리 알려진 작품은 아니지만, 작가는 수십 년간 저명한 신문 기자였고, 이 연작은 주인공 이름을 예명으로 딴 노르웨이 가수가 있을 정도로 알려져 있음. 작가의 정치관과 그것이 소설에 미친 영향 때문에 수십 년간 노르웨이 신문과 책에서 다뤄지기도 했으니, 꽤 합리적인 테스트이며 상당한 지식 공백을 드러낸다고 느낌
  국립도서관 데이터셋을 더 접근 가능하게 만드는 편이 낫다는 데는 동의함. 다만 여기서 큰 추가 요소는 아카이브에 묶여 있고 사용 제한이 있는 저작권 자료로 학습할 수 있는 계약을 맺었다는 점으로 보임
  그래도 소장 자료 중 저작권이 만료된 데이터만 공개해도 훌륭한 출발점이 될 것임
- 왜 이 데이터를 전부, 모두의 데이터를 훔쳐 자기 이익을 챙기는 탐욕스러운 미국 기업들과 공유해야 하는지 모르겠음
  국가 기관과의 법적 합의를 유지하고 자기 나라에 실제로 유용한 무언가를 개발하는 편이 훨씬 낫다
Marius Husnes가 “상업 LLM 제공업체가 현지 노르웨이어 LLM을 개발하지 않고 있으며, 자국어로 학습된 주권형 LLM이 없는 나라는 불리하다”고 한 부분을 보면, 그가 여기서 무슨 말을 하는지 제대로 알고 있다는 확신이 크지 않음
- 그는 맞는 말을 하고 있음. 다만 전적으로 학습 말뭉치만의 문제가 아니라, 대상 언어에 필요한 편향을 바탕으로 부분 문자열을 더 효율적으로 토큰화하는 토크나이저의 문제이기도 함
  영어 지향 LLM이 영어에서 더 강한 이유는 토큰 공간이 영어에 더 간결하게 배정되기 때문임. Anthropic API를 호출하는 온라인 토크나이저에 흔한 영어 단어와 노르웨이어 단어를 넣어보면, 영어는 보통 토큰 하나 이하인데 노르웨이어는 2~4토큰, 때로는 그 이상이 되는 경우가 많음. 태국어 같은 언어는 엄청 불리함
  말뭉치 선택도 목표 언어 쪽으로 크게 기울어지는 경우가 많음. 그 언어의 저작물을 확보하는 데 더 많은 에너지가 들어가기 때문임
  언어 간 의미적으로 비슷한 임베딩의 상호 영향 때문에 벡터 공간에도 문화적 기준선과 다른 의미 편향이 생김. 마지막으로 미세조정은 LLM의 문화적 표현에 큰 영향을 줌. 이 효과들은 사소하지 않음
  사라져가는 언어와 교차문화 모델을 활용한 언어 모델을 만들려는 노력이 많지만, 문해 기반이 탄탄한 언어라면 자기 언어와 문화에 특화된 유산형 LLM을 만들 충분한 이유가 있음. OpenAI나 Anthropic이 선택의 순간에 목표 고객보다 당신의 언어를 우선하리라 기대하는 건 터무니없음
- ChatGPT와 대화할 때, 덴마크어로 대화하더라도 그것이 미국적이라는 점은 꽤 분명함
  모국어, 문체, 태도가 미국적임
  Netflix와 HBO가 지금은 스칸디나비아 TV 쇼를 만들더라도 거기에 의존할 수 없듯이, 이 영역에서도 우리 것을 직접 만들어야 함
  시간이 지나면 이를 가능하게 하는 기술은 더 싸지고 쉽게 구할 수 있게 될 것임
- 폴란드에는 Bielik이라는 자체 LLM이 있음
  폴란드어다운 표현을 보존하는 데 더 좋을 뿐 아니라, 정부 문서 작성도 더 잘함. 왜 더 낫냐면, 아레나 평가를 했고 통계적으로 더 좋았기 때문임
- 그가 틀렸다는 근거를 제시할 수 있는지 궁금함
  단정은 했지만 근거는 없어 보임. 영어 LLM만 있는 것이 왜 불리하지 않은가?
  현재 모델들로 노르웨이 역사와 문화의 뉘앙스를 얻을 수 있나?
- 보조금을 받기에는 그럴듯하게 들림
웨일스어도 Nemotron으로 LLM 학습을 받고 있음
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
가장 효율적인 방식은 아닐 수 있지만, 비라틴 문자 언어에는 처음부터 만드는 명백한 사용 사례가 여전히 있어 보임
sarvam.ai와 현지 언어 토큰화 개선 사례를 보면 됨 [1]. 모든 LLM이 코딩을 도와야 하는 것도 아니고, 이미 바벨피시가 되어야 하는 것도 아님
언어는 문화이므로 이들의 동기는 이해됨. 직접 할 여유가 있다는 건 좋은 일일 듯함
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
- 토큰화를 개선한다고 해서 꼭 처음부터 만들 필요는 없음
  러시아 T-Bank는 기본 Qwen의 토크나이저를 바꿔 키릴 문자 토큰을 5배 더 넣고, 러시아어 말뭉치로 후속 학습을 해서 생성 속도를 1.5~3배 높일 수 있었음
이건 거대한 스토리지 배포임
LLM 학습의 입출력 요구, 특히 체크포인팅을 생각하면 전통적인 디스크 배열보다 이 규모의 NVMe 플래시로 가는 것이 타당함
“노르웨이는 영어권이 아닌 모든 나라가 마주할 문제를 푸는 작은 나라다. 자신의 언어, 문화, 역사를 반영하는 AI를 어떻게 만들 것인가? AI에는 단순한 제작자뿐 아니라 관리자가 필요하다”
안타깝지만 답은 대체로 “못 만든다”에 가깝다고 봄
이런 일에는 강한 정치적 의지가 필요한데, 적어도 내 주변에서는 이를 맞추는 것이 사실상 불가능해 보임
비용도 감당하기 어렵지만, 그보다도 이런 현지 대표성을 신경 쓰는 사람들은 외국 기업이 구현해도 완전히 괜찮아하거나, 애초에 AI 자체에 반대하는 쪽임. 원한다면 ChatGPT를 바스크어로도 쓸 수 있으니까
- 노르웨이의 경우 비용이 정말 감당 불가능한지는 논쟁 여지가 있음
  작지만 극도로 부유한 나라이고, 현재 국부펀드 투자로 전 세계 상장기업의 1.5%에 해당하는 지분을 보유하고 있음
- 노르웨이가 학습용 큐레이션 데이터셋을 만들겠다는 목표로 미국 연구소들에 접근하면, 그들은 분명 학습 과정에 들어갈 수 있게 해줄 것임
  그리고 그런 모델들은 국내에서 만들 수 있는 것보다 훨씬 뛰어날 가능성이 큼
  물론 이 말을 보며 화면 너머로 몸서리치는 것도 느껴짐

답변달기

노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

노르웨이 국립도서관의 주권 LLM 프로젝트

데이터 보유량과 디지털화 기반

아카이브에서 AI 파이프라인으로 데이터를 옮기는 문제

학습 실행 환경: Sigma2 Olivia

서로 다른 스토리지 요구사항

아직 해결 중인 과제

평가

거버넌스

오케스트레이션

의미와 결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들