1P by GN⁺ 17시간전 | ★ favorite | 댓글 1개
  • ETH Zurich와 EPFL이 주도하여 공공 인프라에서 완전히 공개적으로 개발된 대형언어모델(LLM)이 곧 출시 예정임
  • 이 모델은 투명성, 멀티링구얼 성능, 폭넓은 접근성에 중점을 두어, 과학, 정부, 민간 등 다양한 분야에서 활용 가능함
  • 소스코드와 가중치, 학습 데이터가 공개되고, 모든 과정이 재현 가능하도록 설계되어 개방형 연구 및 규제 준수를 촉진함
  • 최신 슈퍼컴퓨터 Alps(CSCS)에서 친환경 에너지로 훈련되었으며, 대규모, 고성능, 책임 있는 데이터 사용을 목표로 함
  • 이 LLM은 Apache 2.0 라이선스로 여름 말 공개될 예정이며, 전 세계적으로 혁신과 연구 활성화에 기여할 것으로 기대됨

개방형 LLM 구축을 위한 국제 협력 및 배경

  • 제네바에서 열린 International Open-Source LLM Builders Summit에서 글로벌 오픈소스 LLM 및 신뢰할 수 있는 AI 관련 50여 개 단체가 한자리에 모임
  • EPFL와 ETH Zurich의 AI 센터 주최로 열린 이 행사는 오픈 기초모델 생태계 활성화와 협력의 중요한 계기임
  • 오픈 LLM은 미국, 중국 등에서 비공개로 개발되는 상업용 시스템에 대한 대안으로 점차 인식되고 있음

새로운 공공 LLM의 특징과 출시 계획

  • EPFL, ETH Zurich, 기타 스위스 대학 연구자와 CSCS 엔지니어의 협업으로 완전히 공개적이고 공공 개발된 LLM이 곧 출시될 예정임
  • 현재 최종 테스트 단계이며, 오픈 라이선스로 다운로드 가능해질 예정임
  • 이 모델은 투명성, 다국어 성능, 폭넓은 접근성을 핵심 가치로 삼음

완전 개방 및 투명성 원칙

  • 모델의 소스코드와 가중치 모두 공개될 예정
  • 학습 데이터 또한 투명하게 공개되고 재현 가능한 방식으로 설계되어, 과학, 정부, 교육, 민간 영역에서의 채택을 지원함
  • 이러한 접근은 혁신 촉진과 책임성 강화를 목적으로 함

전문가 의견

  • ETH AI Center의 연구원 Imanol Schlag는 “완전 공개 모델은 신뢰도 높은 응용과 AI 리스크/기회 연구 발전에 필수적”이라고 강조함
  • 투명한 프로세스는 규제 준수 역시 용이하게 함

멀티링구얼 설계

  • 모델의 핵심 특징 중 하나는 1,000개 이상 언어 지원
  • Antoine Bosselut 교수는 “초기부터 광범위한 멀티링구얼 지원에 집중”했다고 밝힘
  • 1500개 이상 언어의 대규모 데이터셋(영어 60%, 비영어 40%), 코드 및 수학 데이터로 기초학습을 실시함
  • 전 세계 다양한 언어와 문화의 콘텐츠를 반영, 글로벌 활용성이 높음

확장성 및 포용성

  • 모델은 80억(8B), 700억(70B) 파라미터 두 가지 규모로 공개될 예정임
    • 70B 버전은 세계에서 가장 강력한 완전 공개 모델 중 하나임
  • 15조 개 이상의 고품질 토큰(작은 텍스트 단위)으로 학습해 높은 신뢰성과 범용성을 구현함

책임 있는 데이터 사용

  • 스위스 데이터 보호법, 저작권법, 그리고 EU AI Act에서 요구하는 투명성 의무를 준수하여 개발 중임
  • 최근 연구 결과, 웹 크롤링 거부(로봇배제표준)를 존중해도 LLM 성능 저하가 거의 없음을 입증함

슈퍼컴퓨터 기반 개발 및 지속 가능성

  • 모델 학습은 루가노 소재 CSCS의 Alps 슈퍼컴퓨터에서 이루어짐
    • NVIDIA Grace Hopper Superchip 1만개 장착, 세계 최고 수준의 AI 인프라
    • 100% 탄소 중립 전기로 효율적 훈련 가능
  • Alps의 성공적인 구현은 NVIDIA, HPE/Cray와 15년간의 전략적 협업 덕분임
  • Alps는 대규모 AI 업무(복잡 LLM의 프리트레이닝 포함) 요구를 충족하는 핵심 역할 수행함
  • Thomas Schulthess 교수는 “공공 연구기관과 산업계의 공동 노력이 주권적 AI 인프라와 오픈 혁신, 전 세계 과학 및 사회에 기여함을 입증”한다고 강조함

공개 접근성과 글로벌 활용

  • 여름 말, Apache 2.0 라이선스로 LLM이 공개될 예정임
  • 모델 구조, 학습 방법, 사용 가이드라인 등 문서화도 함께 제공되어 투명한 재사용 및 추가 개발을 지원함
  • Antoine Bosselut 교수는 공공 연구자가 “오픈 모델 발전에 앞장서고, 다양한 조직들이 이를 바탕으로 자체 응용을 개발하길 바란다”고 언급함
  • Martin Jaggi 교수는 “완전한 개방성은 스위스, 유럽, 국제협력을 통한 혁신을 촉진하고, 최고의 인재를 유치하는 데 있어 중요한 요인임”이라고 밝힘
Hacker News 의견
  • 성과를 기대하는 중임, 내가 알기로는 ETH와 EPFL은 최신 LLaMA 모델이 아닌 이전 버전을 학습하거나 파인튜닝하고 있기 때문에, SOTA 성능에 비해서는 다소 뒤처질 수 있음, 하지만 가장 중요한 점은 ETH와 EPFL이 대규모 학습 경험을 쌓는 것이라고 생각함, 들은 바에 따르면 새롭게 구축된 AI 클러스터가 아직까지 초기에 많은 시행착오를 겪고 있음, 이 규모에서 자체 인프라로 모델을 학습하는 것이 얼마나 까다로운 일인지 사람들이 종종 과소평가함<br>참고로 나는 스위스에서 태어나 ETH에서 공부했음, 두뇌는 충분하지만 대규모 학습 경험은 아직 부족한 상태임, 또, 개인적으로 LLM의 많은 "마법"이 실은 인프라에서 나온다고 생각함

    • 사실 많은 마법이 데이터셋, 특히 SFT와 다른 파인튜닝/RLHF 데이터에서 나온다고 생각함, 그게 실제로 사람들이 사용하는 모델과 그렇지 않은 모델을 구분 짓는 요소였음, 경험을 쌓는다는 의견에는 완전히 동의하고, 인프라 구축이 주권적 LLM 공급망의 핵심 파트라 생각함, 하지만 데이터에도 초반부터 충분한 집중이 이뤄져야 모델이 실질적으로 쓸만해질 것임

    • SOTA LLM을 학습하려면 인프라도 꽤 복잡해짐, 많은 사람들이 아키텍처와 데이터셋을 올리고 Ray 같은 걸 쓰면 끝이라고 생각하지만 실제로는 데이터셋 설계, 평가 파이프라인 구축, 학습 방식, 하드웨어 최대 효율화, 노드 간 지연, 에러 복구 등 엄청나게 많은 요소가 필요함, 그래도 이 분야에 더 많은 플레이어가 나오는 건 좋은 일이라 생각함

    • "from scratch"라는 문구를 보고 파인튜닝이 아니라 프리트레이닝을 하는 거라고 추측했음, 혹시 다른 의견이 있다면 궁금함, 그리고 일반적인 Llama 아키텍처로 진행하는 건지도 궁금함, 벤치마크 결과가 궁금함

  • <i>웹 크롤링 opt-out(수집 거부)을 존중해도 성능 저하가 거의 없다</i>는 문장이 매우 반가움

    • 학습 지표 상으로는 성능 저하가 없다 해도 결국 최종 사용자 입장에서는 다를 수 있음, 사용자와 웹사이트 소유주는 근본적으로 목표가 다름, 사용자는 답변과 컨텐츠를 원하고, 사이트 소유주는 광고나 추가 판매를 노림, 결국 둘 중 한쪽만 충족시킬 수 있음
  • 이번이 데이터셋 투명성과 관련해 기준을 새로 세우는 사례인지 궁금함, 실현된다면 중요한 진전이라고 생각함, 그런데 기계 이름을 AIps(AI Petaflops Supercomputer)로 지었다면 더 재밌었을 것 같음

    • Allen Institute for Artificial Intelligence에서 만든 OLMo 모델도 완전히 공개임<br><i>OLMo is fully open</i><br>AI2는 진정한 개방성을 데이터, 모델, 코드까지 공개하는 것으로 본다는 입장임<br>OLMo 자세히 보기

    • Smollm도 내가 아는 한 완전히 공개적인 모델임

  • 오픈 학습 데이터가 결정적인 차별점임, 이 정도 규모의 진정으로 열린 데이터셋이 처음인지 궁금함, 이전의 The Pile 같은 시도들도 가치 있었지만 한계가 있었음, 학습의 재현성을 어떻게 보장할지도 기대되고 있음

    • "모델이 완전히 공개될 것: 소스코드와 가중치는 공개되고, 학습 데이터는 투명하며 재현 가능하다"는 문구를 통해 학습 데이터 전체가 공개라기보단 "재현 가능하다"에 방점이 있다고 생각함, 아마도 실제 트레이닝에 사용된 페이지 URL 목록 같은 참고자료는 공개될 수 있지만, 그 콘텐츠 자체는 아닐 수 있음

    • 맞음, 여전히 전통적인 저작권 이슈가 끼어 있어서 패키징된 데이터셋으로 바로 제공되지는 않을 것임

  • 이런 게 바로 "AI의 민주화"라는 의미임

  • 보도자료에서는 어떻게 만들었는지에 관해 굉장히 많이 다루고 있지만, 실제로 다른 오픈 모델과 비교해 어떤 역량을 가졌는지 정보가 거의 없음

    • 대학의 경우 '어떻게 만들었는가'를 교육하는 것이 핵심이기 때문에 이 부분에 집중하는 게 자연스러움

    • <i>모델은 8B(8십억)와 70B(70십억) 두 가지 버전으로 공개 예정이고, 70B 버전은 세계에서 가장 강력한 오픈 모델 중 하나가 될 것, 올여름 말에 Apache 2.0 라이선스로 공개 예정임</i>이라고 함, 실제로 9월에 확인해 볼 수 있겠음

  • 스위스인으로서 HN 최상단에 이 소식이 떠서 자부심을 느낌, 이 두 대학은 세계적 수준의 창업자, 연구자, 엔지니어를 많이 배출했음에도 늘 미국의 그늘에 가려 있었음, 하지만 훌륭한 공공 인프라/교육/정치적 안정성(+중립성) 덕분에 오픈 LLM 분야에서 특별한 기회를 잡을 수 있을 거라 생각함

  • 기사에서<br>"오픈 LLM이 점점 더 신뢰받는 대안으로 평가되는 중이며, 대부분의 상용 시스템은 미국 또는 중국에서 비공개로 개발 중이다"라고 언급함<br>현재 대규모 LLM을 만드는 회사들은 구독 유도, 상품 광고 등 수익화하려는 이유로 오히려 품질을 떨어뜨릴 유인을 가짐, 일부는 이미 정치적 편향까지 갖고 있음<br>유럽에서 학계와 정부 협업으로 공익 목적의 검색·AI 서비스를 제공하고, 사용자 중심으로 나아간다면 매우 의미 있을 것임

    • 그렇지만 이런 서비스를 제공하는 일 자체가 복잡함, 아무리 좋은 모델을 학습한다 해도 실제 서빙은 여전히 민간에서 이뤄질 것임, 그래서 본질적으로 수익화 압박은 남아 있음, AI의 경우 운영비가 크기에 이런 경향이 더 심해질 수 있음, 결국 무료 서비스라면 사용자가 상품이 되므로 가치를 적극적으로 추출해야만 수익이 남음
  • 실전 테스트도 빨리 해 보고 싶음

  • 왜 아직 출시도 전에 이런 식으로 발표하는지 의문이 듦, 솔직하게 얘기할 필요 있다고 봄

    • 이번 발표는 스위스에서 이번 주에 열린 International Open-Source LLM Builders Summit에서 있었던 일임, 일정과 계획을 공유하는 게 그리 이상한 일은 아니라고 생각함

    • 펀딩 목적일 수 있음, 그리고 유럽 사용자들에게 유럽에서 공공 개발한 LLM(적어도 미국, 중국산은 아닌 것)의 사용을 깊게 각인시키는 차원에서도 의의가 있음, (어쩌면 너무 논리적이라서 브뤼셀에서 승인 안 해줄 수도 있을 정도임)

    • 스위스에서는 뭔가를 할 때 매우 느긋하게 진행하는 게 클리셰임