13P by xguru 4달전 | favorite | 댓글 5개
  • 고성능 컴퓨팅 초기에 주요 기술 회사들은 자체적으로 폐쇄형 유닉스 버전을 개발함
  • 시간이 지나면서 오픈 소스 리눅스가 인기를 끌게 되었고, 현재 클라우드 컴퓨팅 및 모바일 운영 시스템의 표준이 됨
  • AI도 비슷한 방식으로 발전할 것으로 예상됨
    • 현재 여러 기술 회사가 폐쇄형 모델을 개발하고 있지만, 오픈 소스가 빠르게 따라잡고 있음
    • 작년에 Llama 2는 이전 세대 모델에 비해 뒤처졌으나, 올해 Llama 3는 가장 앞선 모델들과 경쟁할 수 있는 수준에 도달
    • 내년부터는 Llama 모델이 업계에서 가장 앞선 모델이 될 것으로 기대됨
    • Llama는 개방성, 수정 가능성 및 비용 효율성에서 이미 선두를 달리고 있음
  • 이제 우리는 오픈소스 AI가 산업 표준이 되기 위한 다음 단계를 밟고 있음
    • Meta는 오늘 Llama 3.1 405B, 최초의 최첨단 오픈 소스 AI 모델과 Llama 3.1 70B, 8B 모델을 발표함
    • 폐쇄형 모델에 비해 훨씬 뛰어난 비용 대비 성능을 가지고 있으며, 405B 모델이 오픈 소스라는 사실은 더 작은 모델을 미세 조정하고 정제하기에 가장 좋은 선택이 될 것
  • 다양한 회사와 협력하여 더 광범위한 생태계를 성장시키는 중
    • Amazon, Databricks, NVIDIA 등과 협력하여 AI 모델의 미세 조정 및 증류를 지원하는 전체 서비스 제공
    • Groq는 저지연, 저비용 추론 서비스를 구축
    • AWS, Azure, Google, Oracle 등 모든 주요 클라우드에서 모델을 사용할 수 있음
    • Scale.AI, Dell, Deloitte 등은 기업이 Llama를 채택하고 자체 데이터를 사용하여 맞춤형 모델을 훈련할 수 있도록 지원
    • 커뮤니티가 성장하고 더 많은 기업들이 새로운 서비스를 개발함에 따라, 우리는 Llama를 산업 표준으로 만들고 AI의 혜택을 모두에게 가져다 줄 수 있음
  • Meta는 오픈 소스 AI에 전념하고 있음.
    • 오픈 소스가 여러분에게 가장 적합한 개발 스택이라고 믿는 이유,
    • Llama를 오픈 소스로 하는 것이 Meta에 좋은 이유,
    • 그리고 오픈 소스 AI가 세상에 좋은 이유,
    • 따라서 장기적으로 존재할 플랫폼에 대해 설명함

오픈 소스 AI가 개발자에게 좋은 이유

  • 모델을 직접 훈련하고 미세 조정 및 증류할 수 있음: 각 조직은 고유한 데이터를 사용하여 최적의 모델 크기로 조정 가능
  • 폐쇄형 벤더에 의존하지 않고 독립성 유지: 오픈 소스는 호환 가능한 툴체인 생태계를 제공하여 자유롭게 이동 가능
  • 데이터 보호: 민감한 데이터를 클라우드 API에 보내지 않고 자체 모델에서 처리 가능
  • 비용 효율적: Llama 3.1 405B 모델은 폐쇄형 모델보다 약 50% 저렴하게 추론 가능
  • 장기적인 표준에 투자: 오픈 소스는 폐쇄형 모델보다 빠르게 발전하고 있음

오픈 소스 AI가 Meta에 좋은 이유

  • Meta의 비즈니스 모델은 최고의 경험과 서비스를 제공하는 것.
  • 이를 위해서는 최첨단 기술에 항상 접근할 수 있어야 하며, 경쟁사의 폐쇄형 생태계에 묶이지 않아야 함
  • Apple 플랫폼에서 서비스 구축 경험을 통해 폐쇄형 생태계의 제약을 겪음.
  • 오픈 생태계를 구축하면 더 나은 서비스를 제공할 수 있음
  • 오픈 소싱이 기술적 우위를 포기하는 것이라는 우려가 있지만, 이는 큰 그림을 놓치는 것
    • 생태계 발전: Llama는 도구, 효율성 개선, 실리콘 최적화 및 기타 통합으로 완전한 생태계로 발전해야 함. Llama를 사용하는 회사가 Meta만 있으면 생태계가 발전하지 않음
    • 경쟁력 유지: AI 개발은 매우 경쟁적일 것이므로, 오픈 소싱이 큰 기술적 우위를 포기하는 것이 아님. Llama는 세대마다 경쟁력 있고 효율적이며 개방적이어야 함
    • 비즈니스 모델 차이: Meta는 AI 모델 접근 판매가 비즈니스 모델이 아니므로, Llama를 오픈 소싱해도 수익, 지속 가능성 또는 연구 투자 능력을 저해하지 않음. 이는 여러 폐쇄형 제공업체가 정부에 오픈 소스 반대를 로비하는 이유 중 하나임
    • 오픈 소스 경험: Meta는 오픈 소스 프로젝트와 성공의 역사가 있음. Open Compute Project를 통해 서버, 네트워크 및 데이터 센터 설계를 공개해 수십억 달러를 절약함. PyTorch, React 등의 도구를 오픈 소싱하여 생태계 혁신에서 혜택을 받음. 이 접근 방식은 장기적으로 Meta에 일관되게 유리함

오픈 소스 AI가 세계에 좋은 이유

  • 오픈 소스는 AI의 긍정적인 미래를 위해 필수적임
  • AI는 생산성, 창의성, 삶의 질을 높이고 경제 성장을 가속화하며 의료 및 과학 연구의 진전을 가능하게 함
  • 오픈 소스는 더 많은 사람들이 AI의 혜택과 기회를 누릴 수 있게 하고, 권력이 소수의 회사에 집중되지 않도록 보장함
  • AI 기술이 더 균등하고 안전하게 사회 전반에 배포될 수 있도록 하며, 오픈 소스는 투명하게 개발되므로 더 안전함
  • 안전을 이해하기 위한 제 프레임워크는 두 가지 범주의 해악으로부터 보호해야 한다는 것
    • 의도하지 않은 해악: AI 시스템이 의도치 않게 해를 끼치는 경우
      • 예: 잘못된 건강 조언 제공, 자가 복제 또는 과도한 목표 최적화
    • 의도적인 해악: 악의적인 사용자가 AI 모델을 사용하여 해를 끼치는 경우
      • 비의도적 해악이 대부분의 우려 사항을 차지함
      • 예: AI 시스템이 사람들에게 미치는 영향, AI가 인간에게 해를 끼치는 공상과학적 시나리오
      • 오픈 소스는 시스템이 더 투명하고 널리 검토될 수 있으므로 비의도적 해악을 방지하는 데 더 안전함
      • Llama와 같은 오픈 소스 모델은 안전 시스템(Llama Guard)으로 인해 폐쇄형 모델보다 더 안전하고 보안성이 높을 가능성이 있음
  • 우리는 엄격한 테스트와 레드팀 활동을 포함하여 모델의 유해성을 평가하고 위험을 완화하려고 노력함
    • 모델이 공개되어 누구나 테스트할 수 있음.
    • AI 모델이 인터넷의 정보를 학습하므로, 모델이 기존 정보보다 더 많은 해를 끼칠 수 있는지 고려해야 함
  • 의도적 해악에 대한 고려
    • 소규모 행위자와 대규모 행위자의 차이를 구분해야 함
    • 미래에 악의적인 개인이 AI 모델을 사용해 새로운 해악을 만들어낼 수 있음
    • AI가 널리 배포되어야 큰 행위자가 작은 악의적 행위자의 힘을 견제할 수 있음
    • 큰 기관이 AI를 대규모로 배포하면 사회 전반에 걸쳐 보안과 안정성을 촉진함
  • 미국과 민주 국가의 대응
    • 미국의 강점은 분산된 개방형 혁신
    • 모델을 폐쇄하여 중국이 접근하지 못하게 해야 한다는 주장도 있지만, 이는 효과적이지 않음
    • 스파이 활동이 뛰어나므로 모델을 도난당하기 쉬움
    • 폐쇄형 모델만 있는 세계는 소수의 큰 회사와 적국이 모델에 접근하게 만들고, 스타트업, 대학, 소규모 기업은 기회를 놓칠 가능성이 큼
    • 미국의 혁신을 폐쇄형 개발로 제한하면 선두를 유지하기 어려움
    • 오픈 생태계를 구축하고 정부 및 동맹국과 협력하여 최신 기술의 이점을 극대화해야 함
  • 오픈 소스 AI는 경제적 기회와 보안을 최대한으로 활용할 수 있는 세계 최고의 방법임
    • 오늘날의 주요 기술 회사와 과학 연구는 오픈 소스 소프트웨어를 기반으로 함
    • 다음 세대의 회사와 연구도 오픈 소스 AI를 사용할 것

함께 만들어 나갑시다

  • Meta는 이전 Llama 모델과는 다른 접근 방식을 취하고 있음
  • 우리는 내부적으로 팀을 구성하여 가능한 한 많은 개발자와 파트너가 Llama를 사용할 수 있도록 지원하고 있음
  • 우리는 생태계의 더 많은 기업들이 고객에게 독특한 기능을 제공할 수 있도록 적극적으로 파트너십을 구축하고 있음
  • Llama 3.1 릴리스가 대부분의 개발자가 주로 오픈 소스를 사용하기 시작하는 업계의 변곡점이 될 것이라고 믿음

Hacker News 의견

  • 오픈 소스 AI에 대한 언어가 혼란스러움

    • 오픈 소스는 보통 사람이 읽을 수 있는 코드가 있어야 함
    • 현재의 ML 모델은 매우 큰 행렬로 구성되어 있어 사용자가 이해하고 수정하기 어려움
    • 오픈 소스 코드가 단순히 원격 API를 통해 실행되지 않는 코드와 혼동되는 것 같음
  • AI 스타트업과 개발자들에게 큰 이점이 있음

    • 벤더 종속성이 사라짐
    • 개발자들이 비용 효율적이고 성능 좋은 방식으로 AI를 제품에 통합할 수 있음
    • 저렴한 가격에 빠른 LLM 응답이 가능해질 전망임
    • AI 발전으로 제품이 자동으로 더 나아지고 저렴해지며 확장 가능해짐
  • Meta는 오픈 모델을 제공하는 몇 안 되는 대형 AI 회사 중 하나임

    • Anthropic과 OpenAI와 달리, Meta는 오픈 모델에 헌신하고 있음
    • 이는 안전성과 폐쇄된 AI 시스템의 필요성에 대해 논의하는 다른 그룹들과 차별화됨
  • Meta의 광고 수익 모델은 주목을 끌어야 함

    • 오픈 소스 모델을 통해 사용자가 자체 콘텐츠를 생성할 수 있게 하는 것이 Meta에 유리함
    • 오픈 모델을 출시하면 모델이 생성하는 콘텐츠를 감시할 필요가 없어짐
    • 이는 Meta에게 좋은 비즈니스 전략임
  • Meta는 AI 오픈 소스의 챔피언으로 자리매김하려 함

    • 이는 OpenAI에 의해 기습당했기 때문이며, 인프라 게임에 참여하지 않기 때문임
    • 이는 이타주의가 아니지만, 개발자와 스타트업에게는 여전히 좋음
    • Meta의 GPU 투자는 주로 새로운 AI 제품, 추천 시스템 및 광고 판매를 위한 것임

메타가 해온 걸로 봐서는 의도하지 않은 해악이든 의도한 해악이든 방조할 가능성이 높아 보입니다. 개인적으로 평가하건대 주커버그는 신뢰할 수 없는 사람입니다

라마는 오픈소스인가? No.

학습데이터 = 소스코드
이번 라마3.1 모델은 오픈소스로 공개했습니다. 하지만, 학습데이터는 비공개입니다. AI, 딥러닝에서는 학습데이터가 '소스코드'이며, 모델은 앱(app) 같은 거죠. 그러므로, 사실상 라마는 오픈소스라고 할 수 없습니다. 그냥 무료 언어모델 앱을 출시한 것입니다.

메타는 라마 학습데이터를 공개할 가능성이 있는가? No.

라마 학습데이터는 텍스트만 15조개 토큰이고, 멀티모달 학습을 위해 이미지 비디오 오디오 데이터도 있을 텐데요, 이들 데이터의 상당 부분은 페이스북이나 인스타그램 등의 고객 데이터일 가능성이 있습니다. 그래서, 이를 공개하는 것은 사회적으로 큰 데이터 소유권, 저작권 이슈를 만들것이기에, 메타는 데이터 공개를 하고 싶어도 못할 것으로 예상됩니다.

AI는 오픈소스가 존재하지 않습니다.

메타 머싰네요