18P by xguru 1달전 | favorite | 댓글 3개
  • Sora(소라)는 Diffusion Transformers(DiT), Latent Diffusion을 기반으로 하며, 모델과 훈련 데이터셋을 대규모로 확장
  • 소라는 비디오 모델을 확장하는 것이 가치가 있으며, 대규모 언어 모델(LLM)과 유사한 추가 확장이 모델을 빠르게 개선하는 주요 동력이 될 것임을 보여줌
  • Runway, Genmo, Pika와 같은 회사들이 Sora와 같은 비디오 생성 모델을 위한 직관적인 인터페이스와 워크플로우를 구축 중임
  • 소라 훈련에는 1개월 동안 4,200~10,500개의 Nvidia H100 GPU로 추정되는 엄청난 양의 컴퓨팅 파워가 필요
  • 추론의 경우, Sora는 Nvidia H100 GPU당 시간당 최대 약 5분 분량의 동영상을 생성할 수 있는 것으로 추정. LLM과 비교했을 때, 소라와 같은 확산 기반 모델의 추론은 몇 배나 더 비쌈
  • 소라와 같은 모델이 널리 배포됨에 따라 추론 컴퓨팅이 훈련 컴퓨팅을 지배할 것이며, '손익분기점'은 1,530만~3,810만 분의 동영상이 생성될 때로 추정되며, 그 이후에는 원래 학습보다 추론에 더 많은 컴퓨팅이 소요. 이에 비해 하루에 업로드되는 동영상은 1,700만 분(TikTok)과 4,300만 분(YouTube)
  • TikTok과 YouTube에서 AI가 생성하는 비디오의 비중을 고려할 때, 추론을 위한 Nvidia H100 GPU의 최대 수요는 약 72만개로 추정됨

배경

  • Sora 는 확산 모델에 속함. 확산 모델은 이미지 생성에 인기 있는 선택으로, OpenAI의 DALL-E나 Stability AI의 Stable Diffusion과 같은 유명 모델들이 있음. 최근에는 Runway, Genmo, Pika와 같은 회사들이 비디오 생성을 탐구하고 있으며, 이는 확산 모델을 활용할 가능성이 높음.
  • 확산 모델은 데이터에 임의의 노이즈를 추가하는 과정을 점차적으로 역전시켜 이미지나 비디오와 같은 데이터를 생성하는 방법을 학습하는 생성적 기계학습 모델의 한 종류임. 이 모델들은 순수한 노이즈 패턴에서 시작하여 점차 이 노이즈를 제거하고, 패턴을 정제하여 이해할 수 있고 상세한 출력으로 변환함.

소라의 기술적 세부 사항

  • OpenAI는 소라 발표와 함께 기술 보고서를 공개함. 이 보고서는 세부 사항이 부족하지만, 그 설계는 "Transformers를 사용한 확장 가능한 확산 모델" 연구 논문에 크게 영향을 받은 것으로 보임

  • 이 논문의 저자들은 이미지 생성을 위한 Transformer 기반 아키텍처인 DiT(확산 트랜스포머를 의미하는 Diffusion Transformers의 약자)을 제안함

  • 소라는 이 작업을 비디오 생성으로 확장하는 것으로 보임. 소라 기술 보고서와 DiT 논문을 결합함으로써, 소라 모델이 어떻게 작동하는지에 대해 상당히 정확한 그림을 얻을 수 있음

  • 소라에는 세 가지 중요한 부분이 있음:

    • 픽셀 공간에서 작동하지 않고 대신 잠재 공간에서 확산을 수행함(잠재 확산이라고 함)
    • Transformer 아키텍처를 사용함
    • 매우 큰 데이터셋을 사용하는 것으로 보임
  • 잠재 확산

    • 첫 번째 포인트인 잠재 확산을 이해하기 위해, 이미지 생성을 고려해보면
      • 각 픽셀을 확산을 사용하여 생성할 수 있지만, 이는 매우 비효율적임(예를 들어, 512x512 이미지는 262,144 픽셀을 가짐)
      • 대신, 픽셀에서 어떤 압축 요소를 가진 잠재 표현으로 매핑한 다음, 이 더욱 컴팩트한 잠재 공간에서 확산을 수행하고 마지막으로 잠재에서 픽셀 공간으로 다시 디코딩할 수 있음
      • 이 매핑은 계산 복잡성을 상당히 개선함: 512x512 = 262,144 픽셀에 대해 확산 과정을 실행하는 대신, 예를 들어 64x64 = 4,096 잠재체를 생성하기만 하면 됨
      • 이 아이디어는 "고해상도 이미지 합성을 위한 잠재 확산 모델" 연구 논문의 핵심 돌파구였으며, Stable Diffusion의 기반이 됨.
    • 픽셀에서 잠재 표현으로의 매핑 예시는 Sora 기술 보고서에서 가져온 이미지임.
    • DiT와 Sora 모두 이 접근 방식을 활용함. Sora의 경우 추가 고려 사항으로 비디오에는 시간 차원이 있음: 비디오는 이미지의 시간 순서인 프레임으로 구성됨
    • Sora 기술 보고서에서는 픽셀에서 잠재 공간으로 매핑하는 인코딩 단계가 공간적(각 프레임의 너비와 높이를 압축하는 것을 의미) 및 시간적(시간을 걸쳐 압축하는 것을 의미)으로 발생하는 것으로 보임
  • 트랜스포머

    • 두 번째 포인트로, DiT와 Sora 모두 일반적으로 사용되는 U-Net 아키텍처 대신 바닐라 트랜스포머 아키텍처를 사용함
    • 이는 DiT 논문의 저자들이 트랜스포머 사용이 예측 가능한 스케일링을 초래한다고 관찰한 것이 중요한데, 더 많은 훈련 계산을 적용하면(모델을 더 오래 훈련시키거나, 모델을 더 크게 만들거나, 또는 둘 다) 성능이 향상됨을 의미함
    • 이러한 스케일링 행위는 소위 스케일링 법칙으로 정량화될 수 있는 중요한 속성이며, 대규모 언어 모델(LLMs)과 다른 모달리티에서의 자기회귀 모델의 맥락에서 이전에 연구됨
    • 더 나은 모델을 얻기 위해 스케일을 적용하는 능력은 LLMs에 대한 빠른 진보의 주요 동력 중 하나였음
    • 이미지와 비디오 생성에도 같은 속성이 존재하므로, 여기에서도 같은 스케일링 레시피가 작동할 것으로 예상할 수 있음
  • 데이터셋

    • 모델 훈련에 필요한 마지막 핵심 요소는 레이블이 붙은 데이터이며, 이는 Sora와 같은 모델을 훈련시키는 데 있어 가장 중요한 비밀 요소로 여겨짐
    • Sora와 같은 텍스트-투-비디오 모델을 훈련시키려면, 비디오와 그에 대한 텍스트 설명의 쌍이 필요함
    • OpenAI는 자신들의 데이터셋에 대해 많이 언급하지 않지만, 그것이 매우 크다는 것을 암시함: "인터넷 규모의 데이터에 대한 훈련을 통해 일반적인 능력을 획득하는 대규모 언어 모델에서 영감을 받았다."
    • OpenAI는 또한 이미지에 자세한 텍스트 라벨을 부착하는 방법을 공개했으며, 이는 DALLE-3 데이터셋을 수집하는 데 사용됨
    • 일반적인 아이디어는 데이터셋의 레이블이 붙은 부분 집합에서 캡셔너 모델을 훈련시키고, 그 캡셔너 모델을 사용하여 나머지를 자동으로 라벨링하는 것임
    • Sora의 데이터셋에도 같은 기술이 적용된 것으로 보임

영향력

  • Sora가 몇 가지 중요한 영향을 미칠 것으로 믿음. 이제 그 영향들에 대해 간략히 살펴보면
  • 비디오 모델의 실용성 시작
    • Sora가 생성할 수 있는 비디오의 품질은 세부 수준뿐만 아니라 시간적 일관성 측면에서도 분명한 돌파구임(예를 들어, 객체가 일시적으로 가려졌을 때 객체의 영속성을 올바르게 처리하고, 물에 반사를 정확하게 생성할 수 있음)
    • 이제 비디오의 품질이 실제 애플리케이션에서 사용될 수 있는 특정 유형의 장면에 충분하다고 믿음
    • 예를 들어, Sora는 곧 일부 스톡 비디오 푸티지 사용을 대체할 수 있음
    • 그러나 여전히 남아 있는 도전 과제들이 있음:
      • 현재 Sora 모델이 얼마나 조절 가능한지 명확하지 않음
      • 모델이 픽셀을 출력하기 때문에 생성된 비디오를 편집하는 것은 어렵고 시간이 많이 소요됨
      • 또한 이 모델들을 유용하게 만들기 위해서는 직관적인 사용자 인터페이스(UI)와 워크플로우를 구축하는 것도 필요함
      • Runway, Genmo, Pika 등과 같은 회사들이 이미 이러한 문제들에 대해 작업 중임
  • 비디오 모델의 빠른 발전 예상
    • DiT 논문의 핵심 통찰 중 하나는 모델 품질이 추가적인 계산으로 직접 개선된다는 것이었으며, 이는 위에서 논의된 바와 같음
    • 이는 LLMs에 대해 관찰된 스케일링 법칙과 유사함
    • 따라서 이러한 모델들이 점점 더 많은 계산으로 훈련됨에 따라 비디오 생성 모델의 품질에 대한 빠른 추가 진보를 기대할 수 있음
    • Sora는 이 레시피가 실제로 작동한다는 것을 명확히 보여주며, OpenAI를 비롯한 다른 회사들도 이 방향으로 더욱 집중할 것으로 예상됨
  • 합성 데이터 생성 및 데이터 증강
    • 로보틱스 및 자율 주행 차량과 같은 영역에서는 데이터가 본질적으로 희귀함: 인터넷에는 작업을 수행하는 로봇이나 운전하는 차량의 영상이 풍부하지 않음.
    • 일반적으로 이러한 문제들은 시뮬레이션에서 훈련하거나 실제 세계에서 대규모로 데이터를 수집하는 방법(또는 둘 다의 조합)으로 접근해왔음
    • 하지만, 두 접근법 모두 시뮬레이션 데이터가 종종 비현실적이라는 문제에 직면함
    • 실제 세계 데이터를 대규모로 수집하는 것은 비용이 많이 들며, 드문 이벤트에 대한 충분한 데이터를 수집하는 것은 도전적임
    • Sora와 같은 모델이 여기에서 매우 유용할 수 있음. 직접 완전한 합성 데이터를 생성하는 데 사용될 수 있다고 생각함
    • Sora는 기존 비디오를 다른 모습으로 변환하는 데이터 증강에도 사용될 수 있음
    • 위에서 설명한 두 번째 포인트는 Sora가 숲길을 달리는 빨간 차의 비디오를 울창한 정글 풍경으로 변환하는 것을 보여줌
    • 같은 기술을 사용하여 장면을 낮 대 밤으로 재렌더링하거나 날씨 조건을 변경하는 것을 상상할 수 있음
  • 시뮬레이션과 월드 모델
    • 소위 월드 모델을 학습하는 것은 유망한 연구 방향임
    • 충분히 정확하다면, 이러한 월드 모델은 에이전트를 직접 내부에서 훈련시키거나 계획 및 탐색에 사용될 수 있음.
    • Sora와 같은 모델은 비디오 데이터로부터 직접 실제 세계가 어떻게 작동하는지에 대한 기본적인 시뮬레이션을 암시적으로 학습하는 것으로 보임
      • 이러한 "등장하는 시뮬레이션"은 현재 결함이 있지만 그럼에도 불구하고 흥미로움: 비디오로부터 이러한 월드 모델을 대규모로 훈련시킬 수 있을지도 모른다는 것을 시사함
      • 더욱이, Sora는 액체, 빛의 반사, 직물 및 머리카락 움직임과 같이 매우 복잡한 장면을 시뮬레이션할 수 있는 것으로 보임.
      • OpenAI는 기술 보고서의 제목을 "월드 시뮬레이터로서의 비디오 생성 모델"로 하여, 이를 모델의 가장 중요한 측면으로 여긴다는 것을 분명히 함.
    • 매우 최근에, DeepMind는 비디오 게임의 비디오만으로 훈련함으로써 유사한 효과를 보인 Genie 모델을 시연함: 모델은 이 게임들을 시뮬레이션하는 방법을 학습하고(새로운 것들을 창조함)
      • 이 경우 모델은 직접 관찰하지 않고도 행동에 조건을 부여하는 방법을 학습함
      • 다시 말해, 목표는 이러한 시뮬레이션에서 직접 학습을 가능하게 하는 것임.
    • 두개를 결합하여, Sora와 Genie와 같은 모델이 실제 세계의 작업에서 대규모로 구체화된 에이전트(예: 로보틱스에서)를 훈련시키는 데 매우 유용하게 사용될 수 있을 것으로 봄
    • 하지만 한계가 있음: 이 모델들은 픽셀 공간에서 훈련되기 때문에, 바람이 풀잎을 어떻게 움직이는지와 같은 모든 세부 사항을 모델링하게 되며, 이는 수행 중인 작업에 전혀 관련이 없을 수 있음
    • 잠재 공간은 압축되지만, 픽셀로 다시 매핑할 수 있어야 하므로 많은 정보를 유지해야 하며, 따라서 이 잠재 공간에서 계획이 효율적으로 이루어질 수 있는지는 불분명함

계산 추정치(Compute Estimates)

  • 팩토리얼 펀즈에서는 훈련과 추론에 사용된 계산량을 살펴보는 것을 선호함. 미래에 필요할 계산량의 예측에 정보를 제공할 수 있기 때문에 유용함
  • 하지만, Sora를 훈련시키는 데 사용된 모델 크기와 데이터셋에 대한 세부 사항이 거의 없기 때문에 이러한 수치를 추정하는 것도 어려움
  • 따라서 이 섹션의 추정치는 매우 불확실하므로, 이를 유념하고 참고해야 함
  • (추정치 일뿐이므로, 이 부분은 생략합니다)

내용과 더불어 개인적으로 알고있던 TMI들을 첨언합니다.

  • Diffusion Transformers(DiT)는 당시 버클리 박사과정생인 William Peebles이 주도하였으며, 해당 논문은 가장 저명한 컴퓨터비전학회인 CVPR에서 '참신성 없음 (Lack of Novelty)'로 확실하게 거절되었습니다. 이후 ICCV에 출판되었고 저자는 졸업, OpenAI 입사 후 곧바로 Sora 프로젝트를 리드합니다.
  • DiT의 아키텍처는 Diffusion model + Transformer 아키텍처로, 당시 Diffusion model에서 U-Net 구조를 활용한 이미지 복원의 월등한 성능은 익히 알려져 있었는데, 이를 CNN 기반이 아닌, Vision Transformer와 Patchify 구조로 변경한 점입니다. 따라서 논문의 주안점은 ViT 아키텍처 도입을 통한 'Scaling Law'를 증명하는 데에 대부분을 할애하며, 실질적 제안 방법은 본문에서 한 페이지도 채 되지 않습니다.
  • 세간의 대중들의 관심과 다르게, 학계에 있는 사람들은 이런 식의 방향이 점차 많은 관심과 인용을 받는 것에 상당한 우려를 표하고 있습니다. 더 많은 (좋은) 데이터, 그리고 막대한 컴퓨팅 자원, 마지막으로 Scaling Law가 보장되는 아키텍처만 있다면 더 이상의 어떤 영리한 해킹이나 발명도 필요 없어 보이기 때문입니다. 연구자들이 궁리해서 만든 스마트한 기법보다 단지 GPU 100장을 더 추가한 결과가 항상 낫다면, 상당히 유쾌한 기분은 아닐겁니다.

DiT와 Sora 모두 일반적으로 사용되는 U-Net 아키텍처 대신 바닐라 트랜스포머 아키텍처를 사용한다고 했는데, 유넷과 트랜스포머가 인공지능에서 어떤 역할을 하는건가요? 너무 헷갈리네요ㅠㅠ

외계인들이네요 ㄷㄷ