6P by neo 3달전 | favorite | 댓글 1개
  • 최근 몇 년 동안 플래시 기반 SSD는 대부분의 저장 장치 용도에서 디스크를 대체
  • SSD는 여러 개의 독립적인 플래시 칩으로 구성되어 있으며, 이들은 병렬로 접근 가능
  • SSD의 처리량은 호스트와의 인터페이스 속도에 주로 의존
  • 지난 6년간 SATA에서 PCIe 3.0, PCIe 4.0, PCIe 5.0으로 빠르게 전환되며 SSD 처리량이 폭발적으로 증가
  • 또한 성능 향상뿐만 아니라 달러당 용량도 증가
  • 이러한 변화는 NVMe와 PCIe 같은 개방형 표준, 거대한 수요, 경쟁적인 공급업체 덕분
  • 현재 PCIe 5.0 데이터 센터 SSD는 최대 13 GB/s 읽기 처리량과 270만 이상의 랜덤 읽기 IOPS를 달성
  • 현대 서버는 약 100개의 PCIe 레인을 가지고 있어, 한 서버에 여러 개의 SSD를 전체 대역폭으로 사용할 수 있음

클라우드에서의 SSD 성능 정체

  • AWS EC2는 초기 NVMe SSD를 탑재한 i3 인스턴스를 2017년 초에 출시함
  • 당시 NVMe SSD는 비쌌고, 서버당 8개를 갖춘 것은 주목할 만한 일이었음
  • 그러나 7년이 지난 후에도 SSD당 2 GB/s의 성능에 머물러 있음
  • i3와 i3en 인스턴스는 여전히 IO/$와 SSD 용량/$ 면에서 EC2가 제공하는 최고의 옵션임
  • 클라우드 벤더가 제공하는 SSD와 최신 SSD 간의 성능 격차가 읽기 처리량, 쓰기 처리량, IOPS에서 거의 10배에 가까워짐
  • 클라우드에서의 이러한 정체는 다른 영역에서의 큰 진전과 대조적임
  • 예를 들어, EC2 네트워크 대역폭은 2017년부터 2023년까지 10 Gbit/s에서 200 Gbit/s로 폭발적으로 증가함
  • 클라우드 벤더들이 저장소 측면에서 발전하지 않은 이유는 여러 가지 추측이 있음
    • EC2가 의도적으로 쓰기 속도를 1 GB/s로 제한하여 장치 고장을 피할 수 있다는 이론
    • 빠른 저장소에 대한 수요가 없어 시스템을 최적화할 유인이 적다는 가능성
    • EC2가 빠르고 저렴한 NVMe 인스턴스 저장소를 출시하면 다른 저장 서비스(EBS)의 비용 구조를 방해할 수 있다는 이론
  • 작성자는 곧 10 GB/s SSD를 탑재한 클라우드 인스턴스를 볼 수 있기를 희망함

GN⁺의 의견

  • SSD 기술의 급속한 발전에도 불구하고, 클라우드 서비스 제공업체들이 이러한 변화를 따라잡지 못하는 것은 시장의 다양한 요구와 기술적 한계를 반영함
  • 클라우드 스토리지의 성능 정체는 비용 효율성과 서비스 품질에 대한 사용자의 기대와 상충할 수 있으며, 이는 클라우드 산업 내 경쟁력에 영향을 미칠 수 있음
  • 이 글은 클라우드 컴퓨팅 사용자와 제공업체 모두에게 중요한 인사이트를 제공하며, 더 빠른 스토리지 솔루션에 대한 수요와 기술적 진보의 필요성을 강조함
Hacker News 의견
  • 클라우드의 기술적 문제에 대한 논의

    • 구글에서 클라우드의 근본적인 문제로 작업했음. 이 문제는 사람들의 기술 방향을 결정짓는 중요한 요소임.
    • 클라우드의 SSD는 네트워크를 통해 연결되어 있으며, 이는 필수적임. 하지만 네트워크가 너무 크고 느려서 로컬 SSD의 성능을 제공할 수 없음.
    • 하드 드라이브에서는 문제가 되지 않았지만, SSD의 경우 네트워크보다 월등히 빠르기 때문에 문제가 됨.
  • AWS Nitro SSD 아키텍처에 대한 설명

    • AWS 문서와 블로그는 Nitro SSD 아키텍처를 설명함. 이는 PCIe를 통해 시스템 메인보드에 물리적으로 연결되어 있지만, 고객 워크로드를 실행하는 시스템 메인보드와는 논리적으로 격리됨.
    • SSD 장치의 수명을 최대한 연장하기 위해 펌웨어는 '웨어 레벨링'이라는 과정을 담당함. 이 과정에는 일종의 가비지 컬렉션이 포함되어 있으며, 일반 SSD는 쓰기 작업이 많을 때 예측할 수 없는 시간에 느려질 수 있음. AWS는 데이터베이스 전문 지식을 활용하여 SSD 펌웨어에 매우 정교한, 전원 실패에 안전한 저널 기반 데이터베이스를 구축함.
  • 클라우드 인스턴스의 IOPS에 대한 경험담

    • 클라우드 인스턴스의 'provisioned IOPS' 수치가 매우 낮아서 놀람. 이는 많은 사람들, 특히 클라우드 인스턴스만 경험한 젊은이들이 하나 또는 두 개의 RU에 실제로 얼마나 많은 성능을 담을 수 있는지 잘 모르고 있음을 의미함.
    • NVMe 스토리지의 빠른 속도는 오늘날의 놀라운 기술의 일부임.
  • OCI에서 일하는 개인의 의견

    • OCI는 인스턴스에서 더 빠른 NVMe 드라이브를 제공함. E4 Dense 모델은 삼성 MZWLJ7T6HALA-00AU3를 탑재하여 순차적 읽기 7000 MB/s, 순차적 쓰기 3800 MB/s를 지원함.
    • AWS가 현재 더 빠른 NVMe를 제공하지 않는 이유는 구체적인 수요가 부족하기 때문일 가능성이 높음. 이는 추측이지만, 일반적으로 특정 수요가 충분하지 않으면 업그레이드는 생각보다 뒤로 밀릴 수 있음.
  • 클라우드에서 벗어나는 것에 대한 주장

    • 현대의 NVMe와 코어 수는 클라우드에서 벗어나는 강력한 근거를 제공함. 이러한 속도는 메모리에 가까워서 데이터가 디스크에 확실히 맞을 것이라는 점에서 복잡성을 줄임.
    • 강력한 서버 하나만으로도 충분한 캐싱/계산/서빙을 할 수 있으며, 이는 많은 워크로드를 단순화함.
  • 클라우드 최적화에 대한 비판

    • 대역폭이 문제가 아니라 IOPS가 문제임. 임의의 IO 벤치마크를 실행했을 때, SSD보다는 큰 스피닝 RAID 어레이에 가까운 랜덤 IOPs 행동을 보임.
    • 클라우드 최적화를 진지하게 받아들이기 어려운 이유 중 하나는 데이터베이스/등의 워크로드가 잘 최적화되지 않아 비용이 많이 들 수 있음.
  • AWS의 NVMe 인스턴스 타입에 대한 논의

    • i4i 및 im4gn과 같은 여러 NVMe 인스턴스 타입이 출시되었지만, 성능은 증가하지 않았음. i3 출시 이후 7년이 지났지만 여전히 SSD 당 2 GB/s에 머물러 있음.
    • AWS 마케팅은 다음과 같이 주장함:
      • 최대 800K 랜덤 쓰기 IOPS
      • 최대 100만 랜덤 읽기 IOPS
      • 최대 5600 MB/초의 순차적 쓰기
      • 최대 8000 MB/초의 순차적 읽기
  • 하이브리드 SSD 구성에 대한 개인적 선택

    • 2011년 X-25E 64GB와 2021년 PM897 3.7TB를 혼합하여 사용함으로써 가장 견고한 솔루션과 가장 큰 데이터베이스를 가장 낮은 전력으로 얻을 수 있음.
  • 클라우드 서비스의 성능 제한에 대한 추측

    • 클라우드 서비스가 낮은 성능을 유지하는 이유는 수요가 많지 않기 때문일 수 있으며, 이는 가상화 계층에서 '속임수'를 사용할 수 있게 함.
  • SSD 비용에 대한 고려

    • 가장 빠른 SSD는 MLC 기술을 사용하는 경향이 있으며, 이는 다른 기술에 비해 쓰기 수명이 훨씬 낮음.
    • 데이터 밀도를 높이는 것은 성능을 높이는 것을 용이하게 하지만, 메모리의 블록/셀 단위로 쓰기가 이루어지기 때문에 한 셀이 나빠지면 모든 셀이 실패할 수 있음.
    • 새로운 기술을 스택에 도입하고, 효과적인 비용으로 플릿을 업그레이드하는 것은 문제가 될 수 있음.