모든 개발자가 알아야 할 GPU 컴퓨팅에 대한 정보

(codeconfessions.substack.com)

5P by GN⁺ 2023-10-22 | ★ favorite | 댓글 1개

GPU 컴퓨팅에 대한 기본적인 이해는 모든 소프트웨어 엔지니어에게 필수적임
이 글은 주로 Nvidia GPU에 초점을 맞추고 있으며, Nvidia의 용어를 사용
GPU는 그래픽, 수치 계산, 딥러닝 등에서 대규모 병렬 처리와 높은 처리량을 위해 설계됨

CPU와 GPU 비교

CPU는 순차적 명령 실행을 위해 설계되었으며, 명령 실행 지연 시간을 줄이기 위한 다양한 기능이 포함됨.
GPU는 대규모 병렬 처리와 높은 처리량을 위해 설계되었으며, 중간에서 높은 명령 실행 지연 시간을 가짐.
GPU는 CPU보다 훨씬 많은 수의 연산을 훨씬 빠르게 처리할 수 있음.

# GPU 아키텍처

GPU 컴퓨트 아키텍처

GPU는 스트리밍 멀티프로세서(SM)의 배열로 구성되어 있음.
각 SM은 여러 스트리밍 프로세서(코어 또는 스레드)를 포함함.
SM은 제한된 양의 칩 내 메모리(공유 메모리 또는 스크래치패드)를 가지며, 모든 코어가 공유함.

GPU 메모리 아키텍처

GPU는 여러 계층의 다양한 종류의 메모리를 가지고 있음.
각 SM은 대량의 레지스터를 가지며, 이는 코어 간에 공유됨.
상수 캐시는 코드 실행에 사용되는 상수 데이터를 캐시하는 데 사용됨.
공유 메모리는 빠르고 저지연의 칩 내 프로그래밍 가능한 SRAM 메모리임.
L1 캐시는 L2 캐시에서 자주 접근하는 데이터를 캐시함.
L2 캐시는 모든 SM에 의해 공유되며, 글로벌 메모리에서 자주 접근하는 데이터를 캐시함.
글로벌 메모리는 고용량, 고대역폭 DRAM으로, SM에서 멀리 떨어져 있어 지연 시간이 높음.

# GPU 실행 모델 이해

CUDA 커널과 스레드 블록에 대한 간략한 소개

CUDA는 Nvidia GPU용 프로그램을 작성하기 위한 프로그래밍 인터페이스임.
커널은 GPU에서 병렬로 실행되는 C/C++ 함수와 유사한 형태로 표현된 계산임.
커널 실행을 위해 그리드라고 불리는 스레드의 수를 시작함.

GPU에서 커널 실행의 단계

호스트에서 디바이스로 데이터 복사
SM에 스레드 블록 스케줄링
단일 명령 다중 스레드(SIMT) 및 워프
워프 스케줄링 및 지연 시간 허용
디바이스에서 호스트 메모리로 결과 데이터 복사

# 자원 분할 및 점유율 개념

GPU 자원 활용도는 "점유율"이라는 지표로 측정되며, SM이 지원할 수 있는 최대 워프 수에 대한 할당된 워프 수의 비율을 나타냄.
점유율은 SM의 실행 자원, 레지스터, 공유 메모리, 스레드 블록 슬롯 및 스레드 슬롯에 의해 제한됨.
코드 최적화를 통해 높은 점유율을 유지하면서 지연 시간을 최소화하는 것이 중요함.

# 요약

GPU는 여러 SM으로 구성되며, 각 SM은 여러 처리 코어를 가짐.
글로벌 메모리는 칩에서 멀리 떨어져 있으며, 지연 시간이 높음.
L1 및 L2 캐시는 CPU의 L1/L2 캐시와 유사하게 작동함.
각 SM에는 공유 메모리가 있으며, 이는 코어 간에 공유됨.
GPU에서 커널을 실행하기 위해 스레드의 그리드를 시작함.
GPU는 SM에서 실행할 블록을 할당하며, 모든 스레드는 동일한 SM에서 실행됨.
SM에 할당된 스레드는 워프라고 불리는 32의 크기로 더 그룹화됨.
GPU는 스레드의 요구 사항과 SM의 한계에 따라 스레드 간에 동적 자원 분할을 수행함.

# 마무리

GPU는 오늘날 널리 사용되고 있으며, 그 아키텍처와 실행 모델은 CPU와 근본적으로 다름.
이 글은 GPU의 다양한 측면을 다루며, GPU가 널리 사용되는 이유와 작동 방식에 대한 통찰력을 제공함.

GN⁺의 의견

GPU는 딥러닝과 복잡한 수치 계산에 필수적인 기술로, 이 글은 GPU의 기본적인 아키텍처와 실행 모델을 이해하는 데 도움이 됨.
병렬 처리와 고성능 컴퓨팅에 관심이 있는 초급 소프트웨어 엔지니어에게 특히 중요한 내용을 담고 있음.
이 글은 GPU 프로그래밍에 대한 기본적인 지식을 제공하며, 이 분야에 대한 호기심을 자극하는 흥미로운 자료임.

GN⁺ 2023-10-22 [-]

Hacker News 의견

본 기사는 Nvidia에 특화되어 있어 Sycl, Sapphire Rapids, AMD의 MI300과 같은 다른 유효한 대안들을 무시하고 있다는 비판을 받고 있다.
데이터 전송 중 GPU가 유휴 상태가 되는 것을 방지하는 비동기 복사에 대한 언급이 부족하다는 지적이 있다.
본 기사는 GPU 프로그래밍에 대한 좋은 소개로 칭찬받지만, 더 고급 기법을 탐구할 필요가 있다는 제안이 있다.
일부 독자들은 대기 이론의 Little’s law가 GPU에 적용된다는 기사의 주장의 정확성에 의문을 제기한다.
메모리 아키텍처에 대한 기사의 설명은 캐시가 스레드 간에 일관성 보장을 제공하지 않는다는 점을 언급하지 않았다는 비판을 받고 있다.
GPU의 기능을 더 잘 반영하기 위해 GPU를 PPU(Parallel Processing Units)로 이름을 바꾸는 제안이 있다.
본 기사는 GPU 프로그래밍에 대한 더 나은 설명 중 하나로 칭찬받고 멘토링에 사용하기를 권장받고 있다.
SIMD 프로그래밍은 "야생적"으로 묘사되며, 모든 픽셀에 대한 쉬운 계산이 있지만 분기 조건에는 어려움이 있다.
특정 배열 계산 작업에 GPU를 사용하는 효율성에 대한 질문이 제기되었으며, GPU로 데이터를 전송하고 GPU에서 데이터를 가져오는 필요성을 고려하였다.