나는 좋은 병렬 컴퓨터를 원해요

GPU는 CPU보다 10~100배 더 강력하지만, 동적 작업 처리에 어려움이 있고 병렬 프로그래밍 도구가 부족해 일반 작업에서 성능을 충분히 활용하지 못하고 있음
과거에 Connection Machine, Cell, Larrabee 같은 병렬 컴퓨터 디자인이 있었지만 프로그래밍 모델의 복잡성 등으로 실패함
현대 GPU는 메모리 관리 문제와 복잡한 실행 모델 때문에 성능 최적화가 어렵고, 큐 기반의 효율적인 데이터 전달 구조가 필요함
AI 가속기와 병렬 코어 집합 같은 새로운 아키텍처가 GPU의 한계를 극복할 가능성이 있음
병렬 컴퓨터의 발전은 아직 미완성 상태이며, 단순하고 효율적인 실행 모델과 프로그래밍 도구의 개선이 필요함

GPU의 강력한 성능과 한계

최신 GPU는 복잡성이 빠르게 증가하고 있음
메시 셰이더(mesh shaders), 워크 그래프(work graphs) 등의 새로운 기능이 도입되었지만 일부 기본 작업은 여전히 지원되지 않음

필자는 Vello라는 고급 2D 벡터 그래픽 렌더러를 개발 중
- CPU가 장면 설명(SVG 형식) 업로드 → 컴퓨트 셰이더가 처리 후 이미지 생성
문제점: 메모리 관리의 어려움
- 중간 결과 저장을 위한 버퍼 크기 예측이 어려움
- 버퍼 초과 시 GPU에서 CPU로 읽기 작업이 성능 저하를 초래함

GPU 내부에서 큐(queue) 를 통해 결과를 전달하도록 개선
- 2009년 GRAMPS 논문에서 제안된 모델
- Brook 프로젝트에서도 비슷한 접근 시도

Connection Machine (1985)
- 64k 프로세서가 하이퍼큐브 네트워크로 연결된 병렬 컴퓨터
- 각각의 프로세서는 성능이 낮았지만 대규모 병렬 작업이 가능
- 병렬 알고리즘 연구에 큰 기여
Cell (2006, PS3)
- PS3에 포함된 병렬 컴퓨터 (약 87.4백만 대 출하)
- 8개의 병렬 코어가 독립적으로 연산 수행 가능
- 프로그래밍 모델의 복잡성이 실패 원인
Larrabee (2008)
- x86 기반 병렬 컴퓨터로 개발됨
- 실패 이유: 전력 소비 및 소프트웨어 지원 부족
- 이후 Xeon Phi 및 AVX-512 명령어로 이어짐

게임에서도 연산 작업 비중이 증가
- Starfield의 경우 총 작업 시간의 약 **50%**가 연산
- Nanite 렌더러는 작은 삼각형의 래스터화도 연산으로 처리

1. 코어 집합 확장 (Cell 부활)
- 현대의 고급 CPU는 1000억 개 이상의 트랜지스터 포함
- 저전력의 단순한 RISC 코어를 수백~수천 개 포함한 칩 제작 가능
- AI 가속기는 이미 유사한 아키텍처 채택 중
2. GPU에서 Vulkan 명령 실행
- GPU에서 직접 Vulkan 명령 실행 가능하도록 지원
- 현재 일부 Vulkan 확장에서 제한적으로 구현됨
3. 워크 그래프(Work Graph)
- 프로그램을 노드(커널)와 엣지(큐)로 구성
- 병렬로 실행되나 다음과 같은 제한 사항 존재
  - 조인(join) 작업이 어려움
  - 요소의 정렬 순서 보장 안됨
  - 가변 크기 요소 지원 안됨
4. CPU와의 융합 진화
- 고성능 CPU 디자인이 병렬 처리에 최적화될 가능성
- 병렬 연산 및 SIMD(단일 명령 다중 데이터) 처리 성능 개선 중
5. 하드웨어는 이미 준비되어 있을 가능성
- 일부 GPU에는 사용자 코드 실행 가능한 명령 프로세서 포함
- 명령 프로세서가 완전히 개방되면 성능 개선 가능성 존재