해킹된 Nvidia 4090 GPU 드라이버, P2P 활성화

(github.com/tinygrad)

NVIDIA Linux Open GPU 드라이버에 P2P 지원 추가

이 프로젝트는 NVIDIA 드라이버를 포크해서 4090 GPU에 P2P 지원을 추가한 것임.

일부 3090과 모든 4090에서 NVIDIA가 Large BAR 지원을 추가함
H100에서는 메일박스 대신 BAR을 직접 사용하는 BAR1P2P라는 PCIe 모드를 추가함
4090에서 이를 활성화하려면 HAL을 우회하고 GH100 메서드를 직접 호출해야 함
- kbusEnableStaticBar1Mapping_GH100 같은 메서드로 전체 VRAM을 BAR1에 매핑
- MapAperture 함수에서 해당 영역 사용을 비활성화해야 했음

VRAM 매핑 후에도 cuda-samples의 ./simpleP2P 실행 시 MMU 오류 발생
- GMMU_APERTURE_PEER를 매핑 타입으로 사용하는데 4090에서 지원되지 않음
- 4090에서 지원되는 타입은 GMMU_APERTURE_VIDEO, GMMU_APERTURE_SYS_NONCOH, GMMU_APERTURE_SYS_COH 뿐
GMMU_APERTURE_PEER를 GMMU_APERTURE_SYS_NONCOH로 변경
- CPU L2 캐시와 일관성은 필요없지만 PCIe 버스로 나가야 하므로
피어 주소 필드인 fldAddrPeer를 fldAddrSysmem으로 변경
fabricBaseAddress 필드에 BAR1 기준 주소를 설정

NVIDIA 드라이버의 대부분이 오픈소스로 공개되어 있어 개발자 커뮤니티에서 이런 시도를 할 수 있었던 것 같음. 앞으로도 더 많은 부분이 오픈소스화 되길 기대해 봄.
4090의 강력한 성능을 여러대 연결해서 활용할 수 있게 되면, 개인 개발자나 소규모 랩에서도 거대 규모의 AI 모델을 학습시킬 수 있게 될 것임.
하지만 이렇게 하드웨어 의존적이고 까다로운 부분을 개발자가 직접 만질 수 밖에 없다는 건, NVIDIA가 아직 4090 지원을 완전히 끝내지 못했다는 반증이기도 함.
또한 이는 Linux 드라이버에 한정된 얘기고, Windows에서의 상용 활용은 아직 요원해 보임. NVIDIA의 공식적인 지원이 하루빨리 이뤄지길 바람.
아무래도 4090이 워낙 최신 하드웨어다보니 CUDA, PyTorch, Tensorflow 같은 라이브러리나 ML 프레임워크의 완벽한 호환성을 기대하긴 어려울 것 같음. 안정화 될 때까지 기다려봐야 할 듯.