최근 triton이나 cuda 이용해서 gpu커널 개발을 좀 하고 있는데, 3.5만해도 제대로 실행되는걸 못보다가 4.5에서는 어느정도 제대로된 코드나 최적화를 해주는게 보이더라구요