Apple, AI 성능을 획기적으로 향상시킨 M5 칩 공개
(apple.com)- M5 칩은 GPU 각 코어에 Neural Accelerator를 내장해 AI 연산 속도를 M4 대비 4배 이상 끌어올림
- 10코어 GPU, 16코어 Neural Engine, 153GB/s 통합 메모리 대역폭을 결합해 온디바이스 AI 모델과 그래픽 처리 모두에서 성능을 비약적으로 강화
- MacBook Pro 14, iPad Pro, Apple Vision Pro에 탑재되어, AI 기반 워크플로·디퓨전 모델·언어 모델 실행 속도를 크게 향상시킴
- 새 3세대 레이 트레이싱 엔진과 2세대 Dynamic Caching을 통해 게임과 3D 앱에서 최대 45% 향상된 그래픽 성능을 제공함
- Apple은 M5 칩이 AI 시대의 핵심 플랫폼으로, 에너지 효율과 성능 양면에서 Apple Silicon의 차세대 도약을 의미한다고 강조함
M5 칩 개요
- M5 칩은 3세대 3나노 공정으로 제작된 차세대 Apple Silicon SoC로, AI 워크로드를 위해 전면 재설계
- 10개의 GPU 코어마다 Neural Accelerator를 통합하여 M4 대비 4배, M1 대비 6배 향상된 AI 연산 성능을 달성
- 4개의 성능 코어와 6개의 효율 코어로 구성된 10코어 CPU로 M4 대비 15% 빠른 멀티스레드 성능 제공
- 16코어 Neural Engine과 향상된 미디어 엔진, 153GB/s 메모리 대역폭을 통해 시스템 전반의 효율성을 강화
AI와 그래픽 성능의 혁신
- M5의 차세대 GPU 아키텍처는 모든 연산 블록이 AI에 최적화되어 있으며, GPU 내 Neural Accelerator가 직접 AI 연산을 처리함
- Draw Things, LM Studio 등 온디바이스 AI 앱의 실행 속도가 대폭 향상됨
- 3세대 레이 트레이싱 엔진과 2세대 Dynamic Caching이 결합되어, 그래픽 처리 성능이 M4 대비 30%, M1 대비 2.5배 향상됨
- Cyberpunk 2077 등 고사양 게임에서 120Hz 지원과 부드러운 프레임 전환을 구현함
- Apple의 공식 프레임워크 (Core ML, Metal Performance Shaders, Metal 4) 기반 앱은 즉각적으로 성능 향상 효과를 볼 수 있음
- 개발자는 Metal 4 Tensor API를 통해 GPU 내 Neural Accelerator를 직접 제어할 수 있음
Neural Engine과 Apple Intelligence
- 16코어 Neural Engine은 CPU·GPU의 Neural Accelerator와 협력해 고속 AI 연산을 처리함
- Apple Vision Pro에서는 사진의 3D 변환, Persona 생성 등 복잡한 AI 기능이 더욱 빠르게 작동함
- Apple Intelligence 기반의 언어 모델 및 Image Playground 도구의 반응 속도가 향상되어 온디바이스 AI 경험을 개선함
- 개발자들도 Apple Intelligence 모델을 활용할 때 M5의 향상된 Neural Engine 덕분에 성능 개선을 체감할 수 있음
메모리 아키텍처
- 153GB/s 통합 메모리 대역폭은 M4 대비 30% 증가, M1 대비 2배 이상 향상된 수치임
- 단일 메모리 풀 구조로 CPU·GPU·Neural Engine이 동일한 대용량 메모리에 접근 가능함
- 32GB 메모리 구성으로 Photoshop, Final Cut Pro 등 고사양 창작 앱과 대규모 AI 모델을 동시에 원활히 실행 가능함
- 대용량 AI 모델과 실시간 그래픽 렌더링의 성능을 극대화함
에너지 효율성과 환경
- M5는 업계 최고 수준의 전력 효율성을 유지하면서 성능을 대폭 향상시킴
- Apple 2030 이니셔티브의 일환으로, 생산·소재·전력·운송 전 과정에서 탄소 배출 저감을 추진함
- M5 칩을 탑재한 기기들은 에너지 효율 기준을 충족하며, 제품 수명 전반에 걸친 에너지 소비를 최소화함
종합 의미
- M5 칩은 Apple Silicon의 진화가 AI 중심 컴퓨팅 시대로 본격 전환되었음을 상징함
- GPU와 Neural Engine의 통합 설계로, 온디바이스 AI 성능이 클라우드 의존을 줄이고 개인 기기의 연산 독립성을 높이는 방향으로 진화함
- Apple은 이를 통해 MacBook Pro, iPad Pro, Vision Pro를 차세대 AI 크리에이티브 플랫폼으로 재정의하고 있음
보도자료에서 AI 를 강조할 만큼, 뭔가 애플의 긴박함이 느껴지기도 하네요.
GPU에다가 신경망 가속기 다 통합해서 AI 연산 속도를 올린건 획기적이긴 해서 온디바이스 성능은 엄청 올라갈 것 같아요. 이제 여기에 얼마나 훌륭한 모델이 올라가느냐가 관건인데 ㅎㅎ
Hacker News 의견
- 테이블로 정리
Chip Process CPU Cores GPU 뉴럴엔진 메모리 밴드위스 통합메모리 긱벤치 싱글/멀티 M1 5 nm G1 8: 4P+4E 7–8 16-core 68.25 GB/s 16 GB 2346 / 8346 M2 5 nm G2 8: 4P+4E 8–10 16-core 100 GB/s 24 GB 2586 / 9672 M3 3 nm G1 8: 4P+4E 8–10 16-core 100 GB/s 24 GB 2965 / 11565 M4 3 nm G2 10: 4P+6E 8–10 16-core 120 GB/s 32 GB 3822 / 15031 M5 3 nm G3 10: 4P+6E 10 16-core 153 GB/s ≤32 GB 4133 / 15437 (9 core) - 32GB에서 24GB로 통합 메모리가 줄어든 점이 흥미로움. 아마도 M4 칩이 표준형에 너무 많은 메모리를 허용했다고 판단해 Pro/Max 칩과의 차등을 키우려 했다고 추측함. 근데 최신 Macbook Pro에서 32GB 옵션도 지원된다는 점을 보니, 표에 있는 24GB M5는 오타일 가능성도 생각함
- 내 M3 Max가 곧 구식이 될 것 같지만, M6나 M7 Max로 업그레이드하면 정말 멋질 것 같음
- TSMC의 2nm 공정이 내년으로 미뤄진 건지, 원래 2026년 계획이었는지 궁금함
- M5의 멀티코어 Geekbench 점수는 9코어 버전임. 10코어의 점수는 아직 공개된 게 없음
- M5 MacBook Pro는 여전히 Broadcom WiFi 칩을 쓰지만, M5 iPad Pro는 N1과 C1X 칩을 탑재해서 기대하게 됨.
Apple이 하드웨어 면에서 믿기지 않을 정도로 멋진 일들을 하고 있다는 생각임.
소프트웨어 팀은 정말 각성을 좀 해야 함. M1 자체도 너무 강력해서 대부분 사용자에게는 업그레이드가 필요 없는 수준임.
하지만 새 OS(Tahoe)는 내가 몇 년간 똑같이 해오던 작업을 할 때도 M1 Air를 갑자기 느리게 만듦.
이게 고의로 느리게 만드는 것이라면 정말 실망- Tahoe 업데이트 이후, 32GB M2 Pro 업무용 노트북이 집의 느린 PC처럼 굼뜨게 변함.
마우스 포인터도 순간 이동하는 느낌임. 접근성 설정에서 투명도 비활성화해도 해결이 안되고 오히려 더 심해졌음 - 소프트웨어 관련해서 최근 Apple에 정말 미치게 하는 부분이 많음.
- 아이폰을 Apple TV 리모컨으로 쓰는데 갑자기 볼륨 컨트롤이 안되는 등 일관성 없는 UI가 문제임
- Face ID를 강제하는 인증 방식이 답답함. 스키장에선 당연히 Face ID가 안되는데, 패스워드 입력을 바로 못함
- Apple TV에서 자녀 보호 입력도 굳이 PIN 선택 화면 거쳐야 함. 바로 PIN 입력 창 띄우는 게 편할 것임
- 아이폰으로 리모컨 쓸 때도 자녀 승인 단계에서 자동으로 넘어가게 만들었으면 하는 바람임
- Apple 하드웨어팀은 기적 같은 일들을 해내지만, 정작 그것을 구동하는 소프트웨어는 기대에 못미친다고 생각함. 마치 전혀 다른 회사 두 곳이 따로 움직이는 느낌임
- M5 MacBook Pro의 WiFi 칩과 iPad Pro의 N1, C1X가 정말 좋은 건지는 아직 판단이 어려움. Apple의 셀룰러 모뎀도 만족스럽지 않은 경험이 많았음.
M1이 파워풀하다는 건 과장되었다는 생각. 전력 대비 성능은 뛰어나지만, 실제 연산량에서는 Ryzen 9 7945HX가 M1 Max의 3배, Intel Core Ultra 7 265k는 3.5배 정도로 훨씬 더 많은 작업 처리 가능함 - 만약 Apple이 하드웨어와 소프트웨어 조직을 완전히 분리해서 하드웨어를 더 표준화하고, macOS/iOS를 수많은 옵션 중 하나로 만든다면 정말 기대가 크겠음. 현실적으로 불가능하겠지만 꿈꿔봄
- Tahoe 업데이트 이후, 32GB M2 Pro 업무용 노트북이 집의 느린 PC처럼 굼뜨게 변함.
- Apple 하드웨어는 사양상으로 인상적이지만, 리눅스를 직접 돌릴 수 없는 맥을 사고 싶지 않음. Apple이 만든 통제된 생태계가 싫음.
ARM 대 x86 문제도 존재함. 호환 배포판이 나온다 해도 데스크탑에서는 다양한 소프트웨어와 게임까지 다 돌려야 하는 용도인데 ARM은 아직 한계가 많음. 노트북에선 그나마 합리적인 선택이 되었지만 진짜 자유롭고 실사용 가능한 ARM 데스크탑은 아직 멀었다는 생각임- 사실 맥에서도 리눅스 꽤 잘 돌아감. Parallels나 VMware Fusion을 써본 적 있는지? 특히 Parallels는 2D/3D/비디오 가속, 일시중지, 호스트 OS와의 통합 등을 잘 지원함.
만약 이게 취향이 아니라면, Tahoe의 새로운 네이티브 컨테이너 기능으로 dockerhub 등에서 바로 컨테이너 돌릴 수 있음.
그리고 macOS 생태계를 '폐쇄 울타리'라고 하던데, 앱 설치도 자유롭고 homebrew로 거의 모든 오픈/비오픈 소프트웨어 다 쓸 수 있음 - 리눅스가 잘 돌아가는 ARM 노트북을 계속 찾고 있음. Lenovo 제품도 눈여겨보고 있지만 리눅스 지원이 아직 부족함
- Apple에서 정식 서비스받으려면 오히려 고의적 업셀링 당하는 기분임. 키보드 교체에 $1500씩 받기도 함. Apple은 재활용과 구형 모델 폐기에도 여전히 소극적임. 그리고 여전히 울타리 쳐진 환경이고 내가 내 기기에서 할 수 있는 선택지도 제한적임
- M1과 M2 맥은 Asahi Linux에서는 꽤 잘 돌아감(아직 M3, M4, M5는 지원 안됨)
- 이제는 컴퓨팅 속도 자체가 별 의미가 없다고 생각함. Wirth의 법칙이 너무 심하게 발동하지 않는 한 괜찮음
- 사실 맥에서도 리눅스 꽤 잘 돌아감. Parallels나 VMware Fusion을 써본 적 있는지? 특히 Parallels는 2D/3D/비디오 가속, 일시중지, 호스트 OS와의 통합 등을 잘 지원함.
- Neural Engine 개선에 대한 구체적 정보가 이번에도 또 안 보임.
Apple Neural Engine(ANE)과 관련된 거의 모든 정보는 애플 공식문서나 리버스엔지니어링으로 나옴(Github 리포), 이번에도 transformer 성능 대응을 위한 일부 개선이 있었을 것이라 추정함.
transformer 연구에 대한 애플의 논문도 꽤 흥미로움:- transformers on the Neural Engine
-
vision transformers
소프트웨어 측면에서는 MLX로 많이 나아졌지만 더 할 수 있는 개선이 있다고 봄. M5 Max에서 얼마나 발전될지 지켜봐야 함
아무리 개선이 있더라도 전 세대에는 적용이 안되고, 제일 아쉬운 건 여전히 8GB 통합 메모리 제공을 고수하는 점임 - 말씀대로 최근(작년~2년 전부터) 모든 맥 기본 모델이 16GB부터 시작임. 맥북 에어도 마찬가지임
- 더 빠른 연산 성능이 필요해지는 경우도 있음, 특히 context가 큰 vision language model 등. 내 이해로는 기존 ANE는 convolution 작업과 연산 효율에 최적화된 반면, 새 neural accelerator는 유연성과 성능에 맞춰나가는 추세임
- MLX는 아직 Neural Engine을 사용하지 않는 것으로 알고 있음. 차라리 Neural Engine을 포기하고 GPU의 metal/tensor 유닛에 집중했으면 함
- 내 추측으로는 이번에 NVIDIA처럼 GPU 코어 내부에 systolic array를 넣은 것 같음. 그게 M4 대비 MLX 속도를 4배 늘릴 유일한 방법으로 보임
- 통합 메모리는 언제나 vram보다 부족하다는 점이 있음. 내 16GB vram도 부족하게 느껴짐. 게다가 Apple이 저장공간을 너무 비싸게 만들어서, 진짜 로컬 AI로 내 캘린더, 메일, 사진, 메모 등을 자유롭게 분석시키고 싶어도 저장 용량이 256GB~1TB 옵션밖에 선택 안 되는 게 한계임
- Apple 실리콘에서 행렬곱 연산(matrix multiplies)이 가능한 하드웨어 유닛이 여러개임
- CPU SIMD/NEON
- CPU AMX coprocessor(M1~M3)
- CPU SME(M4)
- GPU(메탈 compute shader+simdgroup-matrix+mps matrix)
- Neural Engine(CoreML advisory)
그리고 M5에는 각 코어에 'Neural Accelerator'가 추가된 것으로 보임
- 각 유닛이 메모리 계층 내의 다른 포인트를 조작하기 때문에 오히려 합리적임. 프로그래머 입장에서도 지연시간 및 처리량을 상세 제어할 수 있으니 긍정적임
- Pytorch 같은 라이브러리가 이런 복잡함을 잘 추상화해줘서 다행임. 처음부터 직접 만드는 입장이라면 많이 복잡해지겠음
- 애플의 소프트웨어(예: Final Cut)가 이런 '중복된' 행렬곱 유닛들을 동시에 활용해서 성능을 극대화하는지 궁금함. 멀티태스킹 특성상 OS 차원에서는 여러 소프트웨어가 각 리소스를 분산 사용하는데, 이런 식의 극한 동시 활용을 해봐도 재밌을 듯함
- 이게 그렇게 이상한 설계인지는 잘 모르겠음. matmul 같은 연산은 이제 너무나 일상적으로 많이 쓰이는 원시 연산임. 1994년 맥 쿼드라에도 수많은 부동소수점 유닛이 있었고, 1984년 맥에는 없었음
- 모든 행렬곱 유닛을 동시에 쓸 수는 없을지 궁금함. 실용적이진 않아도 재미 삼아 해보면 어떨지? CPU도 슈퍼스칼라 구조라면 일부 연산을 병행 실행할 수도 있을 것 같음
- iPad Pro 칩이 저장공간에 따라 binning 되고 있음
- 512GB 이하: 3 P-cores + 6 E-cores
- 1TB 이상: 4 P-cores + 6 E-cores
출처 - 저장 공간 등급별로 성능 차이를 두는 건 Apple이 저장공간 가격을 엄청 받는다는 걸 감안할 때 정말 혐오스러운 마케팅임
- 최근 Apple을 보면 하드웨어팀이 소프트웨어팀보다 훨씬 잘해낸다는 인상을 받음
- 이게 Apple 역사상 처음은 아님. 68k에서 PowerPC로 전환할 때도 하드웨어 성능은 크게 뛰었지만, 소프트웨어가 그에 따라가지 못했음. 코어 시스템은 거의 OS 9까지 에뮬레이션으로 돌아갔고, 보호 메모리 및 선점형 멀티태스킹도 한참 미흡했음. Taligent와 Copland 프로젝트도 무산되며 NeXT 인수를 거쳐 Mac OS X가 출시됨. 이 때까지 소프트웨어가 맥의 차별화 포인트였는데, 그조차 Intel로 전환 이후 하락세였다가 M1 맥 출시부터 하드웨어가 다시 앞서게 된 느낌임
- 소프트웨어는 범위가 커지고 불필요하게 기능 추가, 방치된 앱도 많아지기 쉬움. 반면 하드웨어는 제조 단가라는 한계 때문에 범위가 한정적임. Apple에 이제 소프트웨어의 불필요한 범위와 제품을 과감히 정리할 누군가가 필요함
- 데이터센터/클라우드용이 아닌 대부분 소프트웨어는 점점 별로가 되어가는 것 같음. 이 상태에 익숙해진 사람들이 의사결정권자가 되면서, 앞으로 더 나빠진다고 생각함
- 사실 지금만 그런 게 아니라, 원래부터 Apple 소프트웨어 품질은 글쎄였음. 예전 iTunes도 태그 수정할 때 파일 하나하나 진짜 느리게 썼고, 비주얼 디자인이나 디자인 가이드가 뛰어났을 뿐 그 외엔 뛰어난 소프트웨어란 느낌은 별로임
- Apple은 본질적으로 하드웨어 회사임. 소비자용 OS를 무료로 제공하는 반면, Microsoft는 주로 OS 판매에 집중해왔음. 이제 SoC 패키지까지 직접 설계하면서 이런 하드웨어 강점을 제대로 보여주고 있다고 생각함
- 처음으로 Apple이 마케팅에서 "AI" 용어를 직접 사용한 것을 목격함. 전에는 "머신러닝"이나 "Apple Intelligence" 용어만 썼었음
- 결국 Apple도 hype에 굴복한 모습임. '머신러닝'이란 용어를 고수하던 Apple의 마지막 자존심 같았는데 아쉬움
- 물론 Apple이 diffusion 모델/LLM처럼 범용적 AI를 도입하면 AI라고 불러도 상관 없다고 생각함. 그래도 PR에서 최소한 Apple Intelligence도 언급했으면 좋겠다는 입장임
- 완전히 희망이 없는 건 아님. AI가 Apple Intelligence의 약자로 쓰일 수도 있으니까 남다른 상상력으로 봄
- 나는 Apple이 홍보하는 AI가 실제로는 Apple Intelligence를 의미한다고 믿고 싶음
- M5 발표에서 AI용 GPU 연산이 M4 대비 4배 빨라졌다는데, 아마도 실험실 기준일 것임. 실제로 iPad와 MacBook Pro의 M5 모두 "3.5배 빠른 AI 성능"을 주장하는데,실제 데모에서는 M4 대비 1.2~2.3배 빨라진 예시뿐임. 대체 무슨 테스트로 3.5배를 산출한 것인지 궁금함
- M5가 FP4 연산 지원을 추가하는 것으로 알려져 있음. 그래서 Q4 quantized 모델(BF16보다 훨씬 낮은 정밀도)에서 속도 차이가 크다고 봄
- Apple뿐 아니라 경쟁사들도 두 세대 이전 칩과 비교하는 일이 흔하기 때문에 이런 식의 수치 부풀리기도 이해함
- 이번 M5 칩에도 "Memory Integrity Enforcement" (A19/A19 Pro에 도입된 보안기능)이 탑재됐는지 궁금함
- 같은 CPU 코어를 썼으니 당연히 지원될 가능성이 큼