구글의 액체 냉각: Hot Chips 2025에서 공개
(chipsandcheese.com)- 액체 냉각은 데이터센터의 고전력 칩 발열 문제 해결을 위해 급속히 확산 중
- 공기보다 약 4,000배 높은 열전도율을 가져, 특히 AI 붐에 따른 TPU 냉각 수요에 대응해 구글이 적극 도입함
- 구글은 CDU(Coolant Distribution Unit) 기반의 랙 단위 액체 냉각 루프를 운영해 유지보수와 확장성을 높였음
- Split-flow 콜드 플레이트, 베어다이 냉각(TPUv4) 등 고성능 PC 시장의 기법을 데이터센터 스케일로 적용함
- 액체 냉각은 팬 대비 전력 소모 5% 이하로 효율적이며, 누수·미생물 성장 같은 문제에 대비해 구글은 철저한 검증, 알림 시스템, 예방 유지보수를 병행함
- NVIDIA, Rebellions AI 등도 액체 냉각을 채택해 데이터센터 냉각의 표준화 흐름이 가속화되고 있음
액체 냉각의 필요성 및 배경
- 액체 냉각은 PC 마니아 사이에서 익숙하며, 기업용 컴퓨팅 환경에서도 오랜 역사를 가짐
- 최근 AI 및 머신러닝 워크로드의 전력 소모 증가로 데이터센터에서 액체 냉각의 중요성이 크게 확대됨
- 구글은 물의 열전도율이 공기 대비 약 4,000배 높은 점을 주목해, 최신 칩의 고열 대응책으로 채택함
- Hot Chips 2025에서 구글은 TPU(머신러닝 가속기) 냉각에 관련된 데이터센터 차원의 액체 냉각 방식을 소개함
구글의 액체 냉각 시스템 구성
- 구글은 2018년부터 TPU에 액체 냉각을 적용해 다양한 실험 및 개선을 거침
- 최신 냉각 솔루션은 서버 내에 한정되지 않고 랙 전체에 액체 냉각 루프를 적용함
- 하나의 냉각 랙은 6개의 CDU(Coolant Distribution Unit) 로 구성되며, 이는 PC의 라디에이터+펌프 콤보와 유사한 역할을 수행함
- 유연한 호스 및 퀵 디스커넥트 커플링을 도입해 유지보수 편의성과 설치 허용오차를 개선함
- 6개 중 5개 CDU만 가동해도 충분한 냉각이 가능해, 한 유닛 유지보수 시에도 전체 가동 중단이 불필요함
열 교환 및 칩 레이아웃
- CDU는 내부 냉각수와 데이터센터의 외부 공급수 사이에서 열만 교환하며, 두 액체는 직접 섞이지 않음
- CDU에서 나온 냉각수는 매니폴드를 통해 다수의 TPU 서버로 분배됨
- TPU 칩 연결은 순차(시리즈) 구조로, 루프 내 마지막 칩의 열 수요를 기준으로 전체 냉각 예산을 산정함
냉각 기술의 최적화
- Split-flow cold plate 구조를 적용해 기존의 직선형 설계 대비 향상된 냉각 성능 확보함
- 추가적으로 bare-die 냉각(TPUv4, 과거 TPUv3는 lidded)을 적용해, 보통 고급 PC 마니아들이 열전달 효율을 높이기 위해 사용하는 ‘delidding’과 유사함
- TPUv4는 v3 대비 1.6배 높은 소비전력으로 인해 이러한 추가 냉각 방식을 필요로 함
전력 효율 및 열 이동
- 액체 냉각 펌프의 전력 소비는 기존 공랭 팬 전력 대비 5% 미만으로 나타남
- 구글 시스템은 water-to-water 열교환 방식을 통해, 실질적인 냉각 동력을 대부분 펌프에서 담당함
- PC 마니아 환경은 대부분 팬-라디에이터 조합이 남아있어, 데이터센터만큼 전력 이점이 크지 않음
유지보수, 신뢰성, 안전
- 유지보수 관점에서, 미생물 번식이나 누수 위험 등 수냉 시스템의 공통 리스크가 데이터센터급에도 존재함
- 퀵 디스커넥트 피팅, 예비 CDU 등 다양한 유지보수 편의 장치를 통해 다운타임 없이 대규모 관리를 지향함
- 예방적 유지관리, 누수 테스트, 각종 이상 신호 탐지 및 체계적인 대응 프로토콜을 마련해 전사적 일관성 및 신뢰성 방안을 확보함
- 이는 개별 PC 마니아들의 비공식적 관리 방식과는 대조적임
업계 동향 및 AI 열풍
-
엔비디아, Rebellions AI 등도 Hot Chips 2025 전시에서 다양한 외부 액체 냉각 시스템을 선보임
- NVIDIA GB300 서버: 외부 액체 냉각 포트와 팬을 함께 배치
- Rebellions AI는 한국 기업으로, 새로운 ML 가속기 ‘REBEL Quad’ 프로토타입을 쿨러 및 칠러를 결합한 유사한 방식으로 시연함
- AI 워크로드 증가는 앞으로도 데이터센터용 액체 냉각에 대한 수요와 채택을 더욱 가속화할 전망임
Hacker News 의견
-
예전에 Azure 데이터센터 구축을 총괄하는 SVP의 인터뷰를 본 적 있음, 그가 어느 순간 자신이 더 이상 컴퓨터 사업에 종사하는 게 아니라 공업용 냉방 사업에 종사한다는 걸 깨닫고 일이 훨씬 쉬워졌다는 말이 기억에 남음, 이번 기사를 읽으면서 그 이야기가 바로 떠오름
-
메인프레임(S/3x0, Cray 등)은 50년 넘게 물 냉각을 광범위하게 사용해왔고, 슈퍼컴퓨터급 HPC 데이터센터도 최소 20년간 액체 냉각을 활용해왔는데, 구글급 데이터센터 설계를 PC 매니아 쿨링과 비교하는 건 다소 이상하게 느껴짐, 이건 과거를 망각하거나 비교 대상이 완전히 잘못된 예시임
- bri3d가 지적한 부분 덕분에 내가 초기에 이해한 것보다 이번 구글의 사례가 새롭지 않다는 점을 알게 됨, 혁신 포인트는 “물을 쓴다”가 아니라 서버를 냉각하는 칠러가 시설 밖에 설치되어 있다는 점임, 대부분의 메인프레임도 물 냉각으로 내부 열을 바깥 쪽으로 옮겨서 히트싱크나 쿨링팬이 열을 날려주게 하는데, 구글은 건물 내부가 아니라 시설 전체용 거대한 칠러를 이용해 직접 각 서버에 냉각수를 순환시킴, 반환된 뜨거운 물을 칠러 타워에서 다시 냉각함, 실질적으로 공기 기반 냉각은 칠러 타워를 제외하곤 완전히 배제됨, 일부 서버/랙만 하는 게 아니라 데이터센터 전체를 동시에 처리함, 칠러 유지보수나 펌프 고장 났을 때 어떻게 하는지 궁금함, 무중단을 위해 엄청난 이중화가 있을 것 같음, AWS도 유사한 시스템을 도입했고 설명 사진이 명확하니 참고하면 좋음 AWS 데이터센터 액체 냉각 기사
- 구글이 값싼 일반 하드웨어 기반의 역사를 가지고 있으니 이런 변화가 놀랍지 않음, 마치 x86 서버가 메인프레임 기능(가상화 등)을 흡수하는 데 수십 년이 걸린 것과 비슷함 관련 블로그
- 기사에서 “액체 냉각은 PC 매니아에겐 익숙하고 엔터프라이즈 컴퓨트에서도 오래된 개념”이라고 했음, 데이터센터도 서버 단위로 수동 냉각과 고온 동작 온도로 가던 트렌드였지만, 이번 건은 그 트렌드를 크게 뒤집는 사례임, 아마도 행 단위 냉각(per-row cooling)이 주요 원인일 수 있음
- HPC 데이터센터가 20년 넘게 액체 냉각을 썼다고 했는데, 주로 랙 도어 등 부위에 적용됐던 것 아닌지 궁금함, 최근 2세대 서버에서부터 진짜 서버 내부로 직접 액체 냉각(DLC)이 적용된 듯함, 인텔 하이엔드 CPU 때문에 강제 적용된 측면 있음, 기존 데이터센터에 도입이 어려워서 골치 아팠고, 냉각 가방이 새는 문제로 서비스 요청도 다수 넣었음(제조사 비공개)
- 초대형 데이터센터는 보통 전력 밀도를 최대화하지 않아도 되고, 밀도를 높이면 여러 문제가 생겨 디자이너들이 오히려 피함, 현대 HPC 클러스터가 밀도를 고민하는 건 실상은 잘못된 관점일 수 있음, 다만 ML 워크로드의 경우에는 물리적으로 가까이 배치하면 인터커넥트 효율이 좋아지는 장점이 있음
-
이론적으로 데이터센터 냉각은 단순함, CPU는 60~70도에서 동작하고, 외부 온도는 대체로 30도 이하이니, 팬과 펌프의 약간의 도움이면 열이 자연스럽게 ‘흘러 내려가는’ 구조임, 문제는 공기 냉각에서 시설의 직원들이 컴퓨터 냉각에 쓰이는 동일한 공기를 호흡해야 한다는 점임, 냉방 온도가 높아지면 직원 건강엔 좋지 않음(우리는 핫 아일을 겨울에도 100F 정도까지 운용하고, 3개 랙마다 히트 익스체인저를 설치해 외부 칠러수로 냉각 중임), 외부 온도가 올라가면 열을 집밖으로 제대로 내보내려면 쿨링 유체 온도가 더 높아야 하고, 칠러가 꼭 필요함, 더위가 심할 땐 에너지 소비도 대폭 늘어남, 만약 데이터센터 전체를 액체 냉각으로 바꾼다면 랙에서 나오는 쿨런트 온도를 훨씬 올릴 수 있고, 가장 더울 때도 칠러 없이 열 방출이 가능할 것 같음, 현재는 일부만 액체 냉각하고 있고 쿨런트 온도는 핫 아일 온도에 맞춰 제한됨, 이 온도만으로도 이미 꽤 덥다고 느낌
- “CPU가 60-70도, 외부는 30도 이하이니 열이 알아서 내려간다”라는 관점이 맞지 않음, 실제로는 CPU가 동작 전력에서 발생한 열을 외부로 전달해야 하고, 단열(thermal impedance)이 크면 CPU가 과열되어 고장날 수 있음
- 15년 전 IBM이 ETH Zurich에 설치한 슈퍼컴퓨터는 60도짜리 뜨거운 물 냉각수를 사용했고, 방열기를 통해 건물 온수 시스템과 직접 연결했었음 Aquasar 소개
- 언젠가엔 냉방 효율 극대화를 위해 데이터센터 근무자들이 히트수트(방열복) 같은 것도 입고 들어가게 될지 궁금함
-
기사에서 TPU 칩을 직렬로 연결해서 냉각수 루프를 통과시키고 마지막 칩 온도에 맞춰 용량을 예산한다는 이야기가 있었음, 네 개의 칩이 각각 250W를 내고 펌프가 분당 1리터의 물을 밀어준다면, 입구 대비 출구는 반드시 14도 더 뜨거워짐, 이건 직렬이든 병렬이든 동일함(물의 비열 때문)
- 직렬 연결의 경우 마지막 칩에서의 열전달 효율이 병렬 연결보다 낮을 수 있음, 물이 처음보다 더 뜨거운 상태에서 마지막 칩을 만나기 때문임, 온도차가 작으니 열이 더 천천히 빠짐
- 실제로는 직렬과 병렬 구조에 따라 흐름 속도를 다르게 계산해야 함, 엔지니어링 관점에서 실질적 차이가 발생함
- 압력을 충분히 높이면 분당 1리터보다 훨씬 더 많은 유속이 가능함, 데스크톱 기준의 18W보다 서버는 대략 10배 정도임
- 직렬 연결이면 일부 칩이 ‘과냉각’되고, 가장 뜨거운 칩에 맞추려면 더 많은 냉각수가 필요함
-
나는 예전처럼 Google 인프라에 크게 기대하지 않음, Google이 인터넷 자유를 침해하는 행보를 계속해 내 호감도가 크게 떨어짐, 이제는 그들이 도입하는 액체 냉각 시스템 같은 것에도 별 감흥을 느끼지 못함, 디테일에 따라 어렵긴 하겠지만 특별히 혁신적으로 느껴지지도 않음, 혹시 Google 직원이 이 글을 보고 속상하더라도 개인이 아니라 Google 자체의 문제라고 생각함, 멋진 일은 다른 곳에서 하는 것도 고려해보면 좋겠음
-
B1M에서 본 흥미로운 사례가 떠오름, 파리 올림픽 수영장은 인터넷의 열로 데워진다고 함 YouTube 영상
-
AI가 물을 낭비한다는 언급을 종종 보는데, 이번 사례도 그런 방식일지 궁금함, 혹시 CDU가 시설 내 물을 증발식 냉각에 사용하는지 알고 싶음
- CDU는 데이터센터 내부에 설치되고, 랙 쿨런트에서 시설 쿨런트로 열만 넘김, 실외에는 열교환 시설이 있으며, 이 과정에서 종종 쿨링 타워에 물을 뿌려 증발식 냉각을 함, 데이터센터마다 형태는 다르지만 facility 쿨링 자체는 모두 존재함, AI가 물을 낭비한다는 논의는 다소 피로함, 물은 순환 구조 내에서 효율 위치로 이동될 뿐임, 마켓에서 물 관련 비용과 외부효과가 실제로 반영되면 더 의미있는 논의가 될 것 같음, 미국에선 물 가격과 권리, 실제 물의 효용 등이 제대로 연관되어 있지 않은 게 문제임
- AWS도 비슷한 기사를 최근에 냈음 AWS 데이터센터 액체 냉각 기사, 다만 배출된 뜨거운 물을 어떻게 식혀서 재사용하는지 방법이 명확하게 설명된 사례를 아직 못 봤는데, 이 부분이 제일 궁금함
- AI가 물을 사용하는 것 관련해서 구체적인 수치나 대화는 거의 없고, 마치 도로를 차가 사용하는 것처럼 물을 쓴다는 식의 모호한 언급만 봄, 실제로 물이 낭비된다는 인상을 주는데, 명확한 데이터가 있으면 애매하게 암시하지 않을 것 같음, 물이 실제로 소비된다면 식수로 쓸 수 없는 상태로 변하거나, 증기로 사라지거나, 슬러지 등에 갇혀 회수 불가한 경우임, 이런 일이 실제로 벌어지고 있는지, 그리고 이게 진짜 문제가 되는지 알고 싶음, 데이터 없이 무의미한 수치만 도는 게 답답함
- 관련 기사 있음 Texas AI 데이터센터와 물 낭비 이슈
-
물 냉각의 경제성이 궁금함, 칩이 비싸져서 더 빠르게 돌릴 필요 때문에 액체 냉각이 유리해진 것인지, 아니면 데이터센터 공간이 비싸져서 더 밀도를 올릴 필요 때문인지, 혹은 신호 전송 거리(1피트 = 1나노초)를 줄이면 연산 효율이 그만큼 올라가기 때문인지 생각 중임
- 데이터센터 전체 전력 중 상당수를 냉각에 소비함, 냉각 효율만 높여도 바로 비용 절감임
- 배선 거리의 영향은 실은 매우 작다고 봄, 최상의 인터커넥트 패브릭도 핑퐁 시간(요청/응답 왕복)이 1마이크로초 수준인데, 피트 단위 길이 변화는 수십 나노초 차이임, 대규모 클러스터에서 밀도를 두 배로 높여도 왕복 신호 지연이 60나노초 가량 늘어나는 수준임(전체 1마이크로초 중 6% 미만), 실제 어플리케이션엔 큰 영향 없음, 다만 밀도가 올라가면 백플레인이나 구리 커넥터로 더 많은 칩을 직접 연결하기엔 유리해짐
- 실제론 이유 2번과 3번의 혼합임, 칩이 점점 작아지고 더 많은 전력을 쓰기 때문에 같이 뜨거워지고, 수많은 팬이 추가 전력을 더 많이 쓰게 됨, 액체 냉각은 chip→liquid 직접 냉각이라 팬, 에어컨, 추가 순환 비용이 절감됨, ServeTheHome의 관련 기사 참고 Supermicro 액체 냉각 소비전력 영향 분석
- 클래식 컴퓨팅 작업은 잘 모르겠지만, TPU처럼 메모리 중심 연산에는 배선 거리 차이가 꽤 중요하다고 생각함
- 칩들이 초고속 네트워크로 연결되어야 해서 밀도를 높이는 게 중요함
-
이론상 PC 사용자도 화장실 물탱크에 방열수를 순환시키면 플러시할 때마다 효율 좋게 냉각할 수 있음, 미래가 바로 여기 있음
- 반대로 지역난방 플랜트에서 하수에 폐열을 빼내 난방용으로 쓰는 사례도 이미 존재함, Utrecht 하수 처리장 열펌프 설명 참고하면 됨
-
2006~2012년 사이 데이터센터에서 자주 근무했음, 밤늦게 찾아가야 할 때가 많았음, 데이터센터는 생각보다 열악한 환경임, 냉각이 좀 더 조용하고 극단적이지 않았다면 좋았을 것 같음, 포트 등이 뒤쪽에 있는 이유는 바로 그 쪽이 공기 흡입구이기 때문임, 따뜻한 쪽으로 가서 손을 녹이거나 해야 했던 경험임