CEO 젠슨 황은 왜 엔비디아 GPU에 수냉을 도입할까

엔비디아의 CEO 젠슨 황이 2024 Computex 기조연설에서 차세대 Blackwell GPU 칩이 액체 냉각식(DLC) 방식을 채택했다고 발표했습니다. 액체 냉각 방식은 공랭보다 더 효율적으로 발열을 관리하며, 높은 전력 소모로 인한 발열 문제를 해결합니다. 매니코어소프트 딥가젯은 고성능 AI 연산을 위한 액체 냉각을 제공합니다.
MANYCORESOFT's avatar
Jul 17, 2024
CEO 젠슨 황은 왜 엔비디아 GPU에 수냉을 도입할까

엔비디아의 CEO 젠슨 황은 2024 Computex 기조연설(Keynote)에서, 차세대 Blackwell 칩이 액체 냉각을 채택했다고 밝혔습니다. 구체적으로, 액체 냉각 중 ‘액침냉각’이 아닌, ‘DLC(Dircet-to-Chip Liquid Cooling)’ 방식을 채택했죠.

nvidia_jensunhwang_liquidcooling

공랭에서 액체 냉각으로의 전환

이를 듣고 '수냉...? 누수 위험도 있고 불안정한 거 아닌가?'라는 생각이 들 수도 있습니다.

그러나 AI에 필수적인 세계 최대 기업 엔비디아의 CEO가 왜 이 방식을 선택했는지 이해하려면, 먼저 냉각 기술의 중요성을 살펴보아야 합니다.

냉각 기술의 역사와 중요성

Liquid Cooling radiator

과거 액체 냉각 라디에이터가 없던 시절의 공랭 내연기관 자동차는 30분 운행하고 엔진 냉각을 위해서 보닛을 열고 2시간가량 세워두었습니다. 액체 냉각 라디에이터가 개발되고 엔진을 직접 냉각함으로 5~6시간, 그 이상의 엔진 가동이 가능해졌습니다.

컴퓨터도 마찬가지입니다. 과거 대부분의 고성능 서버는 대당 합산 전력 1kW 이상이 흔하지 않았으며 공랭으로도 코어 냉각이 가능했습니다. 하지만 현재는 AI 학습, 추론, 연산, 렌더링의 다양한 목적으로 서버 1대당 3kW~6kW, 그 이상을 필요로 합니다. 그리고 늘어나는 성능에 비례하여 발열은 지속적으로 증가하는 추세입니다.

현재 엔비디아의 GPU 모델 중 발열량이 가장 높은 칩은H100으로, 700W를 소모합니다. 그러나 2024년에 발표된 차세대 제품군 Blackwell 시리즈의 B200 모델의 경우 최대 1200W까지 전력을 소모할 수 있으며, 기존 H100의 700W에 비해 크게 증가한 수치입니다. 이러한 전력 증가로 인해 공랭 방식으로는 효율적인 냉각이 어려워지며, 액체 냉각(DLC: Direct-to-Chip Liquid Cooling) 방식의 필요성이 강조되고 있습니다.

공랭 vs. 액체냉각 온도 및 성능 비교

아래 사진은 공랭과 수냉 방식으로 각각 GPU 2개를 냉각했을 때 시간에 따른 평균 온도의 변화를 나타낸 것입니다. 일반적인 300W 정도의 GPU를 기준으로, 공랭의 경우 3분 만에 안전 온도인 80도를 돌파하여 고온을 유지하는 것을 볼 수 있습니다.

액체냉각vs. 공랭 GPU 발열

일반적으로 GPU의 안전 온도 한계는 섭씨 80도입니다. 이 온도를 넘을 경우 시스템이 불안정하게 동작하며 부품에 영향을 미칩니다. 자발적 성능 제한(throttling)이 발생하여 제품의 성능이 최대 50%까지 떨어지며, 장기적으로는 제품의 내구성과 수명에도 영향을 미칩니다.

반면 액체 냉각(수냉)의 경우, 시간이 지나도 열이 누적되지 않고 70도 근처에서 안전하게 머무는 것을 확인할 수 있습니다. 이는 아래 표와 함께 보면 더욱 명확해집니다.

이 표는 위 그래프와 함께 시간이 지남에 따라 발열이 일어날 경우, 성능 감소율을 보여주는 표입니다.

공랭의 경우 시간이 지남에 따라 성능이 계속해서 하락하며, 자발적 성능 제한(throttling)이 일어날 경우 최대 50%까지 떨어질 수 있습니다.

반면 액체 냉각은 100%에 가까운 성능을 계속해서 유지하는 것을 볼 수 있습니다. 실제로 2,3년 전에 딥가젯 서버를 구매한 AI 팀도 여전히 최고의 성능으로 서버를 사용하고 있습니다.

현재 AI 인프라의 문제의 해결책, 액체냉각

결론적으로, 현재 AI 인프라의 가장 큰 문제 중 하나는 사용자가 고가의 서버 장비를 구입하고도 제대로 활용하지 못하는 것입니다. 개인 사용자뿐만 아니라 대기업의 최신식 IDC (Internet Data Center)에서도 이와 관련된 문제로 운영에 어려움을 겪는 사례들이 꾸준히 보고되고 있습니다.

현재에도 99.99%의 데이터센터는 발열을 잡기 위해 365일 24시간 실온 20°C를 유지하는 엄청난 규모의 항온항습장치를 가동합니다. 그러나 이러한 항온항습장치로도 감당할 수 없는 AI 인프라와 GPU 칩의 시대가 다가오고 있습니다. 또한 데이터센터가 아닌 사무실에서도 실온의 환경에서 100% 성능으로 GPU 서버를 활용할 수 있어야 합니다.

이를 가능하게 할 유일한 방법이 바로 액체 냉각입니다. 이것이 엔비디아의 젠슨 황이 차세대 GPU 칩을 액체 냉각(수냉) 방식으로 발표한 이유입니다. 매니코어소프트의 ‘딥가젯’ 서버 또한 최초의 토종 슈퍼컴퓨터 액체 냉각 기술을 바탕으로 GPU 8장을 고성능, 저소음으로 식히는 솔루션을 제공합니다.

함께 보면 좋은 글

AI 인프라 발열과의 전쟁, 액침냉각보다 더 효율적인 방법?

4가지 라인업, 다양한 GPU 그리고 확장 가능성 외 – 딥가젯을 선택해야 하는 6가지 이유

Edit 매니코어랩스 팀

Share article
Subscribe to our newsletter.

More articles

See more posts
RSSPowered by inblog