AI 인프라 발열과의 전쟁: 액침냉각보다 더 효율적인 방법? (feat. DLC)
AI 인프라 발열과의 전쟁: DLC vs. 액침냉각 완벽 분석
AI와 머신러닝 기술의 발전에 따라 데이터센터와 컴퓨팅 환경에서 요구되는 GPU 성능은 날로 증가하고 있습니다. 그러나 이에 비례하여, 발열 문제는 점점 더 심각해지고 있습니다.
매니코어랩스의 핵심 인력은 2012년 최초의 토종 슈퍼컴퓨터 ‘천둥’을 개발한 팀입니다. ‘천둥’ 개발 당시, 첫 번째로 직면한 문제 역시 발열 문제였습니다. 4U 공간에 250W 규모의 GPU 8개를 장착했을 때, 발열로 인해 시스템이 불안정하게 작동하여 전체 시스템을 사용할 수 없을 정도였습니다. 이는 발열 관리가 제대로 이루어지지 않으면 아무리 강력한 컴퓨팅 성능도 무용지물이 될 수 있음을 보여주는 사례입니다.
2010년대 후반부터 딥러닝과 AI 산업이 불타오르면서, 이전보다 더 고성능의 GPU를 고밀도로 장착한 시스템이 필요하게 되었습니다. 그러나 공기를 이용한 GPU 발열 해결 방식은 소음 문제와 운영 비용 증가라는 문제를 동반합니다. 이러한 문제를 해결하기 위해 현재의 유일한 해결책은 공기가 아닌 액체를 이용한 냉각 방식으로 전환하는 것입니다.
(먼저 읽으면 좋은 글: 젠슨 황은 왜 엔비디아 GPU에 수냉을 도입할까)
물은 공기보다 열전도성, 열용량, 열관성이 모두 압도적으로 높아, 더 많은 열을 보유하고 잘 배출합니다. 점점 발열이 높아질 향후 AI 시스템에서 액체 냉각은 필수가 될 것입니다.
이번 글에서는 대표적인 2가지 액체 냉각 기술, ‘DLC(Direct-to-chip Liquid Cooling)과 액침냉각(Immersion Cooling)에 대해 알아보겠습니다.
DLC와 Immersion Cooling
DLC(Direct-to-chip Liquid Cooling) 냉각
DLC 냉각은 칩 또는 고발열 부품에 직접 액체를 전달하여 열을 제거하는 방식입니다. 냉각수 또는 냉각제를 포함한 냉각판이 칩에 직접 접촉하여 열을 흡수한 후, 이를 열 교환기로 이동합니다. DLC 냉각은 크게 두 가지로 나뉩니다:
L2L 냉각 (Liquid to Liquid): 고전적인 액체 냉각 기법으로, 서버의 발열체에서 데워진 액체를 외부에서 공급되는 차가운 액체로 냉각하는 방식입니다. 배관으로 차가운 냉각수를 공급하는 외부 냉각 설비와 연결해야 하며, 에너지 효율이 높습니다. 그러나 데이터센터 설계 초기부터 계획해야 하고, 설치와 유지 보수가 복잡하며 초기 투자 비용이 높습니다. 지속적인 냉각수 관리와 유연성 부족으로 인한 확장성 제한, 누수 위험도 존재합니다.
(출처 : https://www.hdrinc.com/insights/direct-chip-liquid-cooling)
L2A 냉각 (Liquid to Air): 발열체에서 데워진 냉각수를 공기로 냉각하는 방식으로, 라디에이터와 팬을 이용하여 냉각합니다. 외부 설비 없이 서버 섀시 내에 내장할 수 있어 설치가 용이하고 비용이 낮으며 유연합니다. 그러나 효율성이 L2L에 비해서는 낮습니다.
(출처 : https://www.hdrinc.com/insights/direct-chip-liquid-cooling)
액침냉각 (Immersion Cooling)
액침냉각은 전체 서버 또는 전자 장치를 절연성 액체에 완전히 잠기게 하여 열을 제거하는 방식입니다. 서버가 냉각액에 잠겨있어 냉각액이 직접 열을 흡수하고 이를 외부로 이동합니다. L2L 및 L2A 냉각 대비 누수 위험이 적고 소음이 적습니다. 그러나 유지보수가 매우 어렵고 초기 비용이 비싸며, 상면 공간을 새로 설계하지 않으면 고밀집이 어렵고, 제조사의 워런티 문제가 발생할 수 있습니다.
매니코어소프트의 딥가젯(Deep Gadget) 솔루션
매니코어소프트는 발열 문제를 해결하기 위해 딥가젯(deep gadget) 솔루션을 제안합니다. 이 솔루션은 일반 공랭식 서버의 사용자 경험과 관리자 경험을 그대로 제공하며, 현재 사용하는 서버를 교체할 때 그대로 사용할 수 있도록 설계되었습니다.
L2A(Liquid to Air) 냉각 방식
딥가젯은 빌트인 타입의 L2A(Liquid to Air) 냉각 방식을 채택했습니다. 서버에서 데워진 액체를 공기로 식히는 방식으로, L2L에 비해 높은 온도를 유지하지만, GPU 칩셋은 일정 온도 이하(일반적으로 75°C) 이하로만 유지된다면 최고 성능 98%를 꾸준히 유지하며, 더 낮은 온도라고 해서 성능이 높아지지 않습니다.
L2A 방식은 성능 100%를 활용하기에 충분히 낮은 온도를 유지하며, L2L와 달리 Chiller 등 외부 공조장치가 전혀 필요없으므로 기존 공랭 데이터센터에서도 저비용으로 간편하게 교체 가능합니다. 즉, 수냉의 사용자 경험과 공랭의 관리자 경험을 동시에 누릴 수 있습니다. 또한, 저소음 설계로 데이터센터 뿐만 아니라 사무실에서도 사용 가능하며 유연한 확장성을 가지고 있습니다.
결론
AI 인프라의 발열 문제는 고성능 GPU를 다수 사용하는 컴퓨팅 환경에서 매우 중요한 과제입니다. 액체 냉각 기술은 이러한 발열 문제를 해결할 수 있는 유일한 방법으로, 매니코어소프트의 딥가젯 솔루션은 공랭식 서버의 사용자 경험을 유지하면서도 효율적인 액체 냉각을 제공합니다. 이를 통해 데이터센터와 사무실 모두에서 사용 가능한 최적의 발열 관리 솔루션을 제공합니다.
함께 읽으면 좋은 글
"못 쓰고 있던 비싼 서버, 딥가젯으로 해결했죠" | 이화여대 Medical AI & Computer Vision Lab 인터뷰
4가지 라인업, 다양한 GPU 그리고 확장 가능성 외 – 딥가젯을 선택해야 하는 6가지 이유
Edit 매니코어랩스 팀