엔비디아 '블랙웰' 발열 악재...삼성·SK하이닉스 '예의주시'

美 빅테크, 블랙웰 GB200 칩 장착 AI서버 랙 주문 취소 잇달아 전문가 "발열 해결에 시간 걸려...차기작 '루빈' 일정에도 영향" 엔비디아 의존도 높은 SK하이닉스, 삼성전자도 '예의주시'

2025-01-15     황재희 기자
젠슨 황 엔비디아 CEO(최고경영자)가 차세대 GPU(그래픽처리장치) '블랙웰' 양산 및 수요에 지장이 없음을 밝혔다. 사진은 지난 4월 18일 미국 캘리포니아주 새너제이 시그니아 바이 힐튼 호텔에서 가진 전 세계 미디어와 간담회에서 기자들 질문에 답하고 있는 황 CEO. [사진=연합뉴스]

【뉴스퀘스트=황재희 기자 】 SK하이닉스와 삼성전자가 엔비디아의 AI(인공지능)가속기 '블랙웰' 발열 악재에 긴장하고 있다.

빅테크들이 AI 데이터센터용 블랙웰을 대량 주문했는데 발열 문제로 잇달아 주문을 취소하고 있어서다.

아직 발열에 대한 정확한 원인을 찾지 못한 상황에서 원인 규명과 해법 마련에 시간이 걸릴 것으로 예상되는 만큼 차기 AI 가속기인 '루빈' 출시 일정도 지연이 불가피해 보인다.

당장 타격이 큰 건 엔비디아에 5세대 제품인 HBM3E를 공급하고 있는 SK하이닉스지만, 아직 퀄(품질) 테스트를 통과하지 못한 삼성전자 역시 안심할 수 없는 상황이다. 

15일 외신과 업계에 따르면 엔비디아 블랙웰의 주요 고객사인 마이크로소프트(MS)와 아마존, 구글, 메타 등이 블랙웰 GB200 칩을 장착한 AI 서버 랙(rack·선반) 주문을 연기하거나 취소하고 있다.

주요 원인으로는 설계 오류로 인해 가동 시 지나치게 뜨거워지는 발열 문제 때문이다.  

블랙웰은 엔비디아가 지난해 말 내놓은 최신 AI가속기 GPU(그래픽처리장치)다. 2080억개의 트랜지스터를 집적하고 있으며 전 세대외 비교해 연산 등 성능이 30% 향상됐다고 알려졌다.

업계에서는 엔비디아가 지난해 4분기에만 15만~20만대의 블랙웰 탑재 AI서버 GB200을 출하했고 올해 1분기에도 추가로 50~55만대 출하 계획이 잡힌 것으로 보고 있다.  

다만 이미 출하된 블랙웰 제품에서 과열 문제가 발생하며 이같은 계획도 틀어질 것으로 전망된다.

주요 빅테크들은 블랙웰 칩이 장착된 랙의 첫번째 출하분에 과다한 열이 발생하고 칩 간 연결 방식 문제를 이유로 이미 일부 주문을 취소하거나, 블랙웰 보다 성능이 다소 낮은 이전 세대 칩을 원한다고 알려졌다.  

문제는 블랙웰에 5세대 HBM3E 제품을 공급한 SK하이닉스와 앞으로 공급을 앞두고 있는 삼성전자에게 여파가 미칠 수 있다는 것이다. 

SK하이닉스는 지난해 1분기 말 HBM3E 8단에 이어 4분기에는 HBM3E 12단 공급을 시작했다.

블랙웰의 두 가지 버전 모두 HBM3E 8단이 탑재되는데 이중 용량이 1200W(와트)로 더 높은 GB200의 경우 설계 변경 과정에서 8단 보다 단수가 높은 12단 제품으로 대체됐다.

SK하이닉스가 12단 제품 양산을 지난해 4분기에 시작한 배경도 엔비디아의 블랙웰 양산 일정에 맞추기 위한 것으로 업계는 해석하고 있다.

증권가에서는 SK하이닉스가 지난해 HBM3E 8·12단 2종을 엔비디아에 공급한 덕분에 지난해 4분기 8조원 이상인 역대 최대 영업이익을 거뒀을 것으로 관측하고 있다.

일반 D램보다 성능을 높인 고부가 제품인 HBM 매출 비중이 3분기 전체 D램의 30% 에서 40% 이상으로 확대되면서 수익성을 대폭 끌어올려서다.  

다만 블랙웰 발열 문제로 엔비디아의 AI가속기 품질 이슈가 발생하면서 SK하이닉스로선 올해 1분기 실적을 자신할 수 없는 상황이 됐다. 

아직 HBM3E 퀄(품질) 테스트를 통과하지 못한 삼성전자도 남 일이 아니다. 빅테크들의 블랙웰 수요가 저조할 경우 엔비디아 입장에선 블랙웰에 탑재할 HBM3E를 더 많이, 빠르게 공급받기 위해 후발주자인 삼성전자의 퀄(품질) 테스트 통과를 더욱 서두를 필요가 없어져서다. 

오히려 SK하이닉스보다 더 까다로운 기준을 제시할 가능성이 크다.

앞서 젠슨 황 엔비디아 CEO(최고경영자)는 올 초 열린 CES 2025에서 삼성전자의 HBM3E에 대해 '재설계'가 필요하다는 입장을 피력한 바 있다. 이같은 발언에 대해 일각에서는 SK하이닉스의 HBM을 탑재한 블랙웰의 발열 원인이 정확히 잡히지 않은만큼 '발열을 확실히 잡을 수 있는 방안을 삼성 측에 요구한 것이 아니냐'라는 해석도 나온다.

이종환 상명대 시스템반도체공학과 교수는 "AI반도체는 데이터 처리량이 많아 소비전력이 상당하다보니 당연히 발열 문제가 발생할 수 있고 이를 해결하는 게 중요한 문제"라면서 "다만 블랙웰 발열 문제가 GPU에 있는지, GPU와 HBM의 연결 부분 매칭에 있는지 아직 정확히 알려지지 않아 해결에 시간이 걸릴 수 있다"라고 진단했다.

SK하이닉스와 삼성전자는 블랙웰 발열 악재와 상관없이 차기 HBM 개발 일정을 이어가고 있다. SK하이닉스는 HBM3E의 단수를 8단과 12단보다 높인 16단을 올 상반기 양산하고 하반기 6세대 제품인 HBM4를 출시하겠다는 목표다. 

HBM4는 블랙웰을 잇는 엔비디아의 차세대 GPU '루빈'에 탑재될 예정이다. 삼성전자는 아직 엔비디아에 HBM 공급을 시작하지 못한 까닭에 당장 실적 타격을 받을 이유는 없다.

그러나 블랙웰 발열 해결이 지연될 경우 연내 출시를 목표로 한 엔비디아의 차세대 AI 가속기 '루빈' 일정도 어그러질 수 있다. 루빈에 HBM4를 탑재해 상황 반전을 노리고 있는 삼성전자가 이번 사안을 심상치 않게 지켜보고 있는 이유다.

반도체 업계 전문가는 "당초 블랙웰은 지난해 2분기 출시를 목표로 했으나 생산 과정 결함 문제로 출시 시기가 여러 차례 늦춰졌다"면서 "성능을 높인 차기 AI 가속기 루빈에서도 발열 문제가 충분히 발생할 수 있고 때문에 출시 지연 문제도 반복될 가능성이 있다"고 말했다. 

<세상을 보는 바른 눈 '뉴스퀘스트'>