Ascend 950PR 기준
TECH
화웨이 Atlas 350, 2.8배 수치 실제로 뜯어봤습니다
화웨이가 2026년 3월 20일 공개한 Atlas 350은 Ascend 950PR 칩을 탑재한 AI 추론 가속기입니다. 발표 직후 “엔비디아 H20 대비 2.8배”라는 수치가 각종 매체에 퍼졌는데, 막상 공식 자료를 뜯어보면 이 숫자가 공정한 비교인지 의심이 생깁니다. FP4 지원 여부 차이, CANN Next의 실체, 가격이 두 가지인 이유까지 — 공식 자료 기준으로 정리했습니다.
2.8배 수치, 그냥 믿으면 안 되는 이유
화웨이 어센드 컴퓨팅 사업부 책임자 장디쉬안은 Atlas 350 출시 현장에서 “FP4 기준 1.56 PFLOPS, 엔비디아 H20 대비 2.87배”라고 발표했습니다. (출처: 화웨이 China Partner Conference 2026 발표, TrendForce 보도 2026.03.23) 언뜻 압도적으로 보이는 이 수치, 구조적인 함정이 하나 있습니다.
💡 공식 발표문과 칩 아키텍처를 함께 놓고 보니 이런 차이가 보였습니다
H20은 Hopper 아키텍처 기반으로, FP4 연산을 네이티브로 지원하지 않습니다. Tom’s Hardware 보고서(2026.03.24)는 명확하게 “Hopper-era cards don’t support FP4 natively, while the Atlas 350 is the first homegrown Chinese accelerator to be optimized for FP4 precision”이라고 적시했습니다. H20의 FP4 수치 자체가 존재하지 않아 계산 기준점이 다릅니다.
쉽게 말하면, FP4가 되는 제품과 안 되는 제품의 FP4 성능을 비교한 셈입니다. 같은 정밀도 기준으로 비교하면 수치는 달라집니다. 화웨이 측이 수치를 허위로 발표한 건 아니지만, “2.87배 빠르다”는 표현 그대로 받아들이기 전에 맥락을 보는 게 맞습니다.
Atlas 350 핵심 스펙 — 공식 발표 수치 기준
Atlas 350은 추론(Inference) 전용으로 설계된 Ascend 950PR을 탑재합니다. 학습용 950DT와 역할을 나눈 것이 이번 세대의 핵심 전략 변화입니다. 아래 수치는 화웨이 공식 발표 및 TrendForce, Tom’s Hardware가 교차 확인한 수치입니다.
| 항목 | Atlas 350 (Ascend 950PR) | NVIDIA H20 |
|---|---|---|
| FP4 연산 성능 | 1.56 PFLOPS | 미지원 (Hopper 아키텍처) |
| FP8 연산 성능 | 1 PFLOPS | 약 0.296 PFLOPS |
| HBM 용량 | 112GB (HiBL 1.0) | 96GB |
| 메모리 대역폭 | 1.4 TB/s | 4.0 TB/s |
| 인터커넥트 대역폭 | 2 TB/s (LingQu) | 약 0.9 TB/s (NVLink 4.0) |
| TDP (전력) | 600W | 400W |
| 멀티모달 생성 속도 개선 | 최대 +60% | 기준값 |
(출처: 화웨이 China Partner Conference 2026 발표, TrendForce 2026.03.23, Tom’s Hardware 2026.03.24 교차 확인)
메모리 대역폭은 H20(4.0 TB/s)이 오히려 Atlas 350(1.4 TB/s)을 크게 앞섭니다. 추론 연산 밀도는 높지만 데이터를 빠르게 끌어오는 능력에서는 아직 격차가 있습니다. FP4 연산에 최적화된 워크로드라면 Atlas 350이 유리하고, 대역폭 집중적인 모델에서는 체감 격차가 줄어들 수 있습니다.
CANN이 CUDA를 흉내 낸다고요? 실제로는 더 미묘합니다
“화웨이 칩은 CANN 소프트웨어 생태계가 너무 부족해서 실제 배포에 못 쓴다”는 말이 오랫동안 정설처럼 돌았습니다. Ascend 910C까지는 실제로 그랬습니다. 중국 빅테크들이 정부 권고에도 불구하고 910C를 외면했던 핵심 이유가 CANN의 낮은 호환성이었습니다.
💡 950PR부터는 CANN Next로 달라진 게 있습니다 — 번역 레이어가 아닙니다
Reuters 보도(2026.03.27)에 따르면 ByteDance와 Alibaba가 950PR 주문을 결정한 가장 큰 이유가 “CUDA 소프트웨어 시스템과의 호환성 향상”이었습니다. WCCFTech(2026.03.28)가 공개한 기술 슬라이드를 보면, CANN Next는 CUDA 코드를 번역해주는 레이어가 아니라 SIMT 프로그래밍 모델(thread block, warp, kernel launch)을 그대로 구현했습니다. CUDA를 언어 표준으로 두고 Ascend에서 직접 실행되도록 설계한 것입니다.
그렇다고 CUDA와 완전히 같다는 뜻은 아닙니다. thread count나 block size 파라미터가 Ascend 칩 구조에 맞게 다시 튜닝되어 있어서, 기존 CUDA 코드를 그냥 복사해 실행할 수 있는 수준과는 다릅니다. WCCFTech는 이를 “near drop-in replacement”라고 표현했습니다. ‘거의’라는 단어가 핵심입니다. 코드 마이그레이션 부담이 줄었지만, 완전한 무결점 이식은 아직 엔지니어링 검증이 필요합니다.
CANN 8.0은 vLLM, PyTorch, TensorFlow 등 주요 오픈소스 프레임워크와의 연동도 강화됐습니다. (출처: 화웨이 MWC 바르셀로나 2026 공식 발표, 화웨이 공식 뉴스 2026.03.03)
가격이 두 가지인 이유 — 선택 기준은 용도
대부분의 국내 보도는 Atlas 350 가격을 단일 수치로 소개하고 있는데, 실제로는 두 가지 버전이 있습니다. Reuters의 2026.03.27 독점 보도에서 처음 공개된 내용입니다.
일반 추론 워크로드에 적합. 대역폭보다 연산 밀도가 중요한 환경.
대규모 LLM 추론, MoE 모델, 실시간 응답 서비스. 1.4 TB/s 대역폭이 필요한 환경.
엔비디아 H20의 중국 내 유통가가 약 10만~12만 위안대인 점을 고려하면, DDR 버전 기준으로는 절반 이하 가격에 해당합니다. 다만 Tom’s Hardware(2026.03.24)는 “AI 가속기 시장에서는 공식 가격과 실제 시장가가 상당히 다를 수 있어 참고용으로 봐야 한다”고 밝혔습니다. 가격 그대로 수용하기보다 조달 환경을 함께 고려해야 합니다.
ByteDance가 8조 원 꽂겠다는 배경
Reuters 독점 보도(2026.03.27)에 따르면 ByteDance가 2026년 한 해 동안 화웨이 Ascend 칩에 투입할 금액이 56억 달러(약 8조 원)를 넘어섭니다. Alibaba 역시 주문을 준비 중입니다. 이전까지 이들이 910C를 외면해왔던 걸 감안하면 태도가 180도 바뀐 셈입니다.
The AI Consulting Network의 분석(2026.03.28)에 따르면, 전환의 핵심 이유는 세 가지입니다. 첫째, CANN Next 덕분에 CUDA 기반 코드를 대규모 재작성 없이 이식할 수 있게 됐습니다. 둘째, 중국 내 H200 공급이 아직 불안정합니다 — 트럼프 행정부가 H200 대중 판매를 허용하는 조건부 승인을 냈지만, 실제 중국 당국의 최종 허가가 아직 완료되지 않은 상태입니다. 셋째, 화웨이가 올해 75만 장 출하를 공약하며 물량 안정성에 대한 신뢰를 제공했습니다.
ByteDance가 56억 달러를 투입한다는 건 단순히 제품 하나를 교체하는 게 아닙니다. AI 추론 인프라의 공급망 구조 자체를 바꾸겠다는 의미이며, 이 규모면 중국 내 AI 데이터센터 아키텍처가 실질적으로 재편됩니다.
600W 전력, 기존 데이터센터에 그냥 꽂으면 안 됩니다
가격과 성능만 보고 “저렴하게 교체할 수 있다”고 판단하면 놓치는 부분이 있습니다. Atlas 350의 TDP는 600W입니다. H20이 400W인 점을 고려하면 50% 더 많은 전력이 필요합니다. 이 차이는 단순히 전기요금 문제가 아닙니다.
⚠️ 기존 400W 기준 랙 설계에서는 전력 배전 보강이 필요합니다
400W급 가속기 기준으로 설계된 데이터센터 랙에 600W짜리를 그대로 꽂으면 배전 용량이 초과됩니다. 네이버 블로그 분석(2026.03.25) 및 Tom’s Hardware(2026.03.24)는 공랭식 냉각으로는 부족하며 액체 냉각(Liquid Cooling) 도입이 권장된다고 했습니다. 이 비용이 추가될 경우 초기 구매가격 절감 효과가 약화됩니다.
장기 TCO(총소유비용) 관점에서 계산하면, 초기 도입가는 H200 대비 50% 이하지만 전력 설비 보강·액랭 도입 비용이 더해지면 격차가 좁혀질 수 있습니다. 화웨이가 이 부분을 공개적으로 밝히지 않은 점은 구매 결정 전에 독자적으로 확인이 필요한 항목입니다. (공식 발표자료에서 별도 TCO 수치를 제시하지 않았습니다.)
반면, 중국 내 데이터센터에서는 이 문제가 상대적으로 덜합니다. 미라에셋증권 보고서(2025.09)는 “미국 관점의 전력 효율 문제가 중국에서는 상대적으로 덜 중요하다 — 중국은 전기 공급이 충분한 편”이라고 분석했습니다.
한국 입장에서 이게 왜 중요한가
글로벌이코노믹 보도(2026.03.21)는 화웨이 Atlas 350이 한국 반도체 산업에 주는 시사점을 구체적으로 언급했습니다. 세 가지 층위에서 영향이 있습니다.
첫째, HBM 시장 구조 변화입니다. Atlas 350은 삼성·SK하이닉스·마이크론 HBM을 쓰지 않고 자체 개발한 HiBL 1.0을 사용합니다. 화웨이가 CXMT(창신메모리)·통푸마이크로와 3년 프로젝트로 개발한 독자 HBM입니다. 중국 내 HBM 수요가 화웨이 자체 메모리로 돌아서면, 한국 메모리 기업의 대중국 매출에 영향이 생깁니다.
둘째, 엔비디아가 중국 시장에서 밀리면 미국·유럽의 AI 인프라 투자가 더 빠르게 가속될 수 있고, 이는 HBM 수요 자체를 다른 쪽에서 늘립니다. 상쇄 효과가 어느 쪽으로 기울지는 아직 열려 있습니다.
셋째, 국내 중소 클라우드 사업자나 연구소 입장에서 “엔비디아 대신 화웨이 칩을 쓸 수 있냐”는 질문이 현실화될 수 있습니다. 다만 미국 상무부는 2025년 5월 “화웨이 Ascend 칩을 전 세계 어디서든 사용하는 것이 미국 수출 규제 위반 가능성이 있다”는 경고를 발표했습니다. (출처: Yahoo Finance/미국 상무부 지침, 2025.05.15) 국내 기업이 도입을 검토할 경우 이 규제 리스크를 반드시 법률 검토해야 합니다.
자주 묻는 질문 Q&A
마치며 — 수치보다 구조가 중요한 이유
솔직히 말하면, Atlas 350은 “엔비디아 킬러”라는 수식어보다 “중국 AI 인프라 자립의 시작점”이라는 표현이 더 정확합니다. 2.8배 수치는 측정 조건이 다르고, 전력은 더 먹고, CANN Next는 아직 “거의” 호환 수준입니다. 이 모든 게 현실입니다.
그럼에도 ByteDance가 8조 원을 투입하기로 결정했다는 건, 기술 완성도보다 공급망 자립과 소프트웨어 전환 비용 감소라는 두 가지 현실적 요소가 결정을 끌어당긴 겁니다. 화웨이가 CANN Next로 CUDA 진입장벽을 낮춘 건 기술 도약 못지않게 중요한 변화였습니다.
HBM, 인터커넥트, 소프트웨어 스택까지 수직 통합한 이 방향이 2027년 Ascend 960에서 어떻게 발전하는지가 진짜 변곡점이 될 것입니다. Atlas 350은 그 출발점입니다.
본 포스팅 참고 자료
- ① 화웨이 공식 뉴스 — MWC 바르셀로나 2026 SuperPoD 발표 (huawei.com/kr)
- ② TrendForce — Huawei Debuts Atlas 350 on Ascend 950PR (trendforce.com)
- ③ Reuters 독점 보도 — ByteDance·Alibaba 주문 계획 확인 (reuters.com)
- ④ Tom’s Hardware — Atlas 350 스펙 교차 검증 (tomshardware.com)
- ⑤ WCCFTech — CANN Next CUDA 호환 기술 분석 (wccftech.com)
- ⑥ 글로벌이코노믹 — 한국 반도체 시사점 분석 (g-enews.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치는 2026.03.20~03.27 공식 발표 및 외신 보도 기준이며, 이후 업데이트된 스펙이나 가격이 달라질 수 있습니다. 본 포스팅은 투자 조언 또는 구매 권유가 아닙니다.

댓글 남기기