NVIDIA RTX PRO™ Blackwell 제품군을 공개합니다! 해당 제품군은 획기적인 가속 컴퓨팅, AI 추론, 레이 트레이싱, 뉴럴 렌더링 기술을 통해 AI, 기술, 창작, 엔지니어링, 디자인 분야의 전문가를 위한 워크플로우를 새롭게 정의합니다.
RTX PRO Blackwell 제품군은 에이전틱 AI, 시뮬레이션, 확장 현실, 3D 디자인, 복잡한 시각 효과부터 자율 로봇, 차량, 스마트 공간을 구동하는 물리 AI 개발까지의 영역을 아우릅니다. 또한, 업계 전반의 전문가들에게 데스크톱, 모바일 워크스테이션, 데이터센터 GPU를 통해 최고급 최신 컴퓨팅 성능, 메모리 용량, 데이터 처리량을 제공하죠.
새로운 라인업은 다음과 같습니다.
데이터센터 GPU: NVIDIA RTX PRO 6000 Blackwell Server Edition
데스크톱 GPU: NVIDIA RTX PRO 6000 Blackwell Workstation Edition, NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition, NVIDIA RTX PRO 5000 Blackwell, NVIDIA RTX PRO 4500 Blackwell, NVIDIA RTX PRO 4000 Blackwell
랩톱 GPU: NVIDIA RTX PRO 5000 Blackwell, NVIDIA RTX PRO 4000 Blackwell, NVIDIA RTX PRO 3000 Blackwell, NVIDIA RTX PRO 2000 Blackwell, NVIDIA RTX PRO 1000 Blackwell, NVIDIA RTX PRO 500 Blackwell
NVIDIA 엔터프라이즈 플랫폼 담당 부사장 밥 피트(Bob Pette)는 “비주얼 컴퓨팅과 시뮬레이션의 한계를 뛰어넘고 업계의 어려운 과제를 해결하기 위해 소프트웨어 개발자, 데이터 사이언티스트, 아티스트, 디자이너, 엔지니어는 강력한 AI와 그래픽 성능이 필요합니다. NVIDIA Blackwell을 워크스테이션과 서버에 도입하면 생산성, 성능, 속도를 새로운 차원으로 끌어올릴 수 있으며, AI 추론 제공, 데이터 사이언스, 시각화, 콘텐츠 제작을 가속화할 수 있습니다”고 말했습니다.
워크스테이션과 데이터센터에 NVIDIA Blackwell 기술 도입
RTX PRO Blackwell GPU는 탁월한 성능과 효율성, 확장성을 제공해 생성형 AI, 에이전틱 AI(Agentic AI), 물리 AI의 잠재력을 끌어냅니다.
NVIDIA RTX PRO Blackwell GPU의 특징은 다음과 같습니다.
NVIDIA Streaming Multiprocessor: 최대5배 빠른 처리량과 프로그래밍 가능한 셰이더 내부에 AI를 통합하는 새로운 뉴럴 셰이더를 제공해 향후 10년간의 AI 증강 그래픽 혁신을 주도합니다.
4세대 RT 코어: 이전 세대 대비 최대 2배 향상된 성능을 제공합니다. NVIDIA RTX™ Mega Geometry에 최적화돼 있습니다.
5세대 Tensor 코어: 최대 4,000개의 AI 초당 조 단위 연산(TOPS)을 제공합니다. FP4 정밀도와 NVIDIA DLSS 4 멀티 프레임 생성(Multi Frame Generation, MFG)에 대한 지원을 추가해 AI 기반 그래픽의 새로운 시대를 엽니다. 이를 통해 더 큰 AI 모델을 빠르게 실행하고 프로토타입을 제작할 수 있습니다.
더 크고 빠른 GDDR7 메모리: 워크스테이션과 서버의 경우 최대 96GB, 랩톱의 경우 최대 24GB까지 대역폭과 용량이 향상됩니다. 이에 대규모 3D, AI 프로젝트 처리부터 대규모 가상 현실 환경 탐색에 이르기까지 모든 애플리케이션을 더 빠르게 실행할 수 있습니다. 더 크고 복잡한 데이터 세트로도 작업할 수 있죠.
9세대 NVIDIA NVENC: 4:2:2 인코딩을 추가로 지원해 전문가용 비디오 애플리케이션의 비디오 인코딩 속도를 가속화하고 품질을 개선합니다.
6세대 NVIDIA NVDEC: 최대 2배의264 디코딩 처리량을 제공하며, 4:2:2 H.264와 HEVC 디코딩을 지원합니다. 전문가는 고품질 비디오 재생의 이점을 누리고, 비디오 데이터 수집을 가속화하며, 고급 AI 기반 비디오 편집 기능을 사용할 수 있습니다.
5세대 PCIe: 5세대 PCI 익스프레스(Express) 지원으로 대역폭이 이전 세대 대비 2배로 향상됐습니다. 이에 따라 CPU 메모리의 데이터 전송 속도를 높이고 데이터 집약적인 작업에서 더 빠른 성능을 제공합니다.
DisplayPort 2.1: 490Hz에서 최대 4K, 165Hz에서 8K의 고해상도 디스플레이를 구현합니다. 대역폭 증가로 원활한 멀티 모니터 설정이 가능하고, 높은 동적 범위와 더 높아진 색상 심도 지원은 비디오 편집, 3D 디자인, 생방송과 같은 작업에 보다 정밀한 색상 정확도를 제공합니다.
Multi-Instance GPU(MIG): RTX PRO 6000 데이터센터, 데스크톱 GPU와 5000 시리즈 데스크톱 GPU는 MIG 기술을 탑재했습니다. 단일 GPU를 6000 제품군의 경우 최대 4개의 인스턴스로, 5000 제품군의 경우 2개의 인스턴스로 안전하게 분할할 수 있죠. 오류 격리는 다양한 워크로드에 대한 안전하고 효율적인 리소스 할당을 위해 워크로드 간섭을 방지하고 성능과 유연성을 극대화하도록 설계됐습니다.
새로운 랩톱 GPU는 AI를 통해 랩톱 성능과 전력 효율성을 지능적이고 지속적으로 최적화하는 최신 NVIDIA Blackwell Max-Q 기술을 지원합니다.
NVIDIA RTX PRO Blackwell GPU는 뉴럴 렌더링과 AI 증강 도구를 통해 놀라운 시각적 효과와 실제 환경의 디지털 트윈을 만들 수 있고, 전례 없는 속도와 효율성으로 몰입형 경험을 생성할 수 있습니다. NVIDIA RTX PRO Blackwell GPU는 3D 컴퓨터 지원 설계(computer-aided design, CAD)와 건물 정보 모델(building information model, BIM) 워크플로우를 향상시키도록 설계됐습니다. 따라서 디자이너와 엔지니어에게 복합 모델링, 렌더링, 시각화 작업을 위한 탁월한 성능을 제공합니다.
기업 데이터센터 배포를 위해 설계된 RTX PRO 6000 Blackwell 서버 에디션은 수동 냉각 방식의 열 설계를 특징으로 하며, 서버당 최대 8개의 GPU로 구성될 수 있습니다. 데이터센터의 컴퓨팅 밀도와 규모가 필요한 워크로드의 경우, RTX PRO 6000 Blackwell 서버 에디션은 헬스케어, 제조, 유통, 미디어, 엔터테인먼트 등 산업 전반에서 차세대 AI, 과학, 비주얼 컴퓨팅 애플리케이션을 위한 강력한 성능을 제공합니다.
또한, 이 강력한 데이터센터 GPU는 NVIDIA vGPU™ 소프트웨어와 결합해 가상화된 환경 전반에서 AI 워크로드를 구동하고 원격 사용자에게 고성능 가상 워크스테이션 인스턴스를 제공할 수 있습니다. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU에 대한 NVIDIA vGPU 지원은 올해 하반기에 예정돼 있습니다.
RTX PRO GPU는 NVIDIA AI 플랫폼에서 실행되며, 더 큰 메모리 용량과 최신 Tensor 코어를 갖추고 있습니다. 따라서 NVIDIA CUDA®와 RTX 기술을 기반으로 구축된 AI 가속 애플리케이션의 심층적인 생태계를 가속화할 수 있죠. 이번에 발표된 NVIDIA Llama Nemotron Reason 모델 제품군, NIM™ 마이크로서비스와 같은 최신 AI 기반 콘텐츠 제작 도구와 추론 모델의 모든 것들을 통해 그 어느 때보다 빠른 추론이 가능합니다. 또한, 개발자는 400개 이상의 NVIDIA CUDA-X™ 라이브러리를 사용해 워크스테이션에서 데이터센터, 클라우드에 이르기까지 새로운 AI 애플리케이션을 쉽게 구축, 최적화, 배포, 확장할 수 있습니다.
기업은 NVIDIA RTX PRO GPU와 NVIDIA Omniverse™, NVIDIA AI Enterprise 플랫폼, NVIDIA Blueprints, NVIDIA NIM을 사용해 로컬에서 프로토타입을 제작하고 AI 개발과 배포를 빠르게 추진할 수 있습니다. 이로써 엔터프라이즈급의 지원으로 사용하기 쉬운 추론 마이크로서비스를 이용할 수 있습니다. 또한, RTX PRO 6000 Blackwell Server Editoin을 사용하면 AI와 비주얼 컴퓨팅을 위한 최고의 범용 데이터센터 GPU에서 이들 애플리케이션을 대규모로 실행할 수 있죠. 따라서 가장 까다로운 컴퓨팅 집약적 엔터프라이즈 워크로드를 획기적으로 가속화할 수 있습니다.
NVIDIA GPU 및 AI/DL/ML GPU 서버 전문 기업 아인시스 아이엔씨
저희 아인시스 아이엔씨는 NVIDIA의 GPU 및 DELL,HPE,ASUS,SUPERMICRO 등 다양한 제조사의 GPU 서버들을 취급 하는 전문 IT 기업 입니다.
제품에 관한 문의 또는 구매 견적이 필요 하시면 언제든지 연락 부탁 드립니다. ^^
감사 합니다.
◆ GPU서버 / 서버(DELL,HPE,ASUS 신품 및 중고) / 워크스테이션 / 스토리지 / 네트워크 하드웨어 견적 문의 ◆ 담당자 : 정지훈 부장 (영업부) / 010-9500-3099 / hoon@einsis.com
◆ GPU서버 / 서버(DELL,HPE,ASUS 신품 및 중고) / 워크스테이션 / 스토리지 / 네트워크 하드웨어 견적 문의 ◆ 담당자 : 정지훈 부장 (영업부) / 010-9500-3099 / hoon@einsis.com
안녕하세요. ^^
주식회사 아인시스 아이엔씨 정지훈 부장 입니다.
금일은 최근 딥러닝 GPU 서버등에서 많이 등장하는 용어인 DGX와 HGX에 대해서 알아 보는 시간을 갖도록 하겠습니다.
참고로 NVIDIA DGX와 HGX는 모두 NVIDIA의 인공지능 및 고성능 컴퓨팅(HPC) 솔루션의 일환으로, 서로 다른 용도와 아키텍처를 가지고 있습니다. 다음은 두 시스템의 주요 차이점입니다:
1. 목적 및 사용 사례
DGX: DGX 시스템은 AI 개발 및 딥러닝 훈련을 위한 완전한 솔루션입니다. 주로 연구자와 데이터 과학자들이 사용하며, 머신러닝 모델 훈련과 데이터 분석을 위해 최적화되어 있습니다. DGX 시스템은 소프트웨어 스택(예: NVIDIA GPU Cloud)과 함께 제공되어 사용자가 빠르게 AI 모델을 개발할 수 있도록 돕습니다.
HGX: HGX는 데이터 센터에서의 고성능 컴퓨팅 및 클라우드 서비스 제공을 위해 설계된 모듈형 플랫폼입니다. 주로 기업과 클라우드 서비스 제공업체가 사용하며, 대규모 인프라에 적합한 GPU 기반 솔루션입니다. HGX는 특히 다양한 워크로드(예: AI, HPC, 데이터 분석)에 대해 유연하게 확장할 수 있습니다.
2. 하드웨어 구성
DGX: DGX 시스템은 NVIDIA A100, H100 등의 고성능 GPU를 포함하여, CPU, 메모리, 저장 장치 등 모든 구성 요소가 최적화된 형태로 통합되어 있습니다. 일반적으로 8개의 GPU를 갖춘 DGX 시스템(예: DGX A100)이 가장 많이 사용됩니다.
HGX: HGX 플랫폼은 GPU를 여러 대 결합할 수 있는 아키텍처로 설계되어 있습니다. 고객이 필요에 따라 GPU와 CPU의 조합을 유연하게 구성할 수 있으며, 최대 16개의 GPU를 연결할 수 있는 옵션이 있습니다. HGX는 하드웨어적인 모듈화가 가능해 대규모 클러스터를 구축하는 데 적합합니다.
3. 소프트웨어 및 지원
DGX: DGX 시스템은 NVIDIA의 AI 소프트웨어 스택(예: NGC, CUDA, cuDNN 등)을 기본적으로 포함하여, 사용자가 손쉽게 AI 작업을 시작할 수 있도록 설계되어 있습니다. 또한, NVIDIA의 소프트웨어 업데이트와 지원이 체계적으로 제공됩니다.
HGX: HGX 플랫폼은 사용자에게 다양한 프레임워크와 솔루션을 지원할 수 있는 유연성을 제공합니다. HGX 시스템은 일반적으로 여러 클라우드 서비스와 통합되며, 다양한 소프트웨어와의 호환성이 높습니다.
4. 배포 및 관리
DGX: DGX는 독립형 시스템으로서 설치와 관리가 비교적 간편합니다. 작은 팀이나 연구실에서도 쉽게 배포할 수 있습니다.
HGX: HGX는 대규모 데이터 센터에 최적화되어 있으며, 클러스터 환경에서 운영되는 경우가 많습니다. 따라서 보다 복잡한 관리와 운영을 요구할 수 있습니다.
요약 하자면..
DGX는 AI 연구와 개발에 최적화된 단일 시스템이며, HGX는 유연성과 확장성이 뛰어난 데이터 센터 솔루션입니다.
쉽게 말해 DGX 는 시스템을 말하며, HGX 는 그러한 시스템과 솔루션이 융합되어 있는 엔비디아의 레퍼런스 아키텍쳐라고 보시면 됩니다.
물론 선택은 사용자의 요구와 작업 환경에 따라 달라집니다.
오늘은 DGX와 HGX에 대해서 알아 보는 시간을 마련해 보았는데요, 본 포스팅을 작성 하면서 저도 애매모호하게 알고 있는 부분에 대해 해소가 될 수 있는 기회가 되었습니다.
다소 부족한 포스팅 이었지만 아무쪼록 본 포스팅이 방문해 주신 분들에게 도움이 되었으면 좋겠습니다.
이상 아인시스의 정지훈 부장 이었습니다.
감사 합니다. ^^
◆ GPU서버 / 서버(DELL,HPE,ASUS 신품 및 중고) / 워크스테이션 / 스토리지 / 네트워크 하드웨어 견적 문의 ◆ 담당자 : 정지훈 부장 (영업부) / 010-9500-3099 / hoon@einsis.com
NVIDIA A100 GPU는 2020년에 처음으로 Ampere 아키텍처를 탑재한 GPU였습니다. 2022년에 H100이 출시되기 전까지 A100은 선도적인 GPU 플랫폼이었습니다. AI를 위한 개선된 텐서 코어, 병렬 처리를 위한 증가된 CUDA 코어 수, 향상된 메모리, 2 Tbps로 사상 최고의 메모리 대역폭을 갖춘 A100은 이전 세대와 비교하여 상당한 성능 향상을 제공했습니다. A100은 단일 A100 GPU를 더 작고 독립적인 GPU로 분할하여 클라우드 및 데이터 센터 환경에서 자원 할당과 효율성을 극대화하는 다중 인스턴스 GPU(MIG)를 지원합니다.
최신 모델이 개발됨에 따라 성능 측면에서 앞서지는 못하지만, A100 GPU는 강력한 텐서 코어와 높은 계산 처리량으로 딥러닝 및 AI 학습 작업의 일부로 복잡한 신경망을 훈련시키기에 여전히 훌륭한 선택입니다. A100은 음성 인식, 이미지 분류, 추천 시스템, 데이터 분석 및 대용량 데이터 처리, 과학적인 계산 및 시뮬레이션, 유전체 시퀀싱과 약물 발견을 포함한 고성능 컴퓨팅(HPC) 작업과 같은 AI 추론 작업에서 유용하게 사용됩니다.
NVIDIA L40S
L40S는 2023년 4분기에 출시(즉시 Gcore의 인프라에 통합)된 NVIDIA의 가장 강력한 GPU 중 하나입니다. 이는 생성형 AI, 대규모 언어 모델(LLM) 추론 및 훈련, 3D 그래픽, 렌더링, 비디오 및 과학적인 시뮬레이션과 같은 차세대 데이터 센터 워크로드를 처리하기 위해서 설계되었습니다.
NVIDIA L40S는 A100 및 H100과 같은 이전 세대 GPU와 비교하여 최대 5배 높은 추론 성능과 최대 2배 빠른 실시간 레이 트레이싱(RT) 성능을 제공합니다. ECC(오류 수정 코드)를 포함한 GDDR6 메모리의 48GB는 고성능 컴퓨팅 환경에서 데이터 무결성을 유지하는 데 중요한 역할을 합니다. 또한, 이 GPU에는 복잡한 계산 작업을 처리하는 데 중요한 병렬 프로세서인 18,000개 이상의 CUDA 코어가 장착되어 있습니다.
1. A100 보다 개선된 공정과 아키텍처로 제작된 신제품 (A100 보다 1년 4개월 후에 출시)
2. Boost Clock의 성능이 79% 개선
- A100 : 1410MHz
- L40S : 2520MHz
3. A100에는 없는 11254개의 랜더링 코어 추가
4. 낮은 최대 전력 소비량(TDP) :
- A100 : 400W
- L40S : 350W
5. 일부 연산 성능(FP32)에 있어 A100 보다 우위
6. A100에 비해 낮은 제품 금액
NVIDIA A100의 대안으로 L40S는 적합한가?
기업들이 연산용 GPU를 도입하기 위해 고려야해 할 사항이 있습니다.
GPU들은 사용 용도에 따라 크게 훈련과 추론으로 나뉘게 되는데 이에 따라 사용 할 수 있는 적합한 GPU를 도입해야 불필요한 비용 낭비를 줄일 수 있습니다.
관련 업계에서 사용되는 용어 중 FP16, FP32등과 같은 단어가 있는데 이는 수치형식 (numerical format)으로 부동 소수점(floating-point numbers)를 표현하는 방법 중 하나하고 생각 하면 됩니다.
이게 왜 중요 하냐면, 이 부동소수점을 형식을 사용하여 훈련과 추론등의 작업을 하게 되는데 FP16또는 FP32의 중요도에 따라서 연산에 사용 할 수 있는 모델을 선정할 수 있기 때문 입니다.
FP16은 Half-Precision의 준말로서, 16비트 부동 소수점 형식을 나타내며, 32비트 부동 소수점 형식을 사용하는 FP32에 비해 정밀도가 낮아서 모델의 정확도가 떨어 질 수 있습니다.
따라서, 모델을 훈련 할 때는 일반적으로 FP32를 사용 하고, 추론(inference)단계에서는 FP16을 사용하여 연산 속도를 높이는 경우가 많이 있습니다.
FP16은 연산을 더 빠르게 실행하고 메모리를 절약하는데 도움이 되는 부동 소수점 형식이나 정확도는 낮으므로 연산 모델의 특성에 따라 그게 적합한 형식의 사용 여부를 결정 해야 합니다.
A100이 대역폭이나, VRAM의 크기등이 L40S에 비해서 우위에 있긴 하지만, 모든 연산에서의 성능치가 절대적으로 높은 것은 아니며 하기 자료에서와 같이 FP16의 성능은 L40S와 비슷 하며, 특히 FP32에서의 성능은 L40S 가 월등하게 높습니다.(19.5 TFLOPS VS 91.6 TFLOPS)
A100 과 L40S의 스펙 자료
특히, 하기와 같이 AI Training및Generative AI를 비교를 하였을때L40S모델이 A100에 비해서 더 좋은 성능수치를 내고 있습니다.
- AI Training및Generative AI를 비교를 하였을때L40S모델이 조금 더 좋은 성능수치를 내고 있습니다. (A100 80GPU vs 2 System with 4x L40s)
- Generative AI→ 비정형 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 인공지능의 일종
- Generative AI→ 비정형 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 인공지능의 일종
결론적으로,
NVIDIA L40S GPU는 하기의 작업에 사용 시 A100 대비 비용 효율적인 이점을 볼 수 있습니다.
* L40S 적용시 비용 대비 효율적인 이점을 볼 수 있는 업무
제너레이티브 AI, LLM 추론, 일반 AI 교육 및 추론, 렌더링 및 3D 그래픽, 엔비디아 옴니버스, 스트리밍 및 비디오 콘텐츠, 가상 워크스테이션
이상 포스팅을 마치며,
해당 제품에 대한 문의 및 물품 공급, 제품 견적 지원이 가능 하오니 관련된 문의가 있으시면 언제든지 연락 부탁 드립니다.
◆ GPU서버 / 서버(DELL,HPE,ASUS 신품 및 중고) / 워크스테이션 / 스토리지 / 네트워크 하드웨어 견적 문의 ◆ 담당자 : 정지훈 부장 (영업부) / 010-9500-3099 / hoon@einsis.com