※ 본 포스팅에서 설명드린 NVIDIA L40S 는 하기의 링크를 통해서 온라인 구매도 가능 합니다.
(제품 구매 및 견적 문의 : 정지훈 부장 - 010-9500-3099 / hoon@einsis.com)
NEW >>> 새롭게 입고 된 NVIDIA DGX A100 (320GB) 리뷰가 등록 되었습니다.
안녕하세요.
주식회사 아인시스 아이엔씨 정지훈 부장 입니다.
GPU서버 및 GPU, 일반 서버 및 워크스테이션에 대한 문의가 있으시면 언제든지 연락 부탁 드립니다. ^^
최근 전 세계적인 AI,딥러닝 등의 붐으로 인하여 GPU에 대한 수요가 엄청 난 시장 상황 입니다.
글로벌 유수의 빅테크(구글/메타/테슬라/MS/OpenAI 등)기업들에서도 폭발적인 수요를 감당하지 못할 정도로 품귀가 심각 하였으며, 특히 #A100 과 #H100 모델의 수요가 타 모델에 비해 큰 상황 이었습니다.
현재는 A100 모델의 단종으로 시장에서의 수급이 매우 원활하지 않은 상황이며, 그에 따라 시장에서의 단가도 꽤 높게 형성되어 있습니다.
금일은 작년 3분기에 출시된 모델이기는 하지만, A100의 단종으로 인한 수급 문제, 그리고 단가적인 이슈로 인하여 최근에 많이 찾고 계시는 #L40S 라는 다소 생소한 네이밍의 모델에 대해서 알아 볼 예정 입니다.
물론 A100 뿐만 아니라, H100 이라는 GPU도 존재 하지만, 단가와 성능적인 부분에서 차이가 훨씬 많이 나는 모델이어서 본 포스팅 에서는 A100과 L40S에 대해서 비교해 보도록 하겠습니다.
참고 자료 - NVIDIA A100 & L40S 관련 자료
※ 하기 자료들을 클릭하여 다운로드 할 수 있습니다. (데이터 시트 및 제품 관련 자료)
NVIDIA A100 (Ampere 아키텍처) 외형 및 상세 스펙
NVIDIA A100 모델은 하기의 외형을 하고 있으며, 데이터센터용 GPU들은 NVIDIA 에서 외부 케이스를 거의 공유 하고 있어서 제품의 모델명을 제외하고 거의 비슷한 외형을 하고 있습니다.
※ NVIDIA에서 공식적으로 제공하는 상세 스펙 자료를 하기에 첨부 드리오니 참고 하시기 바랍니다.
NVIDIA L40S (Ada Lovelace 아키텍처)
NVIDIA L40S 모델도 A100과 비슷한 외형을 하고 있으며, A100과의 외관적인 부분에서의 차이라고 할수 있는 부분은 외부 출력이 가능한 Display 1.4a (DP) 출력 단자가 4개가 위치하고 있는 부분 입니다.
※ NVIDIA에서 공식적으로 제공하는 상세 스펙 자료를 하기에 첨부 드리오니 참고 하시기 바랍니다.
NVIDIA A100 & L40S 사양 비교
※ 하기 표의 자료중 A100은 PCI 타입이 아닌 HGX 타입의 모델의 사양표를 첨부 하였으나, 기본적인 스펙의 거의 동일한 부분 참고 부탁 드립니다.
사양 | A100 | L40S |
아키텍처 | Ampere(암페어) | Ada Locelace |
출시년도 | 2020 | 2023 |
FP64 | 9.7 TFLOPS | - |
FP64 텐서코어 | 19.5 TFLOPS | - |
FP32 | 19.5 TFLOPS | 91.6 TFLOPS |
TF32 텐서 코어 | 312 TFLOPS | 183 | 366* TFLOPS |
BFLOAT16 텐서 코어 | 624 TFLOPS | 362.05 | 733* TFLOPS |
FP16 텐서 코어 | 624 TFLOPS | 362.05 | 733* TFLOPS |
FP8 텐서 코어 | - | 733 | 1,466* TFLOPS |
INT4 텐서 코어 | - | 733 | 1,466* TFLOPS |
GPU 메모리 | 80 GB HBM2e | ECC 포함 48GB GDDR6 |
GPU 메모리 대역폭 | 2,039 Gbps | 864 Gbps |
디코더 | - | - |
최대 열 설계 전력(TDP) | 400W | 350W |
다중 인스턴스 GPU | 최대 7 MIGs @ 10 GB | 없음 |
형상 계수 | SXM | 4.4“ (H) x 10.5” (L), 이중 슬롯 |
상호 연결 | NVLink: 600 GB/s PCIe Gen4: 64 GB/s | PCIe Gen4 x16: 64GB/s 양방향 |
서버 옵션 | NVIDIA HGX™ A100-파트너 및 NVIDIA 인증 시스템은 4, 8 또는 16개의 GPU NVIDIA DGX™ A100을 지원하며 8개의 GPU를 갖추고 있습니다. | - |
CUDA® Cores | 6,912 | 18,176 |
NVIDIA A100 & L40S 성능 비교
※ 하기에 A100과 L40S의 수치화된 성능 비교를 참고 부탁 드립니다.
※ 가장 참고 하실 항목은 맨 밑의 이론적 성능 부분 입니다.
※ 참고 사이트 : TOP CPU
※ 원문 출처 링크 : https://www.topcpu.net/ko/gpu-c/a100-pcie-80-gb-vs-l40s#
NVIDIA A100 과 L40S의 특징 및 활용 사례
NVIDIA A100
NVIDIA A100 GPU는 2020년에 처음으로 Ampere 아키텍처를 탑재한 GPU였습니다. 2022년에 H100이 출시되기 전까지 A100은 선도적인 GPU 플랫폼이었습니다. AI를 위한 개선된 텐서 코어, 병렬 처리를 위한 증가된 CUDA 코어 수, 향상된 메모리, 2 Tbps로 사상 최고의 메모리 대역폭을 갖춘 A100은 이전 세대와 비교하여 상당한 성능 향상을 제공했습니다. A100은 단일 A100 GPU를 더 작고 독립적인 GPU로 분할하여 클라우드 및 데이터 센터 환경에서 자원 할당과 효율성을 극대화하는 다중 인스턴스 GPU(MIG)를 지원합니다.
최신 모델이 개발됨에 따라 성능 측면에서 앞서지는 못하지만, A100 GPU는 강력한 텐서 코어와 높은 계산 처리량으로 딥러닝 및 AI 학습 작업의 일부로 복잡한 신경망을 훈련시키기에 여전히 훌륭한 선택입니다. A100은 음성 인식, 이미지 분류, 추천 시스템, 데이터 분석 및 대용량 데이터 처리, 과학적인 계산 및 시뮬레이션, 유전체 시퀀싱과 약물 발견을 포함한 고성능 컴퓨팅(HPC) 작업과 같은 AI 추론 작업에서 유용하게 사용됩니다.
NVIDIA L40S
L40S는 2023년 4분기에 출시(즉시 Gcore의 인프라에 통합)된 NVIDIA의 가장 강력한 GPU 중 하나입니다. 이는 생성형 AI, 대규모 언어 모델(LLM) 추론 및 훈련, 3D 그래픽, 렌더링, 비디오 및 과학적인 시뮬레이션과 같은 차세대 데이터 센터 워크로드를 처리하기 위해서 설계되었습니다.
NVIDIA L40S는 A100 및 H100과 같은 이전 세대 GPU와 비교하여 최대 5배 높은 추론 성능과 최대 2배 빠른 실시간 레이 트레이싱(RT) 성능을 제공합니다. ECC(오류 수정 코드)를 포함한 GDDR6 메모리의 48GB는 고성능 컴퓨팅 환경에서 데이터 무결성을 유지하는 데 중요한 역할을 합니다. 또한, 이 GPU에는 복잡한 계산 작업을 처리하는 데 중요한 병렬 프로세서인 18,000개 이상의 CUDA 코어가 장착되어 있습니다.
참고 사이트 : GCORE
원문 출처 : https://gcore.com/ko/blog/nvidia-gpu-comparison/
NVIDIA A100과 L40S의 주요 차이점
NVIDIA A100 의 장점
1. L40S에 비해 더 높은 VRAM
- A100 : 80GB
- L40S : 48GB
2. 더 높은 VRAM의 Bandwidth(대역폭)
- A100 : 1935GB/s
- L40S : 864GB/s
NVIDIA L40S 의 장점
1. A100 보다 개선된 공정과 아키텍처로 제작된 신제품 (A100 보다 1년 4개월 후에 출시)
2. Boost Clock의 성능이 79% 개선
- A100 : 1410MHz
- L40S : 2520MHz
3. A100에는 없는 11254개의 랜더링 코어 추가
4. 낮은 최대 전력 소비량(TDP) :
- A100 : 400W
- L40S : 350W
5. 일부 연산 성능(FP32)에 있어 A100 보다 우위
6. A100에 비해 낮은 제품 금액
NVIDIA A100의 대안으로 L40S는 적합한가?
기업들이 연산용 GPU를 도입하기 위해 고려야해 할 사항이 있습니다.
GPU들은 사용 용도에 따라 크게 훈련과 추론으로 나뉘게 되는데 이에 따라 사용 할 수 있는 적합한 GPU를 도입해야 불필요한 비용 낭비를 줄일 수 있습니다.
관련 업계에서 사용되는 용어 중 FP16, FP32등과 같은 단어가 있는데 이는 수치형식 (numerical format)으로 부동 소수점(floating-point numbers)를 표현하는 방법 중 하나하고 생각 하면 됩니다.
이게 왜 중요 하냐면, 이 부동소수점을 형식을 사용하여 훈련과 추론등의 작업을 하게 되는데 FP16또는 FP32의 중요도에 따라서 연산에 사용 할 수 있는 모델을 선정할 수 있기 때문 입니다.
FP16은 Half-Precision의 준말로서, 16비트 부동 소수점 형식을 나타내며, 32비트 부동 소수점 형식을 사용하는 FP32에 비해 정밀도가 낮아서 모델의 정확도가 떨어 질 수 있습니다.
따라서, 모델을 훈련 할 때는 일반적으로 FP32를 사용 하고, 추론(inference)단계에서는 FP16을 사용하여 연산 속도를 높이는 경우가 많이 있습니다.
FP16은 연산을 더 빠르게 실행하고 메모리를 절약하는데 도움이 되는 부동 소수점 형식이나 정확도는 낮으므로 연산 모델의 특성에 따라 그게 적합한 형식의 사용 여부를 결정 해야 합니다.
A100이 대역폭이나, VRAM의 크기등이 L40S에 비해서 우위에 있긴 하지만, 모든 연산에서의 성능치가 절대적으로 높은 것은 아니며 하기 자료에서와 같이 FP16의 성능은 L40S와 비슷 하며, 특히 FP32에서의 성능은 L40S 가 월등하게 높습니다.(19.5 TFLOPS VS 91.6 TFLOPS)
특히, 하기와 같이 AI Training 및 Generative AI를 비교를 하였을때 L40S 모델이 A100에 비해서 더 좋은 성능수치를 내고 있습니다.
- AI Training 및 Generative AI를 비교를 하였을때 L40S 모델이 조금 더 좋은 성능수치를 내고 있습니다. (A100 80GPU vs 2 System with 4x L40s)
- Generative AI → 비정형 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 인공지능의 일종
- Generative AI → 비정형 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 인공지능의 일종
결론적으로,
NVIDIA L40S GPU는 하기의 작업에 사용 시 A100 대비 비용 효율적인 이점을 볼 수 있습니다.
* L40S 적용시 비용 대비 효율적인 이점을 볼 수 있는 업무
제너레이티브 AI, LLM 추론, 일반 AI 교육 및 추론, 렌더링 및 3D 그래픽, 엔비디아 옴니버스, 스트리밍 및 비디오 콘텐츠, 가상 워크스테이션
이상 포스팅을 마치며,
해당 제품에 대한 문의 및 물품 공급, 제품 견적 지원이 가능 하오니 관련된 문의가 있으시면 언제든지 연락 부탁 드립니다.
◆ GPU서버 / 서버(DELL,HPE,ASUS 신품 및 중고) / 워크스테이션 / 스토리지 / 네트워크 하드웨어 견적 문의 ◆
담당자 : 정지훈 부장 (영업부) / 010-9500-3099 / hoon@einsis.com
감사 합니다.
EINSIS/아인시스/einsis/아인시스아이엔씨/아인시스기술지원/스위치/스위치 기술지원비(비용)/스위치 설치비/방화벽/방화벽 기술지원비(비용)/방화벽 설치비/랙/랙(RACK) 기술지원비(비용)/랙(RACK) 설치비/KVM/KVM 기술지원비(비용)/KVM 설치비/스토리지/스토리지 기술지원비(비용)/스토리지 설치비/스토리지 랙마운트비용/스토리지 장애조치비용/서버/서버 기술지원비(비용)/서버 설치비/서버 랙마운트비용/서버 장애조치비용/윈도우서버/윈도우즈 기술지원비(비용)/윈도우즈 설치비/리눅스/Linux/리눅스 기술지원비(비용)/리눅스 설치비/DB/데이터베이스/MySQL 기술지원비(비용)/MySQL 설치비/MSSQL 기술지원비(비용)/MSSQL 설치비/백업 기술지원비(비용)/HPE서버비용/HPE/DL20/DL20GEN10/ML30/ML30GEN10/ML360/ML350GEN10/DL360/DL360Gen10/DL380/DL380Gen10/LENOVO서버/레노보서버/델서버/델서버비용/DELLR540/DELLR750/HP서버/서버엔지니어/서버기술지원/서버디스크장애처리/방화벽/방화벽엔지니어/APC UPS/UPS/UPS설치/UPS기술지원/UPS납품/서버렉마운트/HPE Service Pack for Proliant/HPE SPP/SPP/Intelligent Provisioning/시놀로지나스/나스기술지원/SYNOLOGY/SYNOLOGY나스/시놀로지DS918/시놀로지하이퍼백업/HYPER BACKUP/시놀로지HyperBackup/시놀로지나스백업/서버백업/서버트러블슈팅/리눅스트러블슈팅/보안솔루션/시큐어디스크/인터넷디스크/이스트소프트/알약/카스퍼스키/ESTSOFT/V3/안랩/소포스/SOPHOS/카보나이트/더블테이크/이중화솔루션/HA솔루션/Windows서버설치/왼도우서버설치/윈도우서버2019/윈도우서버2016/MSSQL/MYSQL/디포그랙/DEFOG랙/디포그랙가격/EDFOG랙가격/RMS랙/서버납품/랙납품설치/랙설치/나스설치지원/스토리지납품설치/윈도우서버트러블슈팅/리눅스서버트러블슈팅/HPE서버펌웨어/HP서버펌웨어/HPE서버/FIRMWARE/DELL서버펌웨어/델서버펌웨어업데이트/레노보서버펌웨어/LENOVO펌웨어업데이트/HPE서버드라이버설치/HPE서버구매/DELL서버구매/LENOVO서버구매/보안솔루션구매/이중화솔루션구매/보안솔루션설치/이중화솔루션설치/HPE서버가격비교/DELL서버가격비교/LENOVO서버가격비교/HPE서버가격비교견적/DELL서버가격비교견적/LENOVO서버가격비교견적/HPE서버견적/DELL서버견적/LENOVO서버견적/HPE서버디스크교체/DELL서버디스크교체/LENOVO서버디스크교체/HPE서버RAID컨트롤러/HPE서버RAID컨트롤러/DELL서버RAID컨트롤러/LENOVO서버RAID컨트롤러/HP서버하드디스크/HPE서버하드디스크구매/DELL서버하드디스크구매/LENOVO서버하드디스크구매/HPE서버SAS하드디스크/DELL서버SAS하드디스크/LENONO서버SAS하드디스크/HPE서버메모리/DELL서버메모리/LENOVO서버메모리/HP서버메모리/HPE서버CPU/DELL서버CPU/LENOVO서버CPU/서버CPU/서버메모리/서버MEMORY/ECC메모리/서버용메모리/서버용하드디스크/서버용그래픽카드/쿼드로P400/QUADRO그래픽카드/QUADRO/우분투설치/서버보안/네트워크장비/네트워크스위치/L2스위치/L3스위치/OS설치/서버OS설치/리눅스서버설치/우분투설치/페도라설치/레드헷설치/RHEL설치/워크스테이션/서버/hp워크스테이션/서버컴퓨터/델워크스테이션/hp서버/미니서버랙/중고서버/hpz4/dell워크스테이션/서버pc/hpz4g4/중고워크스테이션/hpz440/레노버p620/서버용컴퓨터/델서버/레노버워크스테이션/hpz420/dell서버/인스퍼/INSPURE/인스퍼서버/R760/R750//R250/R350/R750xs/GPU서버/AI서버/HPPC구매/델서버견적/델워크스테이션견적/A100/L40S/H00/A6000/A5000/A4000/A2000/T400/델서버쇼핑몰/중고서버/HP중고서버/7920T/7960T/5860T/7960T/델워크스테이션/einmall/아인몰
'기술자료 > 기타 기술자료' 카테고리의 다른 글
[CPU] 인텔 서버용 제온(XEON) CPU의 대항마 AMD 에픽(EPYC)에 대하여.. (0) | 2024.10.23 |
---|