티스토리 뷰
RTX 4090
Ada Lovelace와 Ampere의 가장 큰 차이점은 몰까?
CUDA Core의 수가 꽤 많이 증가했다. 그리고 Tensor Cores의 수와 버전도 올라가고.
연산능력이 3090비해 두배 늘어났네!
특이한점은 FP8에 대한 연산능력이 새롭게 나타났다는 것인데, 좀더 적은 비트폭을 가지고도 딥러닝 속도를 크게 올릴 수 있을 듯하다. 2080에서와 3090에서는 FP8에 대한 지원을 하지 않았다는 점을 상기하자. 현재 GPU에서 INT4까지 연산을 지원하고 있는데, 잘하면 INT2나 INT1 (BNN을 GPU에서?)같은 극도의 데이터 형태까지 과연 지원하게 될까?
근데, FP16 Tensor TFLOPS와 BF16 Tensor TFLOPS간의 성능 차이는 왜 없는 것일까? BF16이 좀더 빨라야하는 것 아닌가?
캐쉬 사이즈랑 레지스터 화일을 크기도 꽤나 커져서 메모리 접근 양과 함께 더 많은 쓰레드를 동시에 수행시켜 프로그램의 성능을 크게 높일 수 있을 듯한다. 레지스터 화일의 크기는 거의 50%나 증가했다.
그리고, 4n 공정기술에 760억 개의 트랜지스터를 사용한다... 어머어마 하다....
딥러닝 학습 상의 성능 차이는?
From https://lambdalabs.com/blog/nvidia-rtx-4090-vs-rtx-3090-deep-learning-benchmark
'Tech-Tip' 카테고리의 다른 글
에라토스테네스의 체 (0) | 2023.06.01 |
---|---|
유클리드 호제법 (0) | 2023.05.30 |
행렬곱 - Xilinx HLS 실험 4 (0) | 2023.02.23 |
행렬곱 - Xilinx HLS 실험 3 (0) | 2023.02.23 |
행렬곱 - Xilinx HLS 실험 2 (0) | 2023.02.22 |