AMD INSTINCT MI200 SERIES DENGAN DUAL GPU CHIP

AMD resmi mengabarkan Instinct MI200 pada acara AMD Keynote, memberikan upgrade yang besar pada pendahulunya yaitu Instinct MI100. MI200 akan digunakan untuk penggunaan Supercomputer, dengan perpaduan performa EPYC CPU dan MI200 GPU. AMD menggunakan banyak komparasi dengan Nvidia A100, mengklaim mendapatkan performa yang lebih kencang di sektor Performance dan Density. Seperti biasa, pengumuman ini memberikan iri tapi tidak menceritakan seluruh cerita ini, tapi MI200 memang terlihat seperti monster saat ini.

Pada dasarnya MI200 datang untuk pembaruan dan peningkatan GPU yang sudah menggunakan pendahulunya MI100. AMD menamai arsitekturnya dengan CDNA2, sama dengan RDNA2 vs RDNA yang tersedia pada kelas kostumer saat ini. MI100 memiliki 120 CDNA CUs dan 7680 streaming processors. MI100 sudah menggunakan TSMC 7nm, dan sudah menggunakan sampai-dengan 32GB HBM2 memori dengan clock 1.2Gbps. MI200 mengambil seluruhnya dengan boost pada data ini.

Perubahan besar pada MI100 yaitu datang dengan paket multi-die. Basiknya sama seperti yang AMD gunakan pada CPU Zen 2 dan Zen 3 dan menerapkannya pada GPU dengan beberapa peningkatan. Dengan 2 CDNA dies, kebalikan dari RDNA yang di gunakan untuk kostumer, mereka tersambungkan dari Infinity Fabric atau arsitektur yang tersambungkan, dengan penggabungan 25Gbps menghasilkan sampai-dengan 100GBps dari dua arah bandwith antar GPU ini. Ada delapan penggabungan di MI200 ini, dari konfig ini mereka meyakini 800GBps bandwith dari dua chiplet ini.

Peningkatan yang sangat besar dari Infinity Fabric yang di gunakan di Zen 3 jika kamu heran. Di Zen 3, si Infinity Fabric bekerja di Clock RAM dengan maks kecepatan resmi di 1600 MHz (dengan overclock chip dapan mencapai 2000 MHz). Dengan 16 bytes dan DDR itu hanya sekitar 51.2 GBps dari dua arah bandwith, jadi MI200 memiliki 16 kali dari penggabungan bandwith tersebut. Ini jawaban atas intel EMIB (Embedded Multi-die Interconnect Bridge).

MI200 akan menggunakan TSMC 6nm atau versi yang lebih baik dari 7nm nya. TSMC N6 mempersembahkan evolusi pengembangan kecil tekhnologi. tapi ini membolehkan mencapai clock yang lebih tinggi dari meningkatkan efisiensi daya. N6 masih kompatibel dengan desain N7, berarti mudah bagi AMD untuk memindahkan dari N7 ke N6 mereka yang baru.

Satu yang membuat takjub dari semua info tentang MI200 chip ini berisikan sampai-dengan 58 miliar transistor. Jumlah itu sudah sangat banyak, tapi Nvidia A100 sudah memiliki 54.2 miliar transistor dalam satu GPU core. Atau mungkin kita melewatkan sesuatu disini, itu berarti total dari MI200 chip kurang lebih ukurannya sama seperti Nvidia A100 kecuali mereka menempatkan lebih banyak komputasi performa dalam satu area.

Dari spesifikasi AMD yang dirilis, MI200 akan ber clock sampai-dengan 1.7 Ghz dibandingkan MI100 yang hanya 1.5 Ghz. Memori juga ada peningkatan dengan HBM2e yang berjalan di 3.2Gbps, yang digabungkan dengan layout dual-chiplet GPU ini maka total bandwith untuk MI200 bertambah dari 1.2 TBps ke 3.2 TBps. tapi itu hanya permulaan.

Sedangkan banyak fungsi unit core MI200 ini sama seperti MI100. Vektor FP 64 dan FP 32 disini tidak ada perubahan, dan untuk FP 16 dan FP 32 AMD meningkatkan rate vektor matirk nya, kedua matrik ini sudah mendukung FP 64, dan untuk vektor 64 rate nya di dobel kan.

Menempatkan angka, MI100 sudah menjadi GPU pertama dengan lebih dari 10 TFLOPS dari vektor komputasiFP 64. Dengan clock yang lebih tinggi, Dual-GPU, dan Dobel FP 64 rate, MI200 memiliki vektor puncak FP 64 yaitu 47.9 TFLOPS, AMD sudah mempersembahkan 4.9x peningkatan dari vektor Nvdia A100 FP 64 rate.

MI200 juga menambahkan dukungan matrik FP 64, dengan puncak rate dobel vektor di 95.7 TFLOPS. Dan lagi dari Komparasi ini, vektor Nvidia A100 FP 64 performanya hanya 19.5 TFLOPS. Itu hanya Di atas kertas, tentu kita ingin lihat bagaimakan performa di Real World. AMD mengklaim performa sekitar tiga kali lebih cepat dari A100 di berbagai workloads, ini sulit karena banyak macam dari semua workloads.

Di sektor FP 16, performanya tidak cukup signifikan. Nvida A100 mempunyai 312 TFLOPS dan MI200 mempunyai 383 TFLOPS, Tapi Nvidia memiliki sparsity ( AI Machine Learning ). Dasarnya, sparsity mengizinkan GPU melewatkan beberapa operasi, spesifiknya dengan perkalian dengan angka 0 ( karena semua yang di kali 0 hasilnya tetap 0 ). Sparsity bisa berpotensi dobel performa komputasi dari A100 ini, maka dari itu beberapa kasus Nvdia masih menduduki puncak.

Masih ada yang kurang disini, seperti berapa daya yang dibutuhkan. Nvidia A100 memiliki TDP 400W untuk variasi SXM, dan rumor untuk MI200 OEM bisa sampai 550W. untuk konektifitas Nvidia menggunakan NVLINK konektor, sedangkan AMD menggunakan Infinity Fabric, dan kita akan tau setidaknya 6-way konfigurasi dari MI200 OAM.

Dari gambar diatas yang datang dari dek geser milik AMD dan mungkin menunjukan rendering dari satu node di Oak Ridge National Labs Frontier Supercomputer. Berasumsi ini gambar yang akurat, disitu akan ada enam MI200 OAM GPU yang disandingkan dengan EPYC CPU. Direktur ORNL Thomas Zacharia mengatakan itu satu MI200 GPU memberikan lebih performa komputasi dari pada seluruh node di Supercomputer Summit ORNL sebelumnya. Frontier saat ini sedang di pasang dan akan tersedia untuk para peneliti untuk di gunakan mulai tahun depan.

AMD memiliki dua model untuk MI200 series, untuk seri tertingginya MI250X, yang telah kami gunakan untuk sebagian besar diskusi ini, memiliki 110 CU per chiplet, sedangkan versi yang lebih rendah MI250 turun menjadi 104 CU per chiplet. Itulah satu-satunya perubahan nyata, sehingga MI250 berakhir dengan kinerja komputasi sekitar 5% lebih sedikit. Juga akan ada versi PCIe dari MI200 di masa depan.