Sepanjang dua tahun yang lalu, hampir semua perbincangan tentang AI telah memfokuskan pada kuasa pengkomputeran: GPU tidak mencukupi, kapasiti pengkomputeran tidak mencukupi dan kluster bersaiz kecil.Rasanya seolah-olah menimbun lebih banyak kuasa pengkomputeran akan menyelesaikan setiap masalah.
Tetapi laporan ini menekankan satu perkara penting lagi dan lagi: Apa yang benar-benar melambatkan AI bukanlah ketidakupayaan untuk mengira, tetapi ketidakupayaan untuk memindahkan data dengan cekap.
Satu statistik menjadikan masalah itu jelas: Membaca data daripada DRAM menggunakan tenaga ratusan kali lebih banyak daripada daripada SRAM.Sementara itu, jurang prestasi antara pemproses dan memori semakin melebar hampir 50% setiap tahun.
Sebilangan besar kuasa pengkomputeran yang sedang kami bina sedang menunggu data. Pada masa itu, saya menyedari sesuatu yang menarik: Kami mungkin telah melihat kesesakan yang salah untuk AI selama ini.
Jika masalahnya bukan pengiraan itu sendiri, tetapi pemisahan pengkomputeran dan ingatan, maka jawapan sebenar mungkin bukan GPU yang lebih kuat. Ia adalah untuk membiarkan ingatan itu sendiri mengambil bahagian dalam pengkomputeran. Itulah kisah sebenar yang ingin diceritakan oleh laporan ini.
Halangan sebenar kuasa pengkomputeran AI sedang beralih daripada pengiraan ke memori, dan penyelesaiannya adalah untuk memindahkan pengiraan ke dalam ingatan.
Pengiraan AI sangat bergantung pada operasi MAC (multiply-accumulate) secara besar-besaran dan sangat intensif data. Walau bagaimanapun, seni bina von Neumann klasik mempunyai kecacatan yang membawa maut:
Kesimpulan: AI tidak gagal untuk mengira—ia gagal memindahkan data dengan berpatutan dan cukup pantas.
Pemisahan pengkomputeran dan memori memaksa pengaliran data berterusan, menyebabkan dua isu kritikal:
Inilah yang dipanggil laporan itu von Neumann Bottleneck.
Trend industri yang jelas sedang muncul: Cip berkembang dalam dua cara:
Sementara itu, arah revolusioner telah muncul: Pengkomputeran Dalam Memori (IMC).
Idea terasnya: Lakukan operasi logik, pengiraan aritmetik dan pendaraban matriks (teras AI) terus di dalam memori.
Peralihan asas: Memori = Storan → Memori = Enjin Kira
Laporan menggariskan berbilang laluan pelaksanaan:
1. SRAM / eDRAM (Laluan Tradisional)
Kira-dalam-Cache, Cache Neural
Kelebihan: matang, kelajuan tinggi
Had: kawasan besar, skalabiliti terhad
2. Memori Muncul (Arah Aliran Perdana)
Termasuk:
MRAM, PCM, ReRAM, FeRAM
Matlamat bersama: menukar tatasusunan memori menjadi enjin terkumpul darab matriks dengan pengkomputeran di tempat dan pengkomputeran analog (cth., penjumlahan semasa untuk pendaraban vektor).
Intipati: susunan memori = pemecut AI
Tetapi cabaran sebenar kekal: ketepatan dan hingar, variasi peranti, hanyutan berat (terutamanya dalam ReRAM) dan isu pengekalan. Laluan ini berdaya maju tetapi sangat mencabar dalam kejuruteraan.
Laporan itu menekankan bahawa perkakasan sahaja tidak mencukupi—algoritma juga mesti berkembang.
Kesimpulan utama: Pengoptimuman kecekapan AI memerlukan reka bentuk bersama seni bina, peranti dan algoritma.
Kesesakan AI beralih daripada "kuasa pengkomputeran tidak mencukupi" kepada "tidak dapat memindahkan data dengan cukup pantas." Jawapan untuk cip generasi akan datang bukanlah GPU yang lebih kuat, tetapi ingatan yang boleh dikira dengan sendirinya.