Bottleneck Sebenar AI Bukan Kuasa Pengkomputeran, Tetapi Pergerakan Data — Pengkomputeran Dalam Memori Menjadi Penyelesaian

Sepanjang dua tahun yang lalu, hampir semua perbincangan tentang AI telah memfokuskan pada kuasa pengkomputeran: GPU tidak mencukupi, kapasiti pengkomputeran tidak mencukupi dan kluster bersaiz kecil.Rasanya seolah-olah menimbun lebih banyak kuasa pengkomputeran akan menyelesaikan setiap masalah.

Tetapi laporan ini menekankan satu perkara penting lagi dan lagi: Apa yang benar-benar melambatkan AI bukanlah ketidakupayaan untuk mengira, tetapi ketidakupayaan untuk memindahkan data dengan cekap.

Satu statistik menjadikan masalah itu jelas: Membaca data daripada DRAM menggunakan tenaga ratusan kali lebih banyak daripada daripada SRAM.Sementara itu, jurang prestasi antara pemproses dan memori semakin melebar hampir 50% setiap tahun.

Sebilangan besar kuasa pengkomputeran yang sedang kami bina sedang menunggu data. Pada masa itu, saya menyedari sesuatu yang menarik: Kami mungkin telah melihat kesesakan yang salah untuk AI selama ini.

Jika masalahnya bukan pengiraan itu sendiri, tetapi pemisahan pengkomputeran dan ingatan, maka jawapan sebenar mungkin bukan GPU yang lebih kuat. Ia adalah untuk membiarkan ingatan itu sendiri mengambil bahagian dalam pengkomputeran. Itulah kisah sebenar yang ingin diceritakan oleh laporan ini.

Mesej Teras Laporan

Halangan sebenar kuasa pengkomputeran AI sedang beralih daripada pengiraan ke memori, dan penyelesaiannya adalah untuk memindahkan pengiraan ke dalam ingatan.

Masalah Sebenar: Kecekapan AI Dihadkan oleh Pergerakan Data

Pengiraan AI sangat bergantung pada operasi MAC (multiply-accumulate) secara besar-besaran dan sangat intensif data. Walau bagaimanapun, seni bina von Neumann klasik mempunyai kecacatan yang membawa maut:

Jurang prestasi antara pemproses dan DRAM terus melebar (sekitar 50% setahun)
Kos tenaga capaian memori jauh lebih tinggi daripada pengiraan itu sendiri (tenaga baca DRAM ≈ 100x daripada SRAM)

Kesimpulan: AI tidak gagal untuk mengira—ia gagal memindahkan data dengan berpatutan dan cukup pantas.

Percanggahan Teras: The von Neumann Bottleneck

Pemisahan pengkomputeran dan memori memaksa pengaliran data berterusan, menyebabkan dua isu kritikal:

Latensi tinggi
Penggunaan tenaga yang meletup

Inilah yang dipanggil laporan itu von Neumann Bottleneck.

Aliran Utama: Memori Menjadi Pusat Pengkomputeran Baharu

Trend industri yang jelas sedang muncul: Cip berkembang dalam dua cara:

Memori pada cip (SRAM) terus berkembang
Jalur lebar memori terus meningkat

Sementara itu, arah revolusioner telah muncul: Pengkomputeran Dalam Memori (IMC).

Idea terasnya: Lakukan operasi logik, pengiraan aritmetik dan pendaraban matriks (teras AI) terus di dalam memori.

Peralihan asas: Memori = Storan → Memori = Enjin Kira

Laluan Teknikal: Dari SRAM ke Kenangan Baru Muncul

Laporan menggariskan berbilang laluan pelaksanaan:

1. SRAM / eDRAM (Laluan Tradisional)
Kira-dalam-Cache, Cache Neural
Kelebihan: matang, kelajuan tinggi
Had: kawasan besar, skalabiliti terhad

2. Memori Muncul (Arah Aliran Perdana)
Termasuk: MRAM, PCM, ReRAM, FeRAM

Matlamat bersama: menukar tatasusunan memori menjadi enjin terkumpul darab matriks dengan pengkomputeran di tempat dan pengkomputeran analog (cth., penjumlahan semasa untuk pendaraban vektor).

Intipati: susunan memori = pemecut AI

Tetapi cabaran sebenar kekal: ketepatan dan hingar, variasi peranti, hanyutan berat (terutamanya dalam ReRAM) dan isu pengekalan. Laluan ini berdaya maju tetapi sangat mencabar dalam kejuruteraan.

Penyelesaian Sistem: Pengoptimuman Bersama Algoritma Perkakasan

Laporan itu menekankan bahawa perkakasan sahaja tidak mencukupi—algoritma juga mesti berkembang.

Mampatan model: pemangkasan, sparsity, penguraian peringkat rendah
Pengkomputeran ketepatan rendah: titik tetap, rangkaian saraf binari
Latihan sedar perkakasan: STE, keratan bit-slice

Kesimpulan utama: Pengoptimuman kecekapan AI memerlukan reka bentuk bersama seni bina, peranti dan algoritma.

Kesimpulan Akhir

Memori pada cip telah menjadi sumber teras sistem AI
Kenangan yang muncul menjadikan penyepaduan pengiraan memori sebagai arah arus perdana
Cip AI generasi seterusnya memerlukan reka bentuk bersama rentas lapisan daripada peranti kepada algoritma

Ringkasan

Kesesakan AI beralih daripada "kuasa pengkomputeran tidak mencukupi" kepada "tidak dapat memindahkan data dengan cukup pantas." Jawapan untuk cip generasi akan datang bukanlah GPU yang lebih kuat, tetapi ingatan yang boleh dikira dengan sendirinya.

Pilih bahasa untuk dipaparkan