Zach Anderson
17 Januari 2025 14:11
NVIDIA memperkenalkan pengoptimalan cache KV baru di TensorRT-LLM, yang meningkatkan performa dan efisiensi untuk model bahasa besar di GPU dengan mengelola memori dan sumber daya komputasi.
Dalam perkembangan signifikan penerapan model AI, NVIDIA telah memperkenalkan pengoptimalan cache nilai kunci (KV) baru di platform TensorRT-LLM miliknya. Peningkatan ini dirancang untuk meningkatkan efisiensi dan kinerja model bahasa besar (LLM) yang berjalan pada GPU NVIDIA, menurut blog resmi NVIDIA.
Strategi Penggunaan Kembali Cache KV yang Inovatif
Model bahasa menghasilkan teks dengan memprediksi token berikutnya berdasarkan token sebelumnya, menggunakan elemen kunci dan nilai sebagai konteks historis. Optimalisasi baru di NVIDIA TensorRT-LLM bertujuan untuk menyeimbangkan permintaan memori yang terus meningkat dengan kebutuhan untuk mencegah penghitungan ulang elemen-elemen ini yang mahal. Cache KV bertambah seiring dengan ukuran model bahasa, jumlah permintaan batch, dan panjang konteks urutan, sehingga menimbulkan tantangan yang harus diatasi oleh fitur-fitur baru NVIDIA.
Di antara optimasi tersebut adalah dukungan untuk cache KV halaman, cache KV terkuantisasi, cache KV buffer melingkar, dan penggunaan kembali cache KV. Fitur-fitur ini adalah bagian dari perpustakaan sumber terbuka TensorRT-LLM, yang mendukung LLM populer pada GPU NVIDIA.
Pengusiran Cache KV Berbasis Prioritas
Fitur menonjol yang diperkenalkan adalah penggusuran cache KV berbasis prioritas. Hal ini memungkinkan pengguna untuk memengaruhi blok cache mana yang dipertahankan atau dikeluarkan berdasarkan atribut prioritas dan durasi. Dengan menggunakan TensorRT-LLM Executor API, deployer dapat menentukan prioritas retensi, memastikan bahwa data penting tetap tersedia untuk digunakan kembali, sehingga berpotensi meningkatkan tingkat cache hit sekitar 20%.
API baru ini mendukung penyempurnaan manajemen cache dengan memungkinkan pengguna menetapkan prioritas untuk rentang token yang berbeda, memastikan bahwa data penting tetap disimpan dalam cache lebih lama. Hal ini sangat berguna untuk permintaan yang kritis terhadap latensi, memungkinkan pengelolaan sumber daya dan optimalisasi kinerja yang lebih baik.
API Peristiwa Cache KV untuk Perutean yang Efisien
NVIDIA juga telah memperkenalkan API peristiwa cache KV, yang membantu perutean permintaan secara cerdas. Dalam aplikasi berskala besar, fitur ini membantu menentukan instance mana yang harus menangani permintaan berdasarkan ketersediaan cache, mengoptimalkan penggunaan kembali, dan efisiensi. API ini memungkinkan pelacakan peristiwa cache, memungkinkan manajemen real-time dan pengambilan keputusan untuk meningkatkan kinerja.
Dengan memanfaatkan API peristiwa cache KV, sistem dapat melacak instance mana yang telah melakukan cache atau mengeluarkan blok data, sehingga memungkinkan untuk merutekan permintaan ke instance yang paling optimal, sehingga memaksimalkan pemanfaatan sumber daya dan meminimalkan latensi.
Kesimpulan
Kemajuan dalam NVIDIA TensorRT-LLM ini memberi pengguna kontrol yang lebih besar atas manajemen cache KV, sehingga memungkinkan penggunaan sumber daya komputasi yang lebih efisien. Dengan meningkatkan penggunaan kembali cache dan mengurangi kebutuhan penghitungan ulang, optimalisasi ini dapat menghasilkan percepatan yang signifikan dan penghematan biaya dalam penerapan aplikasi AI. Seiring NVIDIA terus meningkatkan infrastruktur AI-nya, inovasi-inovasi ini akan memainkan peran penting dalam memajukan kemampuan model AI generatif.
Untuk lebih jelasnya, Anda dapat membaca pengumuman selengkapnya di blog NVIDIA.
Sumber gambar: Shutterstock