model servis

Model Servis İçin CPU, RAM, VRAM ve NVMe Seçimi: Nelere Dikkat Etmeli?

Model Servis İçin CPU, RAM, VRAM ve NVMe Seçimi: Nelere Dikkat Etmeli?

Yapay zekâ modellerini canlıya alırken doğru donanım seçimi, sistemin performansı ve maliyeti açısından kritik öneme sahiptir. Yanlış bileşenler seçmek, modelin yavaş çalışmasına veya hiç çalışmamasına yol açabilir. Bu rehberde, bir model servis altyapısı kurarken CPU, RAM, VRAM ve NVMe disk seçiminde dikkat etmeniz gereken temel noktaları basitçe ele alıyoruz.

CPU Seçimi: İşlemci Hızının Rolü

CPU'nun önemi, modelinizi nasıl çalıştırdığınıza bağlıdır. Eğer modeliniz GPU üzerinde çalışıyorsa, CPU'nun ana görevi veriyi GPU'ya hızlıca aktarmaktır; bu durumda çok yüksek bir işlemci gücüne gerek duyulmaz. Ancak modeli CPU üzerinden çalıştırmayı (inference) planlıyorsanız, çekirdek sayısı ve saat hızı önem kazanır. Örneğin, 7 milyar parametreli bir modeli sadece işlemciyle çalıştırmak için en az 8 fiziksel çekirdekli ve yüksek saat hızına sahip bir işlemci tercih edilmelidir. GPU odaklı sistemlerde orta segment bir işlemci yeterli olabilirken, CPU tabanlı sistemlerde çekirdek sayısı öncelikli olmalıdır.

RAM Seçimi: Bellek Kapasitesini Belirleme

Sistem belleği (RAM), modelin çalışması sırasında verilerin geçici olarak tutulduğu alandır. Modelin boyutu arttıkça, ihtiyaç duyulan RAM miktarı da doğru orantılı olarak artar. 7 milyar parametreli bir model yaklaşık 14 GB RAM kullanırken, 13 milyar parametreli bir model için bu ihtiyaç 26 GB'a çıkabilir. Yetersiz RAM, sistemin yavaşlamasına ve yanıt sürelerinin uzamasına neden olur. Genel bir kural olarak, tek bir 7 milyar parametreli model için 32 GB RAM başlangıç için uygundur. Birden fazla modeli aynı anda çalıştırmayı düşünüyorsanız, toplam model boyutunun üzerine en az %30 ek bellek payı bırakmak iyi bir fikirdir.

VRAM Seçimi: GPU Belleğini Hesaplama

GPU tabanlı servislerde VRAM (Video RAM), en sık darboğaz yaratan bileşendir. Modelin ağırlıkları ve işlem sırasındaki geçici veriler VRAM'e sığmalıdır. Örneğin, 4-bit kuantize edilmiş 7 milyar parametreli bir model yaklaşık 5 GB VRAM kullanır. 12 GB VRAM'e sahip bir ekran kartı bu modeli rahatça çalıştırabilir ancak daha büyük modellerde sınırları zorlayabilir. VRAM dolduğunda sistem performansı düşer veya model yüklenmez. Bu nedenle, seçtiğiniz modelin kuantize edilmiş boyutunun en az 1,5 katı kadar VRAM kapasitesine sahip bir ekran kartı seçmek, sistem kararlılığı için önemlidir.

NVMe Seçimi: Hızlı Yükleme ve Performans

Model dosyaları genellikle büyük boyutludur ve bu dosyaların diskten RAM veya VRAM'e yüklenme süresi disk performansına bağlıdır. Geleneksel SATA SSD yerine NVMe Gen4 bir disk kullanmak, modelin yüklenme süresini saniyeler seviyesine indirebilir. Servis sırasında model bir kez yüklendikten sonra disk okuması azalsa da, sistemin swap (bellek yetmediğinde disk kullanımı) alanına ihtiyaç duyması durumunda hızlı bir NVMe diski, tüm sistemin kilitlenmesini önleyebilir. Minimum 3.000 MB/s okuma hızına sahip bir NVMe disk, modern bir model servis altyapısı için standart bir gerekliliktir.

Sonuç

Model servis altyapısı kurarken donanımı bir bütün olarak değerlendirmek en doğrusudur. CPU'yu kullanım şeklinize, RAM'i model boyutuna, VRAM'i GPU kapasitenize ve NVMe diski ise yükleme hızınıza göre seçmelisiniz. Küçük bir projeye başlıyorsanız, orta segment bir GPU, 32 GB RAM ve hızlı bir NVMe diski sizi uzun süre idare edecektir. İhtiyaçlarınız arttıkça donanımı kademeli olarak yükseltmek, başlangıçta aşırı harcama yapmaktan daha verimli bir yaklaşımdır.