דלג לתוכן העיקרי
כלי אינטראקטיבי · MLX-first

מחשבון קיבולת
AI מקומי

תכנן הרצת Qwen3.5 ו-Gemma-4 על Apple Silicon (M1–M5 Pro/Max/Ultra) ו-NVIDIA RTX. חשב טביעת VRAM, מטמון KV, קיבולת סוכנים מקבילים ומהירות MLX — לפני שאתה מחליט.

החומרה תואמת
ניתן להריץ עם רווח
— GB מתוך — GB 40% מהזיכרון
משקל הדגם
14.0 GB
Q4_K_M · 27B פרמטרים
מטמון KV סה"כ
1.8 GB
2 סוכנים × 16k הקשר
זיכרון כולל
15.8 GB
משקל + מטמון KV
מהירות MLX
29 t/s
טוקן/שנ לסוכן

פירוט

חריצי סוכנים

💡 המלצות

    🤖 בחירת דגם

    🖥️ חומרה

    🍎 Apple Silicon · זיכרון אחוד
    🟢 NVIDIA Consumer GPUs (≥12 GB)

    ⚖️ כימות (Quantization) וזמן ריצה

    זמן ריצה

    🔀 מקביליות והקשר

    4k8k16k32k64k128k

    טבלת עזר — התאמה ומהירות ב-Q4_K_M

    חומרה RAM BW Qwen3.5-27B Qwen3.5-35B Gemma-4-26B Gemma-4-31B
    M4 Pro · 24 GB 24 GB 273 GB/s ~20 t/s ✅ ~16 t/s ✅ ~21 t/s ✅ ~18 t/s ✅
    M3 Max · 36 GB 36 GB 400 GB/s ~30 t/s ✅ ~23 t/s ✅ ~31 t/s ✅ ~26 t/s ✅
    M4 Max · 48 GB 48 GB 546 GB/s ~42 t/s ✅ ~32 t/s ✅ ~43 t/s ✅ ~36 t/s ✅
    M2/M1 Max · 32 GB 32 GB 400 GB/s ~30 t/s ✅ ~23 t/s ✅ ~31 t/s ✅ ~26 t/s ✅
    2× RTX 3060 · 24 GB 24 GB 720 GB/s* ~27 t/s ✅ ~21 t/s ✅ ~28 t/s ✅ ~23 t/s ✅
    RTX 3080 Ti · 12 GB 12 GB 912 GB/s ❌ OOM ❌ OOM ❌ OOM ❌ OOM
    RTX 3090 · 24 GB 24 GB 936 GB/s ~35 t/s ✅ ~27 t/s ✅ ~36 t/s ✅ ~30 t/s ✅
    RTX 4090 · 24 GB 24 GB 1008 GB/s ~37 t/s ✅ ~29 t/s ✅ ~39 t/s ✅ ~32 t/s ✅
    2× RTX 3090 · 48 GB 48 GB 1872 GB/s ~69 t/s ✅ ~54 t/s ✅ ~72 t/s ✅ ~60 t/s ✅

    * 2× RTX 3060 — רוחב פס משוער לשיתוף PCIe (llama.cpp tensor parallel). לא NVLink — רוחב פס אפקטיבי נמוך מהשיא המצטבר.

    צריך עזרה בתכנון תשתית AI מקומית לצוות שלך?

    דבר עם Dataxad