כלי אינטראקטיבי · MLX-first
מחשבון קיבולת
AI מקומי
תכנן הרצת Qwen3.5 ו-Gemma-4 על Apple Silicon (M1–M5 Pro/Max/Ultra) ו-NVIDIA RTX. חשב טביעת VRAM, מטמון KV, קיבולת סוכנים מקבילים ומהירות MLX — לפני שאתה מחליט.
משקל הדגם
14.0 GB
Q4_K_M · 27B פרמטרים
מטמון KV סה"כ
1.8 GB
2 סוכנים × 16k הקשר
זיכרון כולל
15.8 GB
משקל + מטמון KV
מהירות MLX
29 t/s
טוקן/שנ לסוכן
פירוט
חריצי סוכנים
💡 המלצות
🤖 בחירת דגם
🖥️ חומרה
🍎 Apple Silicon · זיכרון אחוד
🟢 NVIDIA Consumer GPUs (≥12 GB)
⚖️ כימות (Quantization) וזמן ריצה
זמן ריצה
🔀 מקביליות והקשר
4k8k16k32k64k128k
טבלת עזר — התאמה ומהירות ב-Q4_K_M
| חומרה | RAM | BW | Qwen3.5-27B | Qwen3.5-35B | Gemma-4-26B | Gemma-4-31B |
|---|---|---|---|---|---|---|
| M4 Pro · 24 GB | 24 GB | 273 GB/s | ~20 t/s ✅ | ~16 t/s ✅ | ~21 t/s ✅ | ~18 t/s ✅ |
| M3 Max · 36 GB | 36 GB | 400 GB/s | ~30 t/s ✅ | ~23 t/s ✅ | ~31 t/s ✅ | ~26 t/s ✅ |
| M4 Max · 48 GB | 48 GB | 546 GB/s | ~42 t/s ✅ | ~32 t/s ✅ | ~43 t/s ✅ | ~36 t/s ✅ |
| M2/M1 Max · 32 GB | 32 GB | 400 GB/s | ~30 t/s ✅ | ~23 t/s ✅ | ~31 t/s ✅ | ~26 t/s ✅ |
| 2× RTX 3060 · 24 GB | 24 GB | 720 GB/s* | ~27 t/s ✅ | ~21 t/s ✅ | ~28 t/s ✅ | ~23 t/s ✅ |
| RTX 3080 Ti · 12 GB | 12 GB | 912 GB/s | ❌ OOM | ❌ OOM | ❌ OOM | ❌ OOM |
| RTX 3090 · 24 GB | 24 GB | 936 GB/s | ~35 t/s ✅ | ~27 t/s ✅ | ~36 t/s ✅ | ~30 t/s ✅ |
| RTX 4090 · 24 GB | 24 GB | 1008 GB/s | ~37 t/s ✅ | ~29 t/s ✅ | ~39 t/s ✅ | ~32 t/s ✅ |
| 2× RTX 3090 · 48 GB | 48 GB | 1872 GB/s | ~69 t/s ✅ | ~54 t/s ✅ | ~72 t/s ✅ | ~60 t/s ✅ |
* 2× RTX 3060 — רוחב פס משוער לשיתוף PCIe (llama.cpp tensor parallel). לא NVLink — רוחב פס אפקטיבי נמוך מהשיא המצטבר.
צריך עזרה בתכנון תשתית AI מקומית לצוות שלך?
דבר עם Dataxad