כלי אינטראקטיבי · MLX-first

מחשבון קיבולת
AI מקומי

תכנן הרצת Qwen3.5 ו-Gemma-4 על Apple Silicon (M1–M5 Pro/Max/Ultra) ו-NVIDIA RTX. חשב טביעת VRAM, מטמון KV, קיבולת סוכנים מקבילים ומהירות MLX — לפני שאתה מחליט.

משקל הדגם

14.0 GB

Q4_K_M · 27B פרמטרים

מטמון KV סה"כ

1.8 GB

2 סוכנים × 16k הקשר

זיכרון כולל

15.8 GB

משקל + מטמון KV

מהירות MLX

29 t/s

טוקן/שנ לסוכן

פירוט

חריצי סוכנים

💡 המלצות

🤖 בחירת דגם

🖥️ חומרה

🍎 Apple Silicon · זיכרון אחוד

🟢 NVIDIA Consumer GPUs (≥12 GB)

⚖️ כימות (Quantization) וזמן ריצה

זמן ריצה

🔀 מקביליות והקשר

2 סוכנים מקבילים

16k טוקנים חלון הקשר

4k8k16k32k64k128k

טבלת עזר — התאמה ומהירות ב-Q4_K_M

חומרה	RAM	BW	Qwen3.5-27B	Qwen3.5-35B	Gemma-4-26B	Gemma-4-31B
M4 Pro · 24 GB	24 GB	273 GB/s	~20 t/s ✅	~16 t/s ✅	~21 t/s ✅	~18 t/s ✅
M3 Max · 36 GB	36 GB	400 GB/s	~30 t/s ✅	~23 t/s ✅	~31 t/s ✅	~26 t/s ✅
M4 Max · 48 GB	48 GB	546 GB/s	~42 t/s ✅	~32 t/s ✅	~43 t/s ✅	~36 t/s ✅
M2/M1 Max · 32 GB	32 GB	400 GB/s	~30 t/s ✅	~23 t/s ✅	~31 t/s ✅	~26 t/s ✅
2× RTX 3060 · 24 GB	24 GB	720 GB/s*	~27 t/s ✅	~21 t/s ✅	~28 t/s ✅	~23 t/s ✅
RTX 3080 Ti · 12 GB	12 GB	912 GB/s	❌ OOM	❌ OOM	❌ OOM	❌ OOM
RTX 3090 · 24 GB	24 GB	936 GB/s	~35 t/s ✅	~27 t/s ✅	~36 t/s ✅	~30 t/s ✅
RTX 4090 · 24 GB	24 GB	1008 GB/s	~37 t/s ✅	~29 t/s ✅	~39 t/s ✅	~32 t/s ✅
2× RTX 3090 · 48 GB	48 GB	1872 GB/s	~69 t/s ✅	~54 t/s ✅	~72 t/s ✅	~60 t/s ✅

* 2× RTX 3060 — רוחב פס משוער לשיתוף PCIe (llama.cpp tensor parallel). לא NVLink — רוחב פס אפקטיבי נמוך מהשיא המצטבר.

צריך עזרה בתכנון תשתית AI מקומית לצוות שלך?

דבר עם Dataxad

מחשבון קיבולת AI מקומי