Interactive Tool ยท MLX-first
Local AI Capacity
Planner
Plan Qwen3.5 and Gemma-4 deployments on Apple Silicon (M1โM5 Pro/Max/Ultra) and NVIDIA consumer GPUs. Calculate VRAM footprint, KV cache, concurrent agent capacity, and MLX token throughput โ before you commit.
๐ค Model
๐ฅ๏ธ Hardware
๐ Apple Silicon ยท Unified Memory
๐ข NVIDIA Consumer GPUs (โฅ12 GB)
โ๏ธ Quantization
Runtime / Framework
๐ Concurrency & Context
1481216
4k8k16k32k64k128k
Model Weights
14.0 GB
Q4_K_M ยท 27B params
KV Cache Total
1.8 GB
2 agents ร 16k ctx
Total Memory
15.8 GB
weights + KV overhead
MLX Speed
29 t/s
tokens/sec per agent
Breakdown
Agent Slots
๐ก Tips
Quick Reference โ Q4_K_M Fit & MLX Speed
| Hardware | RAM | BW | Qwen3.5-27B | Qwen3.5-35B | Gemma-4-26B | Gemma-4-31B |
|---|---|---|---|---|---|---|
| M4 Pro ยท 24 GB | 24 GB | 273 GB/s | ~20 t/s โ | ~16 t/s โ | ~21 t/s โ | ~18 t/s โ |
| M4 Pro ยท 48 GB | 48 GB | 273 GB/s | ~20 t/s โ | ~16 t/s โ | ~21 t/s โ | ~18 t/s โ |
| M3 Max ยท 36 GB | 36 GB | 400 GB/s | ~30 t/s โ | ~23 t/s โ | ~31 t/s โ | ~26 t/s โ |
| M4 Max ยท 48 GB | 48 GB | 546 GB/s | ~42 t/s โ | ~32 t/s โ | ~43 t/s โ | ~36 t/s โ |
| M2/M1 Max ยท 32 GB | 32 GB | 400 GB/s | ~30 t/s โ | ~23 t/s โ | ~31 t/s โ | ~26 t/s โ |
| 2ร RTX 3060 ยท 24 GB | 24 GB | 720 GB/s* | ~27 t/s โ | ~21 t/s โ | ~28 t/s โ | ~23 t/s โ |
| RTX 3080 Ti ยท 12 GB | 12 GB | 912 GB/s | โ OOM | โ OOM | โ OOM | โ OOM |
| RTX 3090 ยท 24 GB | 24 GB | 936 GB/s | ~35 t/s โ | ~27 t/s โ | ~36 t/s โ | ~30 t/s โ |
| RTX 4090 ยท 24 GB | 24 GB | 1008 GB/s | ~37 t/s โ | ~29 t/s โ | ~39 t/s โ | ~32 t/s โ |
| 2ร RTX 3090 ยท 48 GB | 48 GB | 1872 GB/s | ~69 t/s โ | ~54 t/s โ | ~72 t/s โ | ~60 t/s โ |
* 2ร RTX 3060 bandwidth is estimated for PCIe-shared split inference (llama.cpp tensor parallel). Not NVLink โ effective BW is lower than aggregate peak.
MLX speeds are for Apple Silicon. NVIDIA speeds use vLLM/llama.cpp estimates at Q4_K_M. Actual results depend on batch size and system load.
Need help designing a production local-AI stack for your team?
Talk to Dataxad