Skip to main content
Interactive Tool ยท MLX-first

Local AI Capacity
Planner

Plan Qwen3.5 and Gemma-4 deployments on Apple Silicon (M1โ€“M5 Pro/Max/Ultra) and NVIDIA consumer GPUs. Calculate VRAM footprint, KV cache, concurrent agent capacity, and MLX token throughput โ€” before you commit.

๐Ÿค– Model

๐Ÿ–ฅ๏ธ Hardware

๐ŸŽ Apple Silicon ยท Unified Memory
๐ŸŸข NVIDIA Consumer GPUs (โ‰ฅ12 GB)

โš–๏ธ Quantization

Runtime / Framework

๐Ÿ”€ Concurrency & Context

1481216
4k8k16k32k64k128k
โœ…
Hardware Compatible
Fits with headroom
40% of RAM used โ€” GB used of โ€” GB
Model Weights
14.0 GB
Q4_K_M ยท 27B params
KV Cache Total
1.8 GB
2 agents ร— 16k ctx
Total Memory
15.8 GB
weights + KV overhead
MLX Speed
29 t/s
tokens/sec per agent

Breakdown

Agent Slots

๐Ÿ’ก Tips

    Quick Reference โ€” Q4_K_M Fit & MLX Speed

    Hardware RAM BW Qwen3.5-27B Qwen3.5-35B Gemma-4-26B Gemma-4-31B
    M4 Pro ยท 24 GB 24 GB 273 GB/s ~20 t/s โœ… ~16 t/s โœ… ~21 t/s โœ… ~18 t/s โœ…
    M4 Pro ยท 48 GB 48 GB 273 GB/s ~20 t/s โœ… ~16 t/s โœ… ~21 t/s โœ… ~18 t/s โœ…
    M3 Max ยท 36 GB 36 GB 400 GB/s ~30 t/s โœ… ~23 t/s โœ… ~31 t/s โœ… ~26 t/s โœ…
    M4 Max ยท 48 GB 48 GB 546 GB/s ~42 t/s โœ… ~32 t/s โœ… ~43 t/s โœ… ~36 t/s โœ…
    M2/M1 Max ยท 32 GB 32 GB 400 GB/s ~30 t/s โœ… ~23 t/s โœ… ~31 t/s โœ… ~26 t/s โœ…
    2ร— RTX 3060 ยท 24 GB 24 GB 720 GB/s* ~27 t/s โœ… ~21 t/s โœ… ~28 t/s โœ… ~23 t/s โœ…
    RTX 3080 Ti ยท 12 GB 12 GB 912 GB/s โŒ OOM โŒ OOM โŒ OOM โŒ OOM
    RTX 3090 ยท 24 GB 24 GB 936 GB/s ~35 t/s โœ… ~27 t/s โœ… ~36 t/s โœ… ~30 t/s โœ…
    RTX 4090 ยท 24 GB 24 GB 1008 GB/s ~37 t/s โœ… ~29 t/s โœ… ~39 t/s โœ… ~32 t/s โœ…
    2ร— RTX 3090 ยท 48 GB 48 GB 1872 GB/s ~69 t/s โœ… ~54 t/s โœ… ~72 t/s โœ… ~60 t/s โœ…

    * 2ร— RTX 3060 bandwidth is estimated for PCIe-shared split inference (llama.cpp tensor parallel). Not NVLink โ€” effective BW is lower than aggregate peak.
    MLX speeds are for Apple Silicon. NVIDIA speeds use vLLM/llama.cpp estimates at Q4_K_M. Actual results depend on batch size and system load.

    Need help designing a production local-AI stack for your team?

    Talk to Dataxad