Local Model Bench

Can local models survive private desktop work?

The practical benchmark for local LLMs doing synthetic paperwork, messy local folders, hidden oracles, visible outputs, and one constrained City Plan SVG sanity check.

Mistral Small 4

gemini-3.5-flash

88.9%Top practical

72.2%Top local model

9Scored cases

31City SVG runs

Infographic explaining the Local Model Bench workflow from synthetic documents to model artifacts and resolved, core pass, or fail outcomes

scoredThe Paperwork Trial

Synthetic invoice PNG scans plus bank exports, vendor records, purchase orders, and exact audit-result oracles.

23 runs · 23 models scoredPaperwork Workflow

Synthetic messy intake and email-attachment workflows with generated scans, protected sources, normalized artifacts, payment remapping, and hidden oracles.

23 runs · 23 models diagnosticPaperwork Text-Only

The same generated invoice cases, but with normalized text extracts instead of image input. This separates bookkeeping logic from document vision.

27 runs · shown as leaderboard mode visual sampleCity Plan SVG

A city-plan SVG prompt with roads, blocks, and 3D or isometric buildings. Valid vector output, no Markdown excuses.

31 runs · not part of overall score

City Plan SVG Outputs

A small visual sanity check: standalone SVG only, city blocks, roads, and 3D or isometric buildings.

open gallery

Mistral Small 4review · 2/3 checks

gemini-3.5-flashpass · 3/3 checks

Chrome Gemini Nanoreview · 2/3 checks

gpt-oss-20bpass · 3/3 checks

Latest Model Notes

Test reports that compare model positioning with observed benchmark behavior.

all notes

Gemma 4 12B Unified via LM Studio note infographic

run logJun 4, 2026Gemma 4 12B did not close

10% practical · 0/5 resolved · 1/5 core

MiniMax M3, MiniMax M2.7 note infographic

field noteJun 3, 2026MiniMax M3: long-loop failure

MiniMax M3 agent-loop failure · M2.7 builder / M3 reviewer workaround

MiniMax M3 Free via OpenCode Zen note infographic

run logJun 1, 2026MiniMax M3 Free leads paperwork

88.9% practical · 8/9 resolved · 8/9 core

runtime noteMay 31, 2026Qwen3.6 MTP: speed versus artifacts

Methodology guide and benchmark context

Overall Leaderboard

Top public comparison rows. Practical Score = 50% resolved cases + 50% core passes across the current v1 paperwork suite. Local LM Studio runs were executed on a Mac mini M4 with 64 GB unified memory.

full benchmark tables methodology

Generated scans and messy workflow folders. This is the main public comparison score.

Filter modelshide 0%10 of 23 shown

OKnear miss / core passfail

Swipe sideways to see all columns.

Rank	Model	Type	Practical	Resolved	Core	Tried	Case Matrix
1	opencode/minimax-m3-freedetails	api cheap	88.9%	8/9	8/9	9/9	P01OK P02OK P03FAIL P04OK P05OK W04OK W05OK W06OK W07OK
2	OpenAI GPT-5.5 (Codex CLI)details	reference	83.3%	7/9	8/9	9/9	P01OK P02CORE P03OK P04OK P05FAIL W04OK W05OK W06OK W07OK
3	OpenAI GPT-5.4 Mini (Codex CLI)details	reference	77.8%	7/9	7/9	9/9	P01OK P02OK P03OK P04OK P05OK W04FAIL W05FAIL W06OK W07OK
4	qwen3.6-27bdetails	local	72.2%	5/9	8/9	9/9	P01OK P02CORE P03FAIL P04OK P05OK W04OK W05CORE W06OK W07CORE
5	gemma-4-26b-a4bdetails	local	61.1%	4/9	7/9	9/9	P01OK P02OK P03FAIL P04OK P05OK W04FAIL W05CORE W06CORE W07CORE
6	qwen3.6-35b-a3bdetails	local	38.9%	1/9	6/9	9/9	P01CORE P02FAIL P03FAIL P04CORE P05OK W04CORE W05CORE W06CORE W07FAIL
7	qwen3.6-flashdetails	api cheap	33.3%	0/9	6/9	9/9	P01CORE P02CORE P03FAIL P04CORE P05CORE W04CORE W05CORE W06FAIL W07FAIL
8	gemma-4-e4bdetails	local	27.8%	2/9	3/9	9/9	P01OK P02OK P03FAIL P04CORE P05FAIL W04FAIL W05FAIL W06FAIL W07FAIL
9	gemma-4-31b-itdetails	local	27.8%	0/9	5/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05FAIL W04FAIL W05CORE W06CORE W07CORE
10	gemini-3.1-flash-litedetails	api cheap	27.8%	0/9	5/9	9/9	P01FAIL P02CORE P03FAIL P04FAIL P05CORE W04FAIL W05CORE W06CORE W07CORE
11	gemini-2.5-flashdetails	api cheap	27.8%	0/9	5/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05FAIL W04FAIL W05CORE W06CORE W07CORE
12	Qwen3 VL 30B A3Bdetails	api cheap	27.8%	0/9	5/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05FAIL W04FAIL W05CORE W06CORE W07CORE
13	qwen3-vl-32b-instructdetails	api cheap	22.2%	0/9	4/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05FAIL W04FAIL W05CORE W06CORE W07FAIL
14	Seed 2.0 Minidetails	api cheap	22.2%	0/9	4/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05FAIL W04FAIL W05CORE W06FAIL W07CORE
15	Mistral Small 4details	api cheap	22.2%	0/9	4/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05CORE W04FAIL W05CORE W06FAIL W07FAIL
16	mistral-small-3.2details	local	16.7%	0/9	3/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05CORE W04FAIL W05FAIL W06FAIL W07FAIL
17	ministral-3-14bdetails	local	16.7%	0/9	3/9	9/9	P01CORE P02CORE P03FAIL P04FAIL P05FAIL W04FAIL W05FAIL W06FAIL W07CORE
18	gemma-4-12bdetails	local	5.6%	0/9	1/9	9/9	P01FAIL P02CORE P03FAIL P04FAIL P05FAIL W04-W05-W06-W07-
19	gemma-4-e2bdetails	local	0.0%	0/9	0/9	9/9	P01FAIL P02FAIL P03FAIL P04FAIL P05FAIL W04FAIL W05FAIL W06FAIL W07FAIL
20	qwen3-vl-8b-instructdetails	local	0.0%	0/9	0/9	9/9	P01FAIL P02FAIL P03FAIL P04FAIL P05FAIL W04FAIL W05FAIL W06FAIL W07FAIL
21	qwen3-14bdetails	local	0.0%	0/9	0/9	9/9	P01FAIL P02FAIL P03FAIL P04FAIL P05FAIL W04FAIL W05FAIL W06FAIL W07FAIL
22	nemotron-3-nano-omni-30b-a3b-reasoning:freedetails	api cheap	0.0%	0/9	0/9	9/9	P01FAIL P02FAIL P03FAIL P04FAIL P05FAIL W04FAIL W05FAIL W06FAIL W07FAIL
23	ministral-3-3bdetails	local	0.0%	0/9	0/9	9/9	P01FAIL P02FAIL P03FAIL P04FAIL P05FAIL W04FAIL W05FAIL W06FAIL W07FAIL
1	qwen3.6-27b-mtpdetails	local	100.0%	5/5	5/5	5/5	T01OK T02OK T03OK T04OK T05OK
2	qwen3.6-27bdetails	local	90.0%	4/5	5/5	5/5	T01OK T02OK T03CORE T04OK T05OK
3	qwen3.6-35b-a3bdetails	local	80.0%	4/5	4/5	5/5	T01OK T02OK T03FAIL T04OK T05OK
4	gemma-4-26b-a4bdetails	local	70.0%	3/5	4/5	5/5	T01CORE T02OK T03FAIL T04OK T05OK
5	OpenAI GPT-5.5 (Codex CLI)details	reference	60.0%	2/5	4/5	5/5	T01CORE T02FAIL T03CORE T04OK T05OK
6	OpenAI GPT-5.4 Mini (Codex CLI)details	reference	60.0%	3/5	3/5	5/5	T01OK T02FAIL T03FAIL T04OK T05OK
7	gemma-4-e2bdetails	local	60.0%	3/5	3/5	5/5	T01OK T02OK T03FAIL T04FAIL T05OK
8	gemini-3.5-flashdetails	local	50.0%	2/5	3/5	5/5	T01OK T02OK T03FAIL T04FAIL T05CORE
9	gemma-4-e4bdetails	local	50.0%	0/5	5/5	5/5	T01CORE T02CORE T03CORE T04CORE T05CORE
10	microsoft/phi-4-reasoning-plusdetails	local	40.0%	2/5	2/5	5/5	T01FAIL T02FAIL T03FAIL T04OK T05OK
11	Qwen3.7 Maxdetails	api cheap	40.0%	0/5	4/5	5/5	T01CORE T02CORE T03FAIL T04CORE T05CORE
12	gpt-oss-20bdetails	local	30.0%	0/5	3/5	5/5	T01CORE T02CORE T03FAIL T04CORE T05FAIL
13	ollama-gpt-oss-20bdetails	local	30.0%	0/5	3/5	5/5	T01CORE T02CORE T03FAIL T04CORE T05FAIL
14	gemma-4-31b-itdetails	local	30.0%	0/5	3/5	5/5	T01CORE T02CORE T03FAIL T04FAIL T05CORE
15	qwen3.6-flashdetails	api cheap	20.0%	0/5	2/5	5/5	T01CORE T02CORE T03FAIL T04FAIL T05FAIL
16	Granite 4.1 8Bdetails	api cheap	10.0%	0/5	1/5	5/5	T01FAIL T02CORE T03FAIL T04FAIL T05FAIL
17	ollama-mistral-small-24bdetails	local	10.0%	0/5	1/5	5/5	T01FAIL T02CORE T03FAIL T04FAIL T05FAIL
18	ministral-3-14bdetails	local	10.0%	0/5	1/5	5/5	T01FAIL T02CORE T03FAIL T04FAIL T05FAIL
19	mistral-small-3.2details	local	10.0%	0/5	1/5	5/5	T01FAIL T02CORE T03FAIL T04FAIL T05FAIL
20	Chrome Gemini Nanodetails	browser	10.0%	0/5	1/5	5/5	T01CORE T02FAIL T03FAIL T04FAIL T05FAIL
21	Apple Foundation Modeldetails	system	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL
22	liquid/lfm2-24b-a2bdetails	local	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL
23	qwen3-vl-4bdetails	local	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL
24	qwen3-vl-8b-instructdetails	local	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL
25	qwen3-14bdetails	local	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL
26	gemma-3n-e4bdetails	local	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL
27	microsoft/phi-4details	local	0.0%	0/5	0/5	5/5	T01FAIL T02FAIL T03FAIL T04FAIL T05FAIL

Can local models survive private desktop work?

City Plan SVG Outputs

Latest Model Notes

Overall Leaderboard

opencode/minimax-m3-free

OpenAI GPT-5.5 (Codex CLI)

OpenAI GPT-5.4 Mini (Codex CLI)

qwen3.6-27b

gemma-4-26b-a4b

qwen3.6-35b-a3b

qwen3.6-flash

gemma-4-e4b

gemma-4-31b-it

gemini-3.1-flash-lite

gemini-2.5-flash

Qwen3 VL 30B A3B

qwen3-vl-32b-instruct

Seed 2.0 Mini

Mistral Small 4

mistral-small-3.2

ministral-3-14b

gemma-4-12b

gemma-4-e2b

qwen3-vl-8b-instruct

qwen3-14b

nemotron-3-nano-omni-30b-a3b-reasoning:free

ministral-3-3b

qwen3.6-27b-mtp

qwen3.6-27b

qwen3.6-35b-a3b

gemma-4-26b-a4b

OpenAI GPT-5.5 (Codex CLI)

OpenAI GPT-5.4 Mini (Codex CLI)

gemma-4-e2b

gemini-3.5-flash

gemma-4-e4b

microsoft/phi-4-reasoning-plus

Qwen3.7 Max

gpt-oss-20b

ollama-gpt-oss-20b

gemma-4-31b-it

qwen3.6-flash

Granite 4.1 8B

ollama-mistral-small-24b

ministral-3-14b

mistral-small-3.2

Chrome Gemini Nano

Apple Foundation Model

liquid/lfm2-24b-a2b

qwen3-vl-4b

qwen3-vl-8b-instruct

qwen3-14b

gemma-3n-e4b

microsoft/phi-4