O
Openai 5. 3. 2026

OpenAI: GPT-5.4

openai/gpt-5.4

GPT-5.4 je nový standard pro 'heavy-lifting' v oblasti vývoje softwaru a analýzy dat, nabízející nejlepší poměr mezi schopnostmi kódování a cenou na trhu high-end modelů.

Killer Feature Sjednocení Codex schopností s 1M kontextem a 128k výstupem umožňuje generovat celé aplikace na jeden prompt.
Skryté riziko Model může být 'overkill' (zbytečně drahý) pro běžné konverzační úlohy, kde stačí modely třídy Flash/Haiku.
$2.5 / 1M vstup
$15 / 1M výstup
1.1M kontext
128k max výstup
textimagefile text Softwarové inženýrstvíAnalýza dlouhých dokumentůMultimodální reasoning

📊 VibeCode skóre

78 / 100
Coding (váha 60 %) 80.5
Reasoning (váha 30 %) 65.9
Kontext (váha 10 %) 99.7

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality
80.5
agregát 7 sub-testů
Vibe
75.3
celkový dojem
UI
65.7
generování UI
Security
84.4
detekce zranitelností
Debugging
85.6
ladění chyb
Refactoring
63.4
zlepšení kódu
Hallucination
72.8
odolnost vůči halucinacím
BS detection
91.5
odhalení nesmyslů
Reasoning
40.6
30 těžkých úloh (jiná škála)
Speed
88 tok/s
tokenová rychlost

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark Kategorie Skóre Zdroj
Aider Polyglot coding 66.2% ↗ nezávislý
SWE-bench Verified coding 78.2% ↗ nezávislý
LiveCodeBench coding 70.8% ↗ nezávislý
HumanEval coding 93.1% ↗ nezávislý
GPQA Diamond reasoning 92% ↗ nezávislý
MMLU-Pro reasoning 87.48% ↗ nezávislý
Humanity’s Last Exam reasoning 10.67% ↗ nezávislý

Found benchmark scores for GPT-5.4 across independent leaderboards like Vals AI, Artificial Analysis, and various April 2026 benchmark breakdowns. Some specific agent benchmarks (TAU-bench, MMAU) and older math benchmarks (AIME 2024) were not publicly available for this exact model.

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Openai GPT-5.4
← Právě prohlížíte
Anthropic Claude Sonnet 4.6
GPT-5.4 je o 17 % levnější na vstupu ($2.50 vs $3.00), výstup je shodný. Hlavní rival. Sonnet 4.6 typicky exceluje v nuancích přirozeného jazyka, zatímco GPT-5.4 vede v technické implementaci a kódování.
Gemini je levnější ($2.00 vs $2.50 input, $12.00 vs $15.00 output). Gemini nabízí srovnatelný kontext za nižší cenu, ale GPT-5.4 historicky nabízí spolehlivější dodržování instrukcí (instruction following) u složitých agentních úloh.
MistralAI Devstral 2512
Devstral je výrazně levnější ($0.40 vs $2.50 input). Devstral je specialista čistě na kód. GPT-5.4 vítězí v multimodálním chápání a obrovském kontextu, Devstral v poměru cena/výkon pro čistý kód.

🎯 Rozhodovací pomocník

Použij když...

  • Generování komplexních softwarových modulů
  • Analýza rozsáhlých technických dokumentací
  • Multimodální agentní workflow

Nepoužívej když...

  • Jednoduché chatboty pro zákaznickou podporu (drahé)
  • Real-time aplikace vyžadující sub-100ms latenci
Ideální pro:
Softwaroví inženýřiData analyticiEnterprise vývojáři

💪 Silné a slabé stránky

+ Silné stránky

Programování a Codex integrace

Díky fúzi s Codexem dosahuje model produkční kvality kódu a schopnosti řešit komplexní softwarové úlohy lépe než předchozí GPT-4o, s důrazem na minimalizaci iterací.

Výstupní kapacita

Limit 128 000 tokenů na výstupu (output) je klíčový pro generování celých softwarových modulů nebo rozsáhlých reportů, kde konkurence často končí na 4k-8k tokenech.

Efektivita workflow

Schopnost zpracovat text, obraz i soubory v jednom vlákně s vysokou přesností tool-use redukuje potřebu řetězení více modelů.

Slabé stránky

Cenová efektivita pro jednoduché úlohy

S cenou $2.50/1M input je model 10x dražší než Google Gemini 3.1 Flash Lite nebo X-AI Grok, což jej činí nevhodným pro vysokoobjemové jednoduché klasifikace.

Střední třída v rámci rodiny

Existence modelu GPT-5.4 Pro (který je 12x dražší) naznačuje, že GPT-5.4 má uměle omezené schopnosti v oblasti nejhlubšího logického usuzování (deep reasoning).

📝 Detailní popis

GPT-5.4 je nejnovější model OpenAI na hranici možností, který sjednocuje řady Codex a GPT do jediného systému. Nabízí kontextové okno s více než 1 milionem tokenů (922 tisíc vstupních, 128 tisíc výstupních) s podporou textových a obrazových vstupů, což umožňuje vysoce kontextové usuzování, kódování a multimodální analýzu v rámci jednoho pracovního postupu.

Model poskytuje vylepšený výkon v kódování, porozumění dokumentům, používání nástrojů a dodržování instrukcí. Je navržen jako silná výchozí volba pro všeobecné úkoly i softwarové inženýrství, schopný generovat kód v produkční kvalitě, syntetizovat informace z více zdrojů a provádět komplexní vícestupňové pracovní postupy s menším počtem iterací a vyšší tokenovou efektivitou.

Unikátní charakteristiky

GPT-5.4 představuje strategické sjednocení specializované řady Codex a univerzální řady GPT do jednoho modelu s kontextem přes 1 milion tokenů. Model je optimalizován pro ‘high-context’ úlohy s nadstandardním limitem výstupních tokenů (128k), což umožňuje generování rozsáhlých bloků kódu nebo textu v jediném průchodu.

Silné stránky

Programování a Codex integrace

Díky fúzi s Codexem dosahuje model produkční kvality kódu a schopnosti řešit komplexní softwarové úlohy lépe než předchozí GPT-4o, s důrazem na minimalizaci iterací.

Výstupní kapacita

Limit 128 000 tokenů na výstupu (output) je klíčový pro generování celých softwarových modulů nebo rozsáhlých reportů, kde konkurence často končí na 4k-8k tokenech.

Efektivita workflow

Schopnost zpracovat text, obraz i soubory v jednom vlákně s vysokou přesností tool-use redukuje potřebu řetězení více modelů.

Slabé stránky

Cenová efektivita pro jednoduché úlohy

S cenou $2.50/1M input je model 10x dražší než Google Gemini 3.1 Flash Lite nebo X-AI Grok, což jej činí nevhodným pro vysokoobjemové jednoduché klasifikace.

Střední třída v rámci rodiny

Existence modelu GPT-5.4 Pro (který je 12x dražší) naznačuje, že GPT-5.4 má uměle omezené schopnosti v oblasti nejhlubšího logického usuzování (deep reasoning).

🔗 Další modely od Openai