Openai 5. 3. 2026

OpenAI: GPT-5.4

Item: OpenAI: GPT-5.4
Author: Patrick Zandl

openai/gpt-5.4

GPT-5.4 je nový standard pro 'heavy-lifting' v oblasti vývoje softwaru a analýzy dat, nabízející nejlepší poměr mezi schopnostmi kódování a cenou na trhu high-end modelů.

Související analýza Kimi K2.6: model otevřených vah, který mění otázku, jak vybírat mezi AI modely 21. 4. 2026 Claude Opus 4.7 - technologicky marginální, strategicky stěžejní 16. 4. 2026 Muse Spark: Meta se vrací do hry – ale do jaké? 9. 4. 2026 GLM-5.1: open-source alternativa k Opusu 7. 4. 2026

✦

Killer Feature Sjednocení Codex schopností s 1M kontextem a 128k výstupem umožňuje generovat celé aplikace na jeden prompt.

⚠

Skryté riziko Model může být 'overkill' (zbytečně drahý) pro běžné konverzační úlohy, kde stačí modely třídy Flash/Haiku.

$2.5 / 1M vstup

$15 / 1M výstup

1.1M kontext

128k max výstup

Vyzkoušet na OpenRouter

textimagefile text Softwarové inženýrstvíAnalýza dlouhých dokumentůMultimodální reasoning

📊 VibeCode skóre

78 / 100

Coding (váha 60 %) 80.5

Reasoning (váha 30 %) 65.9

Kontext (váha 10 %) 99.7

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality

80.5

agregát 7 sub-testů

Vibe

75.3

celkový dojem

65.7

generování UI

Security

84.4

detekce zranitelností

Debugging

85.6

ladění chyb

Refactoring

63.4

zlepšení kódu

Hallucination

72.8

odolnost vůči halucinacím

BS detection

91.5

odhalení nesmyslů

Reasoning

40.6

30 těžkých úloh (jiná škála)

Speed

88 tok/s

tokenová rychlost

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark	Kategorie	Skóre	Zdroj
Aider Polyglot	coding	66.2%	↗ nezávislý
SWE-bench Verified	coding	78.2%	↗ nezávislý
LiveCodeBench	coding	70.8%	↗ nezávislý
HumanEval	coding	93.1%	↗ nezávislý
GPQA Diamond	reasoning	92%	↗ nezávislý
MMLU-Pro	reasoning	87.48%	↗ nezávislý
Humanity’s Last Exam	reasoning	10.67%	↗ nezávislý

Found benchmark scores for GPT-5.4 across independent leaderboards like Vals AI, Artificial Analysis, and various April 2026 benchmark breakdowns. Some specific agent benchmarks (TAU-bench, MMAU) and older math benchmarks (AIME 2024) were not publicly available for this exact model.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Openai GPT-5.4	← Právě prohlížíte	—
Anthropic Claude Sonnet 4.6	GPT-5.4 je o 17 % levnější na vstupu ($2.50 vs $3.00), výstup je shodný.	Hlavní rival. Sonnet 4.6 typicky exceluje v nuancích přirozeného jazyka, zatímco GPT-5.4 vede v technické implementaci a kódování.
Google Gemini 3.1 Pro Preview	Gemini je levnější ($2.00 vs $2.50 input, $12.00 vs $15.00 output).	Gemini nabízí srovnatelný kontext za nižší cenu, ale GPT-5.4 historicky nabízí spolehlivější dodržování instrukcí (instruction following) u složitých agentních úloh.
MistralAI Devstral 2512	Devstral je výrazně levnější ($0.40 vs $2.50 input).	Devstral je specialista čistě na kód. GPT-5.4 vítězí v multimodálním chápání a obrovském kontextu, Devstral v poměru cena/výkon pro čistý kód.

🎯 Rozhodovací pomocník

✓

Použij když...

Generování komplexních softwarových modulů
Analýza rozsáhlých technických dokumentací
Multimodální agentní workflow

✗

Nepoužívej když...

Jednoduché chatboty pro zákaznickou podporu (drahé)
Real-time aplikace vyžadující sub-100ms latenci

Ideální pro:

Softwaroví inženýřiData analyticiEnterprise vývojáři

💪 Silné a slabé stránky

+ Silné stránky

Programování a Codex integrace

Díky fúzi s Codexem dosahuje model produkční kvality kódu a schopnosti řešit komplexní softwarové úlohy lépe než předchozí GPT-4o, s důrazem na minimalizaci iterací.

Výstupní kapacita

Limit 128 000 tokenů na výstupu (output) je klíčový pro generování celých softwarových modulů nebo rozsáhlých reportů, kde konkurence často končí na 4k-8k tokenech.

Efektivita workflow

Schopnost zpracovat text, obraz i soubory v jednom vlákně s vysokou přesností tool-use redukuje potřebu řetězení více modelů.

− Slabé stránky

Cenová efektivita pro jednoduché úlohy

S cenou $2.50/1M input je model 10x dražší než Google Gemini 3.1 Flash Lite nebo X-AI Grok, což jej činí nevhodným pro vysokoobjemové jednoduché klasifikace.

Střední třída v rámci rodiny

Existence modelu GPT-5.4 Pro (který je 12x dražší) naznačuje, že GPT-5.4 má uměle omezené schopnosti v oblasti nejhlubšího logického usuzování (deep reasoning).

📝 Detailní popis

GPT-5.4 je nejnovější model OpenAI na hranici možností, který sjednocuje řady Codex a GPT do jediného systému. Nabízí kontextové okno s více než 1 milionem tokenů (922 tisíc vstupních, 128 tisíc výstupních) s podporou textových a obrazových vstupů, což umožňuje vysoce kontextové usuzování, kódování a multimodální analýzu v rámci jednoho pracovního postupu.

Model poskytuje vylepšený výkon v kódování, porozumění dokumentům, používání nástrojů a dodržování instrukcí. Je navržen jako silná výchozí volba pro všeobecné úkoly i softwarové inženýrství, schopný generovat kód v produkční kvalitě, syntetizovat informace z více zdrojů a provádět komplexní vícestupňové pracovní postupy s menším počtem iterací a vyšší tokenovou efektivitou.

Unikátní charakteristiky

GPT-5.4 představuje strategické sjednocení specializované řady Codex a univerzální řady GPT do jednoho modelu s kontextem přes 1 milion tokenů. Model je optimalizován pro ‘high-context’ úlohy s nadstandardním limitem výstupních tokenů (128k), což umožňuje generování rozsáhlých bloků kódu nebo textu v jediném průchodu.

Silné stránky

Programování a Codex integrace