xAI 31. 3. 2026

xAI: Grok 4.20

Item: xAI: Grok 4.20
Author: Patrick Zandl

x-ai/grok-4.20

Grok 4.20 je vysoce výkonný vlajkový model, který exceluje v úlohách vyžadujících obrovský kontext a přesné agentní schopnosti, přičemž si zachovává velmi konkurenceschopnou cenu vůči ostatním prémiovým modelům na trhu.

✦

Killer Feature Možnost dynamicky přepínat fázi logického uvažování (reasoning) v kombinaci s masivním 2M kontextovým oknem.

⚠

Skryté riziko Vyšší cena za výstupní tokeny ($6.00/1M) může při generování velmi dlouhých odpovědí nebo při zacyklení agenta nečekaně prodražit provoz.

$2 / 1M vstup

$6 / 1M výstup

2.0M kontext

Vyzkoušet na OpenRouter

textimage text Agentní systémy a volání nástrojůZpracování masivního kontextuRedukce halucinací

📊 VibeCode skóre

79.8 / 100

Coding (váha 60 %) 79.7

Reasoning (váha 30 %) 73.4

Kontext (váha 10 %) 100

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 2 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality

79.7

agregát 7 sub-testů

Vibe

81.8

celkový dojem

65.3

generování UI

Security

76.3

detekce zranitelností

Debugging

86.3

ladění chyb

Refactoring

67.6

zlepšení kódu

Hallucination

76.1

odolnost vůči halucinacím

Reasoning

30 těžkých úloh (jiná škála)

Speed

243 tok/s

tokenová rychlost

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark	Kategorie	Skóre	Zdroj
GPQA Diamond	reasoning	91.1%	↗ nezávislý
Humanity’s Last Exam	reasoning	32.2%	↗ nezávislý

Found benchmark data for the exact x-ai/grok-4.20 model on Artificial Analysis. GPQA Diamond is reported at 91.1% and Humanity's Last Exam (HLE) at 32.2%. Other specific requested benchmarks like SWE-bench Verified, LiveCodeBench, and Aider Polyglot were either not published for this exact base model or only available for the Multi-Agent Beta variant, so they have been left null.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
xAI Grok 4.20	← Právě prohlížíte	—
Anthropic Claude Sonnet 4.6	Grok 4.20 je o 33 % levnější na vstupu ($2 vs $3) a o 60 % levnější na výstupu ($6 vs $15).	Sonnet 4.6 je tradičně silný v analytických úlohách a kódování, ale Grok 4.20 nabízí dvojnásobné kontextové okno (2M vs 1M) a výrazně nižší cenu, což ho činí vhodnějším pro masivní RAG aplikace.
xAI Grok 4.20 Multi-Agent	Cena je identická ($2.00 vstup / $6.00 výstup).	Základní Grok 4.20 je univerzálnější a lépe optimalizovaný pro přímé dotazování a analýzu, zatímco multi-agent verze je specializovaná na orchestraci složitých systémů s více nezávislými agenty.
OpenAI GPT-5.4-mini	GPT-5.4-mini je výrazně levnější ($0.75/$4.50 vs $2.00/$6.00).	GPT-5.4-mini je vhodnější pro jednodušší a vysokoobjemové úlohy s omezeným rozpočtem. Grok 4.20 však nabízí 5x větší kontext (2M vs 400k) a pokročilejší schopnosti uvažování, což ospravedlňuje jeho vyšší cenu u komplexních úloh.

🎯 Rozhodovací pomocník

✓

Použij když...

Komplexní RAG (Retrieval-Augmented Generation) systémy nad velkými daty
Autonomní agenti vyžadující přesné volání externích API
Hloubková analýza a refaktoring rozsáhlých kódových bází

✗

Nepoužívej když...

Jednoduché chatovací boty s vysokým objemem provozu a nízkým rozpočtem
Úlohy vyžadující generování nebo analýzu audia a videa

Ideální pro:

Vývojáři AI agentů a automatizačních workflowDatoví analytici a výzkumníciSoftwaroví inženýři pracující s velkými repozitáři

💪 Silné a slabé stránky

+ Silné stránky

Kontextové okno

Kapacita 2 000 000 tokenů umožňuje jednorázovou analýzu rozsáhlých kódových bází, celých knih nebo komplexních firemních dokumentací bez nutnosti segmentace.

Agentní schopnosti

Vysoká spolehlivost při volání nástrojů (tool calling) a striktní dodržování systémových instrukcí (prompt adherence) činí model ideálním pro autonomní agenty.

Flexibilita uvažování

Volitelný parametr 'reasoning' umožňuje vývojářům zvolit mezi rychlejší standardní inferencí a hlubší analytickou úvahou.

− Slabé stránky

Cena výstupu

Cena $6.00 za milion výstupních tokenů je relativně vysoká, což může prodražit úlohy zaměřené na generování dlouhých textů.

Omezená multimodalita

Model podporuje pouze text a obraz na vstupu, chybí nativní podpora pro zpracování audia nebo videa, kterou některé konkurenční modely nabízejí.

📝 Detailní popis

Grok 4.20 je nejnovější vlajková loď společnosti xAI s rychlostí, která udává směr v oboru, a schopnostmi agentního volání nástrojů. Kombinuje nejnižší míru halucinací na trhu s přísným dodržováním promptů, čímž poskytuje konzistentně přesné a pravdivé odpovědi.

Usuzování lze povolit/zakázat pomocí parametru reasoning enabled v API. Více informací v naší dokumentaci

Unikátní charakteristiky

Grok 4.20 je vlajkový model společnosti xAI, který kombinuje obrovské kontextové okno o velikosti 2 milionů tokenů s nativní podporou pro přesné volání nástrojů. Unikátní vlastností je možnost dynamicky zapínat a vypínat fázi logického uvažování (reasoning) přímo přes API, což umožňuje optimalizovat latenci a výpočetní výkon podle konkrétní úlohy.

Silné stránky

Kontextové okno