Item: Inception: Mercury 2
Author: Patrick Zandl

📊 VibeCode skóre

63.2 / 100

Coding (váha 60 %) 67.3

Reasoning (váha 30 %) 52.8

Kontext (váha 10 %) 69.5

Spolehlivost medium. Coding složka je vážený průměr 1 publikovaných coding benchmarků níže. Reasoning složka z 2 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🎯 Publikované benchmarky

Benchmark	Kategorie	Skóre	Zdroj
LiveCodeBench	coding	67.3%	↗ nezávislý
GPQA Diamond	reasoning	77%	↗ nezávislý
Humanity’s Last Exam	reasoning	15.5%	↗ nezávislý

Found benchmark scores for Inception: Mercury 2 from independent aggregators like Artificial Analysis, OpenRouter, and The Neuron. Scores for GPQA Diamond, Humanity's Last Exam (HLE), and LiveCodeBench were explicitly listed. Other requested benchmarks like SWE-bench, AIME 2024 (only AIME 2025 was available), and specific TAU-bench domains (retail/airline) were not publicly available for this exact model.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Inception Mercury 2	← Právě prohlížíte	—
Google Gemini 3.1 Flash Lite Preview	Stejná cena vstupu ($0.25), ale Mercury má 2x levnější výstup ($0.75 vs $1.50)	Gemini nabízí 8x větší kontext (1M) a multimodalitu, Mercury 2 kontruje vyšší rychlostí generování a lepším zaměřením na kód.
xAI Grok 4.1 Fast	Grok je mírně levnější ($0.20/$0.50 vs $0.25/$0.75)	Grok dominuje v kontextu (2M), ale Mercury 2 nabízí 'tunable reasoning' a pravděpodobně nižší latenci pro real-time hlasové aplikace.
DeepSeek DeepSeek v3.2	Velmi podobná cena, DeepSeek je levnější na výstupu ($0.40)	DeepSeek je silný univerzální model, Mercury se specificky vymezuje architekturou dLLM pro scénáře vyžadující extrémní propustnost.

🎯 Rozhodovací pomocník

✓

Použij když...

Real-time generování kódu (autocomplete)
Hlasové konverzační rozhraní s nízkou latencí
Komplexní agentní smyčky vyžadující JSON

✗

Nepoužívej když...

Analýza rozsáhlých dokumentů (>100 stran)
Úlohy vyžadující analýzu obrázků

Ideální pro:

Vývojáři AI agentůPlatformy pro hlasovou asistenciSaaS nástroje pro generování kódu

💪 Silné a slabé stránky

+ Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

− Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.

📝 Detailní popis

Mercury 2 je extrémně rychlý LLM pro usuzování a první difuzní LLM (dLLM) pro usuzování. Namísto sekvenčního generování tokenů, Mercury 2 produkuje a vylepšuje více tokenů paralelně, čímž dosahuje >1 000 tokenů/s na standardních GPU. Mercury 2 je 5x+ rychlejší než přední LLM optimalizované pro rychlost, jako jsou Claude 4.5 Haiku a GPT 5 Mini, za zlomek nákladů. Mercury 2 podporuje laditelné úrovně usuzování, kontext 128K, nativní používání nástrojů a JSON výstup zarovnaný se schématem. Vytvořen pro pracovní postupy kódování, kde se latence kumuluje, hlasové vyhledávání/vyhledávání v reálném čase a smyčky agentů. Kompatibilní s OpenAI API. Více informací v blogovém příspěvku.

Unikátní charakteristiky

Mercury 2 využívá inovativní architekturu difuzního LLM (dLLM), která nahrazuje sekvenční predikci tokenů paralelním zjemňováním celých sekvencí. Tento přístup umožňuje dosahovat rychlosti přes 1 000 tokenů za sekundu při zachování schopností usuzování (reasoning).

Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.