I
Inception 4. 3. 2026

Inception: Mercury 2

inception/mercury-2

Mercury 2 je specializovaný nástroj pro vývojáře vyžadující extrémní rychlost a strukturované výstupy, který obětuje délku kontextu ve prospěch latence a propustnosti.

Killer Feature Architektura dLLM umožňující paralelní generování rychlostí >1 000 tokenů/s při zachování schopností usuzování.
Skryté riziko Jako první 'reasoning diffusion' model může vykazovat netypické halucinace nebo artefakty odlišné od standardních autoregresivních modelů.
$0.25 / 1M vstup
$0.75 / 1M výstup
128k kontext
50k max výstup
text text Extrémní rychlostAgentní systémyProgramování

📊 VibeCode skóre

63.2 / 100
Coding (váha 60 %) 67.3
Reasoning (váha 30 %) 52.8
Kontext (váha 10 %) 69.5

Spolehlivost medium. Coding složka je vážený průměr 1 publikovaných coding benchmarků níže. Reasoning složka z 2 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🎯 Publikované benchmarky

Benchmark Kategorie Skóre Zdroj
LiveCodeBench coding 67.3% ↗ nezávislý
GPQA Diamond reasoning 77% ↗ nezávislý
Humanity’s Last Exam reasoning 15.5% ↗ nezávislý

Found benchmark scores for Inception: Mercury 2 from independent aggregators like Artificial Analysis, OpenRouter, and The Neuron. Scores for GPQA Diamond, Humanity's Last Exam (HLE), and LiveCodeBench were explicitly listed. Other requested benchmarks like SWE-bench, AIME 2024 (only AIME 2025 was available), and specific TAU-bench domains (retail/airline) were not publicly available for this exact model.

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Inception Mercury 2
← Právě prohlížíte
Stejná cena vstupu ($0.25), ale Mercury má 2x levnější výstup ($0.75 vs $1.50) Gemini nabízí 8x větší kontext (1M) a multimodalitu, Mercury 2 kontruje vyšší rychlostí generování a lepším zaměřením na kód.
Grok je mírně levnější ($0.20/$0.50 vs $0.25/$0.75) Grok dominuje v kontextu (2M), ale Mercury 2 nabízí 'tunable reasoning' a pravděpodobně nižší latenci pro real-time hlasové aplikace.
DeepSeek DeepSeek v3.2
Velmi podobná cena, DeepSeek je levnější na výstupu ($0.40) DeepSeek je silný univerzální model, Mercury se specificky vymezuje architekturou dLLM pro scénáře vyžadující extrémní propustnost.

🎯 Rozhodovací pomocník

Použij když...

  • Real-time generování kódu (autocomplete)
  • Hlasové konverzační rozhraní s nízkou latencí
  • Komplexní agentní smyčky vyžadující JSON

Nepoužívej když...

  • Analýza rozsáhlých dokumentů (>100 stran)
  • Úlohy vyžadující analýzu obrázků
Ideální pro:
Vývojáři AI agentůPlatformy pro hlasovou asistenciSaaS nástroje pro generování kódu

💪 Silné a slabé stránky

+ Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.

📝 Detailní popis

Mercury 2 je extrémně rychlý LLM pro usuzování a první difuzní LLM (dLLM) pro usuzování. Namísto sekvenčního generování tokenů, Mercury 2 produkuje a vylepšuje více tokenů paralelně, čímž dosahuje >1 000 tokenů/s na standardních GPU. Mercury 2 je 5x+ rychlejší než přední LLM optimalizované pro rychlost, jako jsou Claude 4.5 Haiku a GPT 5 Mini, za zlomek nákladů. Mercury 2 podporuje laditelné úrovně usuzování, kontext 128K, nativní používání nástrojů a JSON výstup zarovnaný se schématem. Vytvořen pro pracovní postupy kódování, kde se latence kumuluje, hlasové vyhledávání/vyhledávání v reálném čase a smyčky agentů. Kompatibilní s OpenAI API. Více informací v blogovém příspěvku.

Unikátní charakteristiky

Mercury 2 využívá inovativní architekturu difuzního LLM (dLLM), která nahrazuje sekvenční predikci tokenů paralelním zjemňováním celých sekvencí. Tento přístup umožňuje dosahovat rychlosti přes 1 000 tokenů za sekundu při zachování schopností usuzování (reasoning).

Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.