Moonshotai 27. 1. 2026

MoonshotAI: Kimi K2.5

Item: MoonshotAI: Kimi K2.5
Author: Patrick Zandl

moonshotai/kimi-k2.5

Kimi K2.5 je specializovaný nástroj pro vývojáře vyžadující extrémní délku výstupu a vizuální porozumění; ekonomicky dává smysl tam, kde levnější modely selhávají v koherenci dlouhého generování.

✦

Killer Feature Symetrické kontextové okno 262k tokenů pro vstup i výstup - ideální pro generování celých projektů

⚠

Skryté riziko Vysoká cena výstupu ($3/1M) může být prohibitivní pro dlouhé generování

$0.6 / 1M vstup

$3 / 1M výstup

262k kontext

262k max výstup

Vyzkoušet na OpenRouter

textimage text Vizuální kódování (Visual Coding)Autonomní agentní systémyDlouhý výstupní kontext

📊 VibeCode skóre

49.4 / 100

Coding (váha 60 %) 26

Reasoning (váha 30 %) 86.1

Kontext (váha 10 %) 79.8

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality

agregát 7 sub-testů

Vibe

25.5

celkový dojem

37.6

generování UI

Security

12.9

detekce zranitelností

Debugging

60.9

ladění chyb

Refactoring

46.4

zlepšení kódu

Hallucination

67.2

odolnost vůči halucinacím

BS detection

65.5

odhalení nesmyslů

Reasoning

37.8

30 těžkých úloh (jiná škála)

Speed

73 tok/s

tokenová rychlost

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark	Kategorie	Skóre	Zdroj
SWE-bench Verified	coding	76.8%	↗ provider
LiveCodeBench	coding	85%	↗ provider
GPQA Diamond	reasoning	87.6%	↗ provider
MMLU-Pro	reasoning	87.1%	↗ provider
Humanity’s Last Exam	reasoning	50.2%	↗ provider

Found official benchmark scores for Kimi K2.5 directly from the MoonshotAI GitHub repository and Hugging Face model card. Scores for SWE-bench Verified, LiveCodeBench (v6), GPQA Diamond, MMLU-Pro, and Humanity's Last Exam (HLE-Full w/ tools) are explicitly provided. AIME 2025 was reported (96.1%) but AIME 2024 was not. Aider Polyglot, TAU-bench, and MMAU scores were not officially published for this specific model version.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Moonshotai Kimi K2.5	← Právě prohlížíte	—
Google Gemini 3 Flash Preview	Gemini je o 17 % levnější na vstupu ($0.50 vs $0.60) a má shodnou cenu výstupu.	Gemini nabízí 4x větší kontextové okno (1M), ale Kimi K2.5 pravděpodobně cílí na lepší reasoning v oblasti kódování a agentního chování než 'Flash' varianta.
Anthropic Claude Haiku 4.5	Kimi je o 40 % levnější na vstupu a o 40 % levnější na výstupu.	Oba modely cílí na efektivitu a střední třídu inteligence. Kimi nabízí větší kontext (262k vs 200k) a specializaci na vizuální úlohy, zatímco Haiku těží z ekosystému Anthropic.
DeepSeek DeepSeek v3.2	DeepSeek je dramaticky levnější (cca 2.4x na vstupu a 7.9x na výstupu).	DeepSeek představuje hlavní ekonomickou konkurenci v oblasti kódování. Kimi musí obhájit vyšší cenu specifickými schopnostmi ve vizuálním kódování a masivním výstupním oknem.

🎯 Rozhodovací pomocník

✓

Použij když...

Konverze screenshotů a Figma návrhů do HTML/React kódu
Generování kompletní dokumentace nebo rozsáhlých refactoringů v jednom promptu
Orchestrace agentních rojů (swarms)

✗

Nepoužívej když...

Jednoduché klasifikační úlohy (neekonomické)
Analýzu extrémně velkých datasetů nad 260k tokenů (vhodnější Gemini)

Ideální pro:

Vývojáři softwaru využívající vizuální předlohyArchitekti autonomních AI agentůTýmy vyžadující generování dlouhých dokumentů/kódu

💪 Silné a slabé stránky

+ Silné stránky

Výstupní kapacita

Limit 262k tokenů pro výstup umožňuje generování celých repozitářů kódu bez fragmentace.

Vizuální reasoning

Specializace na visual coding s nadprůměrnými výsledky při transformaci UI designů do kódu.

Multimodalita

Nativní podpora textu i obrázků s tréninkem na 15T smíšených datech.

− Slabé stránky

Cenová efektivita

S cenou $3.00/1M výstupních tokenů je výrazně dražší než DeepSeek ($0.38) nebo Mistral.

Velikost kontextu

262k tokenů je méně než Gemini 3 Flash (1M) za podobnou cenu.

📝 Detailní popis

Kimi K2.5 je nativní multimodální model společnosti Moonshot AI, který poskytuje nejmodernější schopnosti vizuálního kódování a paradigmatu rojů agentů s vlastním řízením. Je postaven na Kimi K2 s pokračujícím předtrénováním na přibližně 15T smíšených vizuálních a textových tokenů a dosahuje silného výkonu v obecném usuzování, vizuálním kódování a agentním volání nástrojů.

Unikátní charakteristiky

Kimi K2.5 se vyznačuje nativní multimodální architekturou optimalizovanou pro převod vizuálních vstupů na kód a paradigma ‘agent swarm’. Unikátní je symetrie kontextového okna, kde model podporuje 262 144 tokenů nejen na vstupu, ale i na výstupu, což je kritické pro generování rozsáhlých softwarových projektů v jednom kroku.

Silné stránky

Výstupní kapacita

Limit 262 144 tokenů pro generovaný výstup (max output) výrazně převyšuje standardní modely (obvykle 4k-8k), což umožňuje generování celých repozitářů kódu bez fragmentace.

Vizuální reasoning

Specializace na ‘visual coding’ poskytuje nadprůměrné výsledky při transformaci UI designů a diagramů přímo do funkčního kódu díky tréninku na 15T smíšených datech.

Slabé stránky

Cenová efektivita

S cenou $3.00 za 1M výstupních tokenů je model výrazně dražší než vysoce výkonné modely od DeepSeek ($0.38) nebo MistralAI ($0.22).

Velikost kontextu

Ačkoliv je 262k tokenů dostačující pro většinu úloh, v přímém srovnání s Google Gemini 3 Flash (1M tokenů) za podobnou cenu nabízí menší prostor pro analýzu rozsáhlých databází.