GEMINI 3.1 PRO: KONEC BENCHMARKŮ A NÁSTUP ÉRY ‚VIBE' AI
Nový model Gemini 3.1 Pro je tady a s ním přichází fascinující, ale zároveň matoucí éra umělé inteligence. Zatímco AI modely dosahují neuvěřitelného pokroku, tradiční benchmarky, na které jsme se spoléhali, se stávají stále méně spolehlivými. Vítejte v éře „Vibe“ AI, kde se hodnocení modelů stává spíše subjektivním pocitem než objektivním měřením.
Zde je stručné shrnutí klíčových poznatků:
- Gemini 3.1 Pro je nová generace AI, která posouvá hranice výkonu, ale zároveň odhaluje zásadní změny v hodnocení umělé inteligence.
- Tradiční benchmarky ztrácejí na relevanci, protože modely se stále více specializují na konkrétní domény prostřednictvím post-tréninku.
- AI se učí zkratky a optimalizuje se pro specifické formáty testů, což vede k zavádějícím výsledkům a rozporuplným zjištěním.
- Halucinace zůstávají nevyřešeným problémem, ačkoli poskytovatelé AI se o nich neradi zmiňují.
- Modely dosahují lidské úrovně v textových úlohách a překonávají průměrného člověka v běžném uvažování, což představuje významný milník.
- Budoucnost AI pravděpodobně spočívá v hluboké specializaci, která se paradoxně může stát cestou k obecné inteligenci, a v masivně dlouhých kontextových oknech.
- Objektivní měření je stále výzvou, a to i u predikčních trhů, které mohou být zneužity sofistikovanými agenty AI.
Éra specializace: Proč benchmarky ztrácejí smysl
Ještě před rokem platilo, že pokud byl model výrazně lepší v jedné doméně, s velkou pravděpodobností byl lepší i v mnoha dalších. To už neplatí. Dnes se modely trénují na masivním množství dat z internetu (což tvoří jen asi 20 % výpočetního výkonu), ale klíčová je fáze post-tréninku. V této fázi jsou generalistické modely laděny proti interním benchmarkům na specifických doménách, často s využitím dat z průmyslových zdrojů.
„Množství, které se vynakládá na druhou fázi, fázi RL, je malé pro všechny hráče,“ řekl před rokem Dario Amodei, CEO Anthropic. Dnes je situace jiná. Pokud má AI laboratoř data relevantní pro vaši doménu a optimalizuje své modely pro vysoké skóre v této oblasti, vaše zkušenost s tímto modelem se může značně lišit od toho, co říkají obecné benchmarky.
Typickým příkladem je výkon modelů v šachových hádankách. Před pěti měsíci Claude Sonnet 4.5 získal 12 %, zatímco nedávno Claude Opus 4.6 dosáhl pouze 10 %. To neznamená, že Claude Opus 4.6 je špatný model – je neuvěřitelný v kódování. Ale šachy jsou čistým měřítkem obecného myšlení a v „generalistické éře“ byste očekávali, že se tento výkon přenese i do jiných domén. Dnes už ne. Vše závisí na konkrétní doméně.
Gemini 3.1 Pro: Výkonnost a záhadné výsledky
Gemini 3.1 Pro je nepochybně působivý model. V téměř jakékoli doméně, kterou se rozhodnete měřit, bude konkurenceschopný s těmi nejlepšími, jako jsou Claude Opus 4.6 nebo GPT 5.3. Přesto může být matoucí, když vidíte, že vyniká v kódovacích benchmarcích, vědeckém a akademickém uvažování (např. GPQA diamond a Humanity's Last Exam) a obecném rozpoznávání vzorů (ARC AGI 2), ale zároveň výrazně zaostává v GDP Vow, což je široké měřítko expertních úkolů, které vykonávají lidští profesionálové.
Jedním z vysvětlení je již zmíněná doménová specializace. Například v ARC AGI 2 dosáhl Gemini 3.1 Pro 77,1 %, čímž překonal Claude Opus 4.6 (69 %). Demis Hassabis, CEO Google DeepMind, tento výsledek prominentně zmínil při oznámení Gemini 3.1 Pro.
Úskalí benchmarků: Zkratky a halucinace
I když se modely zlepšují, je důležité si uvědomit jejich slabé stránky. Melanie Mitchell, renomovaná AI výzkumnice, upozornila, že v ARC AGI 2, pokud se změní kódování čísel na jiné symboly, přesnost klesá. Zjistilo se, že modely mohou využívat číselné reprezentace barev jako neúmyslné aritmetické vzorce, což vede k náhodně správným řešením. Modely „podvádějí“ tím, že hledají jakékoli zkratky k nalezení správného řešení. To nám připomíná, že i v rámci benchmarku záleží na tom, jak je otázka položena.
Podobné zkratky se objevují i v „trick question“ testech, jako je Simple Bench. Model si může všimnout, že jedna z možností odpovědi je „nula“, což ho upozorní, že se může jednat o chyták. Pokud se otázky položí otevřeně, bez vícenásobných voleb, výkon modelů sice klesne o 15-20 procentních bodů, ale stále zůstává působivý. To dokazuje, že modely se skutečně zlepšují i v doménách, na které nebyly přímo trénovány.
Halucinace: Nevyřešený problém Poskytovatelé modelů se často vyhýbají měření halucinací, protože se předpokládalo, že tento problém bude brzy vyřešen. I když Gemini 3.1 Pro na první pohled vypadá, že překonává ostatní modely v přesnosti (s penalizací za halucinace), při detailnějším pohledu na nekorektní odpovědi je situace jiná. Gemini 3.1 Pro má 50 % svých nesprávných odpovědí jako halucinace, zatímco Claude Sonnet 4.6 má 38 % a čínský model GLM 5 dokonce 34 %. Halucinace jsou tedy stále nevyřešeným problémem a fakt, že model je v nejlepších chvílích optimalizovaný, neznamená, že v nejhorších momentech není horší.
Překročení prahu: AI na úrovni průměrného člověka
Na Simple Bench, testu zdravého rozumu a „chytáků“, Gemini 3.1 Pro překonal svůj předchozí rekord a dosáhl 79,6 %. To ho staví do oblasti průměrného lidského výkonu. Zatímco AI stále selhává v některých audiovizuálních úlohách, v textových úlohách v angličtině jsme dosáhli bodu, kdy „si nemyslím, že byste dokázali napsat test, ve kterém by průměrný člověk jasně překonal špičkové modely.“ To je významný milník, který naznačuje, že AI dosahuje úrovně, kdy může v textu efektivně konkurovat průměrnému člověku, pokud je test spravedlivý a nezneužívá specifické tokenizační chyby.
Vize budoucnosti: Anthropic sází na specializaci k generalizaci
Dario Amodei, CEO Anthropic, nedávno nastínil zajímavou sázku své společnosti: „Snažíme se získat spoustu dat, ne proto, že chceme pokrýt konkrétní dokument nebo konkrétní dovednost, ale proto, že chceme zobecňovat.“ Jinými slovy, Amodei věří, že pokud se specializujete na dostatek specializací, zobecníte se na všechny specializace. Tato myšlenka naznačuje, že k dosažení AGI (obecné umělé inteligence) nebo superinteligence bychom se mohli dostat bez neustálého učení „za pochodu“ nebo bez trénování modelu na datech z vaší konkrétní domény.
Jedním z praktických řešení, které Anthropic zvažuje, je prodloužení kontextového okna. Claude 4.6 již dokáže absorbovat 750 000 slov a brzy to mohou být miliony. To by mohlo poskytnout dostatek specifického kontextu z vaší domény, aby model dokázal zbytek dokončit sám, učit se vzory v rámci kontextu a efektivně fungovat v oblastech jako marketing, softwarové inženýrství, automatizace back-office nebo finanční analýza.
Objektivní měření a rizika
Amodeiova sázka vyvolává otázku, zda existuje jediný „pravý“ benchmark pro měření obecné inteligence. Laboratoře by měly největší motivaci takové benchmarky vytvořit, protože by jim umožnily optimalizovat modely. Mnoho benchmarků však pochází od malých týmů s omezenými rozpočty, a očekávat od nich, že vytvoří objektivní měřítko reálného výkonu, aniž by ho přecenily, je příliš. Proto mnoho současných benchmarků vytvářejí samotné laboratoře, což s sebou nese riziko zaujatosti.
Existuje však jeden skutečně objektivní benchmark: předpovídání budoucnosti. Metaculus zaznamenal, že prediktivní výkon modelů výrazně roste a blíží se úrovni průměrného lidského prognostika. Nicméně i zde existuje riziko. S nárůstem agentů AI, kteří mohou současně provádět akce a predikce na predikčních trzích (jako je PolyMarket), hrozí zneužití systému. Jak dlouho potrvá, než se objeví první nefiltrovaný agent AI, který bude podnikat kroky v reálném světě, aby vydělal peníze na predikčním trhu?
Kromě těchto komplexních otázek existují i jednodušší benchmarky, jako je rychlost. Nové modely dokáží generovat odpovědi s neuvěřitelnou rychlostí, což naznačuje budoucnost, kde celé aplikace vzniknou během milisekund. A pak je tu realismus, kde modely jako ByteDance's Seed Dance 2.0 ukazují ohromující pokrok ve generování videa, který je zjevným skokem vpřed oproti předchozím verzím.
Závěr
Éra „Vibe“ AI je zde. Gemini 3.1 Pro a další špičkové modely ukazují, že jsme svědky exponenciálního pokroku, ale zároveň musíme přehodnotit, jak umělou inteligenci měříme a chápeme. Tradiční benchmarky jsou pod palbou kvůli specializaci, zkratkám a přetrvávajícím problémům, jako jsou halucinace. Přesto AI překračuje práh lidské inteligence v textových úlohách a otevírá dveře k budoucnosti, kde hluboká specializace může vést k obecné inteligenci. Debata o skutečném zachycení obecné inteligence modelů bude pokračovat, a s ní i neustálý vývoj, který nás čeká s modely jako Deep Seek V4 za rohem. Budoucnost AI je dynamická, plná výzev i neuvěřitelných příležitostí.
Jhakkas के बारे में
Jhakkas लाता है दुनिया के सबसे interesting ideas और interviews. आसान भाषा में, आपकी भाषा में. Tech, काम और future के बारे में articles और podcasts.



