Sokan mernek rá fogadni (szó szerint), hogy a mesterséges intelligencia-verseny legjobb fejlesztője ebben az évben a Google lesz. A keresőóriás AI-modelljei az LM Arena felhasználói értékelései alapján jórészt maguk mögé utasítják a konkurenciát, és ezek a nyilvános statisztikák fűthetik a Polymarket fogadásait is. A platformra több mint egymillió dollár értékben érkeztek tétek arra, hogy május végéig a Google lesz a nyerő. De vajon megbízható tippet adnak-e a fogadások? És ha arra keresünk választ, hogy melyik AI-t érdemes beépíteni az üzleti folyamatokba – az e-kereskedelemben például vásárlói keresések feldolgozására és optimalizálására?

A mesterséges intelligenciát fejlesztő vállalatok kritikus időszakot élnek át. Itt a lehetőség, hogy egy merőben új technológiával nyerjék el a felhasználók kegyeit és újra osszák az internetből eredő javakat. A verseny nem is lehetne kiélezettebb, hiszen az új piac őrületes haszonnal kecsegtet. A cégek sorra adják ki az AI-modelljeik frissítéseit, amelyek egyre jobb szolgáltatásokat ígérnek. Az ítéletet, hogy ki rendelkezik a legjobb AI-val, a felhasználók hozzák meg. Kérdés viszont, hogy a véleményük hűen tükrözi-e a modellek képességeit.

Vágtázik a Google, bejövős lehet a Gemini

A kriptopénz alapú fogadásokat kínáló Polymarket április eleje óta fogadja a téteket arra, hogy az adott hónap, majd 2025 végére melyik fejlesztő birtokolja majd a legjobb AI-modellt. A május végi állapot szerint a Google Gemini 2.5 Pro-ra figyelnek a legtöbben. Ez óriási eredmény, tekintve, hogy csupán márciusban mutatták be.

Így látta, ezt rögzítette a Polymarket az AI-modellek versenyének alakulásával kapcsolatosan

A láncolt gondolatmenetre képes, illetve szöveg, kép és hang feldolgozásában egyaránt jeleskedő AI-t a programozási és számítási képességek miatt szintén nagyra tartják. Szóval várható volt, hogy a múlt hónap végére eltolódnak az arányok. De a fogadók irreálisan nagy arányban (99,9%) hozzák ki legjobbnak a Google-t neves vetélytársakkal szemben is. A Google Gemini 2.5 Pro olyan riválisokat gyűrt össze, mint az OpenAI, az xAI vagy a technológiai vállalatok részvényárfolyamát már a megjelenésével sokkoló DeepSeek.

Ha valamelyik AI üzleti szintű alkalmazására a Polymarket statisztikái alapján keresnénk modellt (amit persze ne tegyünk), akkor a 2025 legvégére is vezető pozícióba várt Google (50%) termékére kellene böknünk, hiszen kényelmesen előzi az OpenAI-t (22%) és az xAI-t (18%).

Érdemes viszont még egyszer leszögezni: a Polymarket egy fogadó oldal! A felhasználóit nem a modellek tényleges teljesítménye érdekli (saját kezűleg talán ki sem próbálják őket), hanem az, hogy minél nagyobbat és biztosabban nyerjenek. Ennek érdekében kockázatot vállalnak, és felülnek az egyes modellek népszerűségi hullámára, ami az újdonság varázsa miatt jelenleg a Gemini 2.5 Prot helyezi előtérbe.

Érdekes tendencia ugyanakkor, hogy a Polymarket fogadásait meg-megdobja, ha változás áll be az AI-modelleket vaktesztelés nyomán rangsoroló LM Arena listáin. Vagy amikor, esetleg egy-egy felkapottabb Reddit posztban vagy X-bejegyzésben hivatkoznak a platform eredményeire.

LM Arena

Ha magabiztosabb válaszokat keresünk arra, hogy mely mesterséges intelligencia eszközök támogathatják a vállalkozásunk sikerét, az egyes területeken legjobbnak minősülő modellek rangsorát érdemes figyelni, az LM Arena oldalán.

A Berkeley Egyetem nyílt platformja a nyelvi modellek emberi tapasztalatokon nyugvó teljesítményét értékeli. A rangsor részletesen kidolgozott módszertan szerint alakul: a felhasználók két, előre meg nem nevezett AI-modell ugyanarra a kérdésre adott válaszait hasonlítják össze. Aztán a szavazataik alapján Elo-pontszámok születnek, amelyek lehetővé teszik a teljesítmény dinamikus nyomon követését.

A The Wall Street Journal szerint az LM Arena listái több szempontból is átlátható, közösségi visszajelzéseken alapuló értékelést adnak az AI-piac szereplőinek teljesítményéről. Egyrészt azért, mert mintegy 170 AI-modellt rangsorolnak, kb. 3,5 millió szavazat alapján. Másrészt pedig azért, mert a résztvevőket nem befolyásolja a döntésben a márkanév, így valódi preferenciák hatására vokolnak.

Ami azt illeti, az LM Arena leaderboardján sem az OpenAI-nak áll a zászló. Bár a szövegalkotásban (Text) és a vizuális adatbevitel megértésében előkelő helyen szerepelnek a modelljei, e kategóriákat a Gemini 2.5 Pro uralja. Az AI-keresésben és a webfejlesztésben ugyancsak a Google viszi a prímet, míg az asszisztenciában (Copilot) a DeepSeek 2.5. Az OpenAI a felhasználók vaktesztelése szerint jelenleg csak a képgenerálásban elég meggyőző ahhoz, hogy maga mögé utasítsa a mezőnyt.

Nem mind arany…

Bár az LM Arenára sokan a legjobb forrásként tekintenek, ha annak megítéléséről van szó, hogy az egyes feladatokra melyik AI-modell a legjobb választás, vannak, akik kétségbe vonják az eredmények hitelességét.

Az arstechnica egy nemrég kiadott tanulmány nyomán azt írja, a nagy AI-fejlesztők (pl. Google, OpenAI, Meta, Amazon) privát tesztelési lehetőséget kaptak a platformon, több modellváltozatra is. Azért, hogy aztán végül csak a legjobban teljesítő verzió számai kerültek nyilvánosságra. Ez az előny torzíthatja a listákat – állítja a többek között a Princeton, a Stanford és a Waterloo Egyetem, valamint az MIT tudósai által jegyzett dokumentum.

Az LM Arena mindezt igyekezett tételesen cáfolni: X-bejegyzésükben megjegyezték: „semmi értelme” szerepeltetni a listákon olyan korábbi modellek eredményeit, amelyek nyilvánosan már nem elérhetők.

Verdikt

Az LM Arena értékeléseit a botrány ellenére a legtöbben még mindig hitelesnek tartanak. Ám, noha azok felhasználói preferenciákon alapulnak, nem feltétlenül tükrözik a modellek teljesítményét specifikusan az e-kereskedelmi alkalmazásokban. Ettől függetlenül tudományos igénnyel létrehozott platformról van szó, így a listái alapján érdemes lehet kiválasztani azokat az AI-modelleket, amelyek a legjobban megfelelnek a vállalkozásunk céljainak. Ezeket szinte biztosan nem csak egy, hanem több modell fogja kiszolgálni. Hiszen más-más AI-eszköz lehet jó a vásárlók keresőkifejezéseinek és szándékainak elemzésére, a személyre szabott ajánlások készítésére, a termékek besorolására, esetleg chatbotok bevetésére.

És ha kapkodnánk a fejünket a sok modell miatt, jusson eszünkbe: valójában ideális, ha többféle technológia közül választhatunk. Az újabb és újabb fejlesztések megjelenése ugyanis demokratizálja az AI-piacot, és ebből mi, felhasználók nagyon is jól jöhetünk ki! Hiszen a vállalatok birokra kelnek egymással a figyelmünkért, ami egészséges árverseny kialakulásához vezet.