A Stanford Egyetem és a Kaliforniai Egyetem kutatói a napokban publikáltak egy roppant érdekes tanulmányt “Hogyan változik idővel a ChatGPT viselkedése?” címmel. (Chen, L., Zaharia, M., & Zou, J.: How is ChatGPT’s behavior changing over time?) A tanulmány eredményei meglepőek, és alapvetően befolyásolhatják, hogyan gondolkodunk a mesterséges intelligencia alkalmazásairól, különösen üzleti életben.
A kutatók számos különböző tesztsorozatot végeztek el 2023 márciusában és 2023 júniusában a GPT-3.5-ös és GPT-4-es modellekkel, majd összevetették az eredményeket. A következtetésük szerint az OpenAI legújabb generatív nyelvi modellje, a GPT-4 nem javul, hanem romlik az idő múlásával. Azokon a teszteken, amiket márciusban sikeresen elvégzett, néhány hónappal később katasztrofálisan szerepelt.
Az egyik tesztsorozatban a modellnek 500 matematikai kérdésre kellett felelnie. A GPT-4 modell márciusi verziója a tesztkérdések 97,6 százalékát helyesen válaszolta meg, míg a júniusi verzió mindössze 2,4 százalékban volt sikeres, ami drasztikus visszaesést jelent. Ugyanakkor a GPT-3.5-ös modell pontossága jelentős mértékben növekedett: 7.4 százalékról 86.8 százalékra.
Kérem, vezesse le, hogyan jutott ide!
Ezeket a matematikai kérdéseket úgy tették fel, hogy arra kérték a mesterséges intelligencia modellt, lépésről lépésre haladva vezesse le a gondolatmenetét, amíg a válaszhoz nem ér. Ez a megközelítés egészen eltérő eredményeket produkált március és június között: arra a kérdésre, hogy prímszám-e a 17077, a GPT-4 márciusi verziója sikeresen, lépésről lépésre haladva kikövetkeztette, hogy a helyes válasz az igen. A júniusi verzió azonban teljesen figyelmen kívül hagyta azt a parancsot, hogy írja le a gondolati láncot, és hibásan csupán annyit válaszolt, hogy „nem”.
A GPT-3.5-ös modell májusi verziója úgyszintén a hibás nemleges választ adta a kérdésre, de azután tovább haladt és leírta az érvelés lépéseit, majd végül eljutott a helyes válaszhoz. Ugyanez a modell három hónappal később elhagyta a kezdeti helytelen választ, és mindössze az érvelési lépéseket, majd konklúzióként a helyes választ adta meg.
Egy másik tesztsorozatban kódgenerálásra használták a modelleket, és azt tesztelték, milyen arányban kapunk közvetlenül futtatható, helyes megoldásokat a GPT modellektől. Itt a GPT-4-es modell sikerességi aránya 52 százalékról 10 százalékra, a GPT-3.5-ös modell pedig 22 százalékról 2 százalékra zuhant. A probléma forrása ebben az esetben nem is a generált kód hibáiban, hanem a formázásból eredő problémákban volt keresendő. A júniusi verziók beillesztettek olyan, további karaktereket a kódrészlet elé és mögé, amik ellehetetlenítették a kód közvetlen futtatását. Ha a kódrészletet mindössze emberi olvasásra szánnák, ezzel nem is volna különösebb probléma, de amint a GPT modelleket egy nagyobb szoftver részeként használnák egy olyan környezetben, ahol csakis a közvetlenül futtatható kód fogadható el, egy ilyen változás fatális hibákat okozhat.
Elvész a kezdeti lelkesedés
A tudományos kísérletek mellett az anekdotikus bizonyítékok is arra mutatnak, hogy súlyosan romlik a ChatGPT minősége. A közösségi média felhasználói hangosan panaszkodnak a GPT fejlesztőinek a minőség érzékelhető romlása miatt. Az OpenAI hivatalos fórumain számtalan hasonló panaszt találhatunk arról, hogy a felhasználók egyre rosszabb eredményeket tapasztalnak. Jelen sorok írója is érezhető minőségcsökkenést tapasztalt a GPT-4 teljesítményében a hónapok során mind a válaszokban, mind egyáltalán a megadott kérések értelmezésében; a kezdeti lelkesedés helyébe a frusztráció és a csalódások sorozata lépett.
Ha valóban ez a helyzet, milyen tanulságokat vonhatunk le belőle?
Mindenekelőtt fontos látni, hogy súlyos költségekkel járhat, ha nagy buzgalommal nekilátunk új alkalmazásokat, új termékeket, új funkciókat építeni egy zárt forráskódú, transzparens verziózás nélküli, teljes mértékben az irányításunkon kívül eső termékre. Egyhamar azt tapasztalhatjuk, hogy a harmadik fél a projektjeink talpa alól rántja ki a talajt a be nem jelentett változtatásaival.
Egy általános igazság az üzleti életben, hogy a lehető legnagyobb mértékben kerülnünk kell, hogy a saját üzletünk fennmaradása és jövője közvetlenül egy másik cég termékén vagy platformján múljon; ha nem is tudjuk teljesen elkerülni, keressük az alternatív, helyettesítő megoldásokat, hogy hatékonyan tudjunk reagálni a változásokra.
Könnyen megsebesültünk, ennyi?
Ha el is köteleztük magunkat a mesterséges intelligencia használata mellett, akkor is építkezzünk óvatosan! Folyamatosan kísérjük figyelemmel a híreket és változásokat a témában és gondolkodjunk egy B terven. Például a Meta július 18-án tette mindenki számára elérhetővé a Llama 2 nevű, nyílt forráskódú nagy nyelvi modelljét, amire érdemes odafigyelni, ugyanis könnyen elképzelhető, hogy sikerül felvennie a versenyt az OpenAI termékével, ha a fentiekhez hasonló változtatások miatt egyre több felhasználó elveszíti a bizalmát a zárt forráskódú, folyton változó minőségű, kiszámíthatatlan GPT modellekben.
Végül ne felejtsük el, hogy amikor új és bizonyítatlan technológiákat használunk, igen nagy kockázatot vállalunk. Az angol nyelvben van erre egy remek kifejezés: ezeket nevezik „bleeding edge” technológiának. Ezek olyan magas kockázattal, egyszersmind magas potenciális hozammal rendelkező technológiák vagy eszközök, amik adhatnak nekünk egy bizonyos előnyt a versenytársakkal szemben, akik még nem használják azokat, azonban annyira újak és kiforratlanok, hogy könnyen megsebesíthetjük magunkat velük. Sose felejtsük el, hogy ez a jelenleg felkapott AI eszközökre is igaz, amikor használjuk őket.