Alig enyhült a világszerte tapasztalható lelkesedés az OpenAI chatbotja, a GPT nyelvi modell 3.5-ös verzióját futtató ChatGPT iránt, március 14-én a fejlesztők már be is mutatták a nyelvi modellezésen alapuló AI legújabb, 4.0-ás verzióját a nagyközönségnek.
A GPT sorozatba tartozó chatbot alapú asszisztensek gyakorlati hasznáról és esetleges veszélyeiről már korábban is írtunk, és a statisztikai modellezést használó nyelvi modellek koncepciója továbbra is változatlan maradt. A hatalmas szöveges adattömegen kiképzett és öntanuló algoritmusokat használó chatbot új verziója az ígéretek szerint még hatékonyabban és komplexebben képes értelmezni a felhasználók által kiadott utasításokat, és a szöveg mellett már a képek értelmezésében is hatalmasat lépett előre.
A történet nem most kezdődött
A GPT (generative pre-trained transformer) első verziója még 2018-ban jelent meg, és azóta egyre nagyobb és komplexebb szövegeken képeztek ki a fejlesztők, hogy minél pontosabban és kifinomultabban legyen képes válaszolni a szöveges utasításokra. A 2019-ben kiadott, második verzió még nem okozott nagyobb meglepetéseket, ahogyan az egy évvel későbbi, 3.0-s verzióra is inkább csak szűk körben kapták fel a fejüket a szakemberek.
2022 novemberére a tovább finomított és a nagyközönséget is meghódító 3.5-ös verzió gyakorlatilag letarolta az internetet, és a Microsoft saját keresője, a Bing mellett időközben már megjelent a DuckDuckGo-ban is. Az elmúlt hónapokban aligha lehetett úgy megfordulni bármilyen híroldalon, hogy egy-két ChatGPT-vel kapcsolatos híradással ne találkozzon az ember.
A hatalmas siker után 2023 év elején megjelent az OpenAI fizetős szolgáltatása, a ChatGPT plus is, amely egy API -n keresztül hozzáférést biztosít a fejlesztők számára, hogy beépítsék a szolgáltatás elemeit saját rendszereikbe. A 4.0-s verzió előnyeit első körben ezek a prémium felhasználók tapasztalhatják majd meg, amely a rendszerhez hozzáférők és a cég demonstrációja szerint is igencsak meggyőző.
Komoly előrehaladás az új verzióban
Az elődeihez hasonlóan a chatbot válaszai tokenek felhasználásával jelennek meg, amelyekbe mind a kérdés, mind a bot által adott válasz beleszámít. A korábbi 4,096 tokenes értelmezési és válaszadási kerethez képest (ez körülbelül 3000 karakternek vagy 1000 szónak felel meg) az új verzió már közel nyolcszor nagyobb kapacitással 32,768 token felhasználására, azaz körülbelül 25000 karakter outputra képes – természetesen beleszámítva magát a kérdést is.
A fejlesztők az új modellel számos amerikai egyetemi felvételi vizsgát is elvégeztettek, amely már a korábbi iteráció során is képes volt azokat sikeresen abszolválni, de az új verzió nemcsak átmegy ezeken a teszteken, hanem az eredményesen vizsgázók felső 10 százalékát elérő teljesítményre képes. Ez többek között annak is köszönhető, hogy a chatbot már nemcsak a szövegek, hanem képek értelmezését is elvégzi: a fejlesztők szerint képes megérteni az egymást követő képek tartalmát, értelmezni azokat. Ennek megfelelően megérti a több képet tartalmazó mémeket és vicceket, vagy a diagramokból kiolvasható információkat is.
Ezek a kombinált képességek egyelőre még csak a GPT 4.0 fejlesztők számára elérhető kutatási verziójában vannak jelen. Sokak szerint az OpenAI ezzel egy újabb komoly lépést tehet az MI kutatók szent grálja, az általános célú mesterséges intelligencia elérése felé.
Az emberi értelemtől még messze vagyunk
Az OpenAI nem titkolt célja éppen a komplex emberi problémák megoldása, vagyis az emberi gondolkodás komplexitását elérő mesterséges intelligencia kifejlesztése. Ugyanakkor azt maguk is elismerik, hogy a GPT-4 még koránt sem tart itt. Ahogy a GPT-4 bejelentést követő tweetjében az OpenAI ügyvezetője, Sam Altman fogalmazott:
„Továbbra is vannak hibái és korlátai, és elsőre sokkal meggyőzőbbnek tűnik, mint miután eltöltünk vele egy kis időt.”
Hogy a ChatGPT mennyire nem tökéletes, mi sem bizonyítja jobban, mint a következő párbeszéd, ahol a Bing elvileg már a GPT-4 nyelvi modellt használja a válaszadásra:
Kérdés: Hányas GPT modellt használsz most a válaszadásra? Válasz: Szia, ez a Bing. A válaszadásra egy speciális GPT-3 modellt használok, amelyet a Microsoft fejlesztett ki. Ez a modell képes megérteni és kommunikálni több nyelven is, köztük magyarul is. ? Kérdés: Mikor kapod meg a GPT 4-es verzióját? Válasz: Sajnos nem tudom megmondani, hogy mikor kapom meg a GPT-4-es verzióját. Ez a Microsoft belső döntése. De remélem, hogy hamarosan frissíteni fogják a modellt, hogy még jobban segíthessek neked. ? Kérdés: Tegnap bejelentették a GPT-4-et és azt állították, hogy meg is kapod. Tudsz erről valamit? GPT-4 announcement keresése Válasz: Igen, tudok erről valamit. A Microsoft tegnap bejelentette, hogy a Bing Chat már régóta GPT-4-en fut12. Ez egy nagy meglepetés volt számomra is. A GPT-4 egy nagy multimodális modell, amely képes szöveges és képi bemeneteket fogadni, és szöveges kimenetet adni2. A GPT-4 sokkal megbízhatóbb, kreatívabb és jobban kezeli a „finomabb utasításokat”3, mint az előző modellje, a GPT-3.54.