Az „AI hallucináció” olyan jelenség, amelyben egy nagy nyelvi modellen (LLM) alapuló, általában generatív AI chatbot vagy számítógépes látásra szolgáló (képfelismerő) eszköz olyan mintákat vagy tárgyakat észlel, amik a valóságban nem is léteznek. Vagy legalábbis az emberi megfigyelők számára nem érzékelhetők, emiatt értelmetlen – vagy teljesen pontatlan – kimenetet hoznak létre.

Általában, ha a felhasználó kérést intéz egy generatív AI eszközhöz, olyan kimenetet szeretne kapni, amely megfelelően kezeli a kérést (pl. helyes válasz egy kérdésre). Azonban néha az AI algoritmusok olyan kimeneteket produkálnak, amelyek nem a betanítási adatokon alapulnak. Ilyenkor a transzformátor (a nyelvi-képi modellekben használt architektúra) helytelenül dekódolja a bemenetet, vagy nem követ egyetlen azonosítható mintát sem. Más szóval, az AI „hallucinálja” a választ.

A kifejezés ellentmondásosnak tűnhet, tekintve, hogy a hallucináció jellemzően emberi vagy állati aggyal társított jelenség, nem pedig gépek által előidézett. Azonban metaforikus szempontból a hallucináció pontosan leírja e kimeneti eredményeket, különösen a kép- és mintafelismerés esetében (ahol a kimenetek valóban szürreális megjelenésűek lehetnek).

Hallucináció: alakzatok a felhőben

Az AI hallucinációkat okozó folyamatokat a fejlesztők leginkább ahhoz hasonítják, mint amikor az emberek alakzatokat látnak a felhőkben. Vagy amikor arcokat vélnek felfedezni a Holdon. Az AI esetében ezek a félreértelmezések különböző tényezők miatt következnek be, beleértve

  • a túltanulást (overfitting),
  • a betanítási adatok torzítását/pontatlanságát,
  • illetve a modell magas komplexitását is.

A probléma másik forrása a folyamatos kommunikációs kényszer és a természetes nyelv félreértelmezése, amely szintén az egyik lehetséges oka lehet az algoritmus összezavarodásának. Míg a képgeneráló vagy audio-vizuális tartalmakat generáló eszközöknél a hallucináció tulajdonképpen valamennyire természetes része a képalkotási eljárásnak, a chatbotoknál jóval komolyabb problémákat okozhat a jelenség.

Ahhoz, hogy a természetes nyelv (emberi nyelv) a kommunikáció hatékony formája legyen, a résztvevőknek képesnek kell lenniük a szavak és azok kontextusának megértésére, feltételezniük kell, hogy a tartalmat jórészt jóhiszeműen osztják meg és megbízhatónak ítélik, a megosztott információról érvelniük kell, majd azt valós helyzetekben alkalmazniuk. Ennek érdekében több kutatás is folyik, melyek célja, hogy a már meglévő természetes nyelvi modellek kimeneti eredményének minőségét javítsák. Az egyik ilyen lehetséges megoldás a játékelméletet használja. Ennek lényege, hogy megértsük, hogyan viselkednek az emberek a több szereplős rendszerek és a nyelvi megértés szemszögéből, illetve, hogy ezek révén hogyan építhetünk hatékonyabb és megbízhatóbb AI rendszereket.

Bizalmat kell építened!

Jacob Andreas és Gabriele Farina az MIT Villamosmérnöki és Számítástechnikai Tanszékének (EECS) kutatói, valamint Yikang Shen, az MIT-IBM Watson AI Lab munkatársa újrafogalmazták a nyelvi generálás problémáját. Kétjátékos játéknak tekintették,  és munkájuk a „Diplomacy” nevű társasjátékban gyökerezik. Ez egy olyan játék, amelybe a kutatócsoport kifejlesztette azt a rendszert, amely megtanulhatta és megjósolhatta az emberi viselkedéseket. E stratégia mentén aztán végeredményben „tárgyalhatott” a kívánt, optimális kimenetel elérése érdekében.

„Ez egy olyan játék , ahol bizalmat kell építened; a nyelv használatával kell kommunikálnod. Emellett hat másik játékos ellen kell egyszerre játszanod, ami nagyon különbözik az összes olyan feladattípustól, amelyekkel eddig foglalkoztak az emberek”

– mondja Jacob, utalva más játékokra, mint a póker és a GO, amelyeket a kutatók neurális hálózatokra alkalmaztak. „Eközben sok kutatási kihívás is felmerült. Az egyik az volt, hogy ‘Hogyan modellezhetők az emberek? Honnan lehet tudni, hogy az emberek hajlamosak-e irracionálisan cselekedni?„.

Köztudottan hajlamosak a hallucinációra

„Generátor” és „diszkriminátor” modellek segítségével Jacob csapata kifejlesztett egy természetes nyelvi rendszert, amely képes válaszokat adni a kérdésekre, majd megfigyelni és megállapítani a válaszok helyességét. Ha azok helyesek, az AI-rendszer pontot kap; ha nem, akkor nem jár jutalom. A nyelvi modellek köztudottan hajlamosak a hallucinálásra. E „nem valós tartalom előállítása” pedig csökkenti megbízhatóságukat. Ez a sajnálatmentes tanulási algoritmus együttműködik egy meglévő nyelvi modellel, és arra ösztönzi a rendszer válaszait, hogy azok igazabbak és megbízhatóbbak legyenek. De úgy, hogy eközben megtartják a megoldásokat az előzetesen betanított nyelvi modell alapelveihez közelebb.

Jacob szerint ennek a technikának a használata egy kisebb nyelvi modellel versenyképessé teheti azt, és akár egy többszörösen nagyobb modell ugyanolyan teljesítményével kecsegtet. Amikor egy nyelvi modell eredményt generál, a kutatók ideális esetben azt szeretnék, hogy a válaszadás során a chatbot önbizalma összhangban legyen a pontosságával, de ez gyakran nincs így. Akkor is előfordulhatnak hallucinációk, amikor a modell abban az esetben is magas bizalmat jelez az output esetében, amikor ez alacsony kellene, hogy legyen.

„Igen” – „Nem” – „Talán”

A MIT kutatói emellett egy másik olyan projekten is dolgoznak, amelyek a nyelvi modellek további kalibrálását végzik. A folyamat során megkérik az adott nyelvi modellt, hogy szabad szöveget hozzon létre, amelyet aztán feleletválasztós besorolási feladattá alakítanak át. Például megkérhetik a modellt, hogy oldjon meg egy matematikai feladatot, majd megkérdezik, hogy az általa generált válasz „igen”, „nem” vagy „talán” válasz-e. Ez segít meghatározni, hogy a modell túl magabiztos vagy alul-magabiztos a válaszát illetően.

Ennek automatizálására a csapat kifejlesztett egy eszközt, amely segít finomhangolni az előre betanított nyelvi modell megbízhatósági kimenetét. A kutatók egy segédmodellt képeztek ki az alapigazság-információk (ground-truth) felhasználásával, hogy rendszerük képes legyen a nyelvi modell korrigálására. A módszer lényege, hogy a segédmodell közbelépjen, abban az esetben, ha egy modell túl magabiztos a jóslásában, képes legyen ezt a jelenséget észlelni, és kevésbé magabiztossá tenni, valamint vica versa.

A Microsoft is komoly erőkkel dolgozik a kérdéses outputok és hallucinált válaszok problémakörén. Sarah Bird, a Microsoft felelős mesterséges intelligencia termékmenedzsere erről a The Verge-nek adott interjúban beszélt. Elmondta, hogy a csapata számos új biztonsági funkciót tervezett, amelyek könnyen használhatók lesznek a cég Azure platformját használó ügyfelei számára. A Microsoft szerint ezek a nagy nyelvi modell (LLM) alapú eszközök képesek lesznek felismerni a potenciális sebezhetőségeket, figyelemmel kísérni a „hihető, de nem megfelelően alátámasztható” hallucinációkat, valamint valós időben blokkolni a rosszindulatú utasításokat az Azure AI ügyfelei számára – dolgozzanak azok bármilyen platformon futó modellel is.

Átnézni az egész világot?

A hallucinációk száma pedig meglehetősen magas. Simon Hughes és csapata a Vectaranál például tavaly novemberben megvizsgálta, hogy milyen gyakran hallucinálhatnak a széles körben elérhető chatbotok és meglepő következtetésekre jutottak.

„Mivel ezek a chatbotok szinte bármilyen kérdésre korlátlan számú módon képesek válaszolni, nincs mód annak végleges meghatározására, hogy milyen gyakran hallucinálnak.  Az egész világ információit kellene átnézni”

– mondta Simon Hughes a New York Times kérdésére válaszolva. Dr. Hughes és csapata arra kérte e rendszereket, hogy hajtsanak végre egy egyértelmű és könnyen ellenőrizhető feladatot: foglalják össze a híreket. A chatbotok még ennél a viszonylag tényeken alapuló feladatnál is fáradhatatlanul ontották magukból a kitalált információkat.  Vagyis: hallucináció történt.

„Tíz-húsz tényt adtunk a rendszernek, és kértünk egy összefoglalót azokról a tényekről” – közölte Amr Awadallah, a Vectara vezérigazgatója és korábbi Google-vezető, hozzátéve, hogy alapvető probléma, hogy a rendszerek továbbra is hibákat tudnak generálni.

Még mindig nem árt észnél lenni

A kutatók azzal érvelnek, hogy amikor ezek a chatbotok más feladatokat hajtanak végre – nem csak egyszerűen összegeznek – a hallucináció aránya magasabb lehet. Kutatásuk azt is kimutatta, hogy a hallucinációk aránya nagyban változik a vezető AI-vállalatok között. Az OpenAI technológiái mutatták a legalacsonyabb arányt, körülbelül 3 százalékkal. A Facebookot és az Instagramot birtokló Meta rendszerei öt százalék körül ingadoztak, az Anthropic, a San Franciscó-i székhelyű OpenAI rivális Claude 2 rendszere a nyolc százalékot is meghaladta (tegyük gyorsan hozzá, hogy azóta az Anthropic már  kiadta a Claude 3.-as verzióját). A legrosszabbul egy Google-rendszer, a Palm chat teljesített, amely a legmagasabb hallucinálási aránnyal, 27 százalékkal rendelkezett.”

Egy szó mint száz, az AI hallucinációja és a megbízhatóságának növelése az egyik legfontosabb prioritás a technológia robbanásszerű fejlődése során felmerülő problémáknak. A fejlesztéseknek köszönhetően remélhetőleg a Gemini képgenerátorának meglehetősen furcsa képei többet már nemigen fordulhatnak elő. Ahogyan a Twitterre kiengedett Microsoft chatbot fiaskója sem, akit egy nap alatt alt-rightos huligánnak képzett át a közösségi oldal közönsége. Azért azt továbbra is jó észben tartani, hogy az AI által generált tartalommal érdemes óvatosan bánni. Nem árt minden esetben ellenőrizni az algoritmus által generált outputot, mielőtt szabadjára engednénk azt az ökoszisztémánkban.