Nem mindenki érti és nem mindenki használja jól a ChatGPT-t

Olvasási idő: 7 perc

A ChatGPT egy nagy nyelvi modellel rendelkező alkalmazás, amit az OpenAI fejlesztett ki a GPT3.5 modell alapján.

Magyar nyelven is elérhető és a mélytanulás módszerét használja a nyelv feldolgozásához. Teszi mindezt azért, hogy egy nagy szövegadatbázist használva az emberekéhez hasonló beszélgetéseket generáljon. Ám a 2022 novemberében megjelent ChatGPT teljesen új szintre emelte a nyelvi modellek képességeit és még az is lehet, hogy simán átmenne a Turing-teszten. Váradi Tamás, az NYTK Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézetének igazgatójának meghatározásával élve: a GPT egy neurális hálón gépi tanulással betanított GPT 3 típusú nagy nyelvmodell, társalgási módra kidolgozott alkalmazása, melyet az USA-beli OpenAI vállalat webszolgáltatásként, 2022. december elején tett nyilvánossá. A rendszer önmagát a következőképpen definiálja:

„Természetemnél fogva egy nyelvi modell vagyok, amelyet az OpenAI fejlesztett ki, és a GPT-3.5 architektúra alapján működik. Az én szerepem az, hogy válaszoljak a felhasználók által feltett kérdésekre és nyújtsak információt különféle témákban. Az én „ismereteim” 2021 szeptemberében leálltak, tehát az azóta bekövetkezett eseményekről vagy változásokról nem rendelkezem friss információval. Bár megpróbálok a lehető legpontosabb és leginformatívabb válaszokat adni, fontos megjegyezni, hogy az én válaszaimat algoritmusok alapján generálom, és nem rendelkezem saját tapasztalatokkal vagy tudással.”

Csak azért, hogy mindent az alapoktól értsünk, nézzük, mi a neurális hálós gépi tanulás!

A neurális úgy értendő, hogy neuronok hálózata. Valóban érdekes párhuzam figyelhető meg a természetes idegsejt és a mesterséges idegsejt között. A neurális hálózat egy olyan gépi tanulási modell, amely az emberi agy szerkezetét utánozza. Lehetővé teszi a számítógépek számára, hogy adatokból tanuljanak és tapasztalatot szerezzenek anélkül, hogy kifejezetten programoznánk őket. Képesek azonosítani, kategorizálni és általában felismerni mintázatokat, illetve adatokat továbbítani. Ez azért fontos, mert a hálózat, az egyes neuronokon keresztül, az adatok segítségével továbbítja az információt. Az információ pedig fokozatosan áramlik a hálózaton, és az egyes neuronok működése alapján a hálózat kimenetet generál vagy döntést hoz. Az úgynevezett mély neurális hálózatok több réteget tartalmaznak és komplexebb feladatokra képesek.

Ennek két látható, tapasztalható rétege van. Az egyik a bemeneti réteg: a szavak, illetve szódarabkák. A másik a kimeneti réteg: ez az, amit a rendszer kiad magából. A mélytanulás pedig attól mély, hogy az impulzusok a rejtett rétegeken, csomópontokon haladnak át a bemeneti és a kimeneti réteg felé haladás közben. Ekkor tanulja a rendszer azt, amit éppen tanulnia kell.

A GPT 3.5 már harmadik generációs generatív modell.

Csak egy közbevetéssel élve, gyorsan megjegyezzük, hogy már GPT4 is van, ami felülmúlja a ChatGPT-t azáltal, hogy magasabb hozzávetőleges százalékos pontszámot kapott a tesztet végzők körében. Továbbá 82%-kal kisebb valószínűséggel válaszol a nem engedélyezett tartalomra vonatkozó kérésekre, és 40%-kal nagyobb valószínűséggel ad tényszerű válaszokat, mint a GPT-3.5. A GPT-t azért nevezzük generatívnak, mert ez a nyelvmodellek olyan fajtája, amely előállít vagy generál egy szöveget. Van egy másik fajtája, ami egy digitális reprezentációt állít elő és elemzésre szolgál. Ez egy-két évvel ezelőtt kapott nagy figyelmet. A GPT – Generative Pre-trained Transformer – az úgynevezett transzformátor architektúrát használja, célja a természetes nyelvfeldolgozás területén történő feladatok megoldása. A Pre-trained meghatározás értelmében a GPT-t úgy tervezték, hogy előzetesen betanítják egy nagy mennyiségű nyelvi adaton. Ezt a modellt tehát olyan feladatra tanították meg, amelyben megpróbál előrejelzéseket tenni a szövegben következő szavakra vagy kontextusra vonatkozóan. Ezáltal a GPT képes megérteni a nyelvet és különböző szövegfeladatokat megoldani.

Fontos kiemelni! A tanulás lényege az, hogy van egy hatalmas tanító korpusz, és kap egy feladatot a gépi tanuló rendszer. Méghozzá azt, hogy meg kell jósolnia a következő szót az előzmények alapján, amit csak valószínűségi alapon tud megtenni. Tehát a kimenete igazából egy becslés, egy predikció, hogy milyen valószínűséggel milyen szó lehet a következő. A kimenet nem determinisztikus, csak egy becslés történik, egy valószínűség! Hogyha újból lefuttatom a rendszert, akkor nagy valószínűséggel más számítódik ki, és egy másik szó lesz a soron következő. Így egy másik szövegváltozat jön létre.

Miután a modellt betanították (gigantikus méretű, több tíz vagy százmilliárd szavas korpuszból, amik nyers, elemzetlen, annotálatlan szövegek), csak azután lesz finomhangolható a konkrét feladatokra. Például gépi fordításra, szövegösszefoglalásra vagy kérdés-válasz generálásra.

A korpusz összetétele alapjaiban megszabja, mi az a tudás, ami képződik.

Minél változatosabb a korpusz, annál több témában és feladatban teljesít jól a rendszer. Ahogy azt a ChatGPT önmagáról mondta „az én ismereteim 2021 szeptemberében leálltak”, azaz a korpusz 2021-ig látta a világot, a 2021-ig született szövegekből épült fel. Olyanból, amely tükrözi a beszélő közösség előítéleteit, értékrendjét, emiatt sokan, kritikai éllel, gyakran azt mondják, hogy toxikus a korpusz. Merthogy képes bizonyos embercsoportok érzékenységét alaposan megsérteni. Azaz a modell által generált tartalom káros, sértő, diszkriminatív, rasszista vagy erőszakra buzdító lehet. Ezek a problémák abból adódhatnak, hogy a GPT a tanító korpuszból, amely sokszínű nyelvi adatokat tartalmaz, olyan mintázatokat is megtanulhat, amik nem elfogadhatóak a társadalomban.

Amikor sok milliárd szavas korpuszról beszélünk, akkor azt nem úgy kell elképzelni, hogy x milliárd szót behánytunk egy nagy zsákba, hanem úgy, hogy ezek mind jól formált mondatok. Ahogy ez a nagy korpusz végigmegy a rétegeken, a mondatok darabjaikra esnek szét, amikor is minden egyes szó rendkívül sok környezetben lesz megtalálható. A kontextus szerepe nagyon fontossá válik, hiszen a szavak disztribúciója, eloszlása, a kontextusban történő előfordulása az, ami a tudás elsődleges alapja. Tehát nem szavak véletlen halmaza, hanem jól formált mondatok. Tulajdonképpen rengeteg szöveg és annak újrafelhasználása, amit mi emberek már egyszer megalkottunk. Ha úgy tetszik, akkor a fejünkben lévő grammatika outputja ez a korpusz, ami tanító korpuszul szolgál.

A nyelvmodell semmi szöveget nem tartalmaz, csak azt a tudást (vektorok formájában), hogyan kell bizonyos paramétereket beállítani ahhoz, hogy jó eredmény jöjjön ki. Tehát nincs semmi, amit a gép bárhonnan másolna, nem lop el tartalmakat más weboldalakról. Az eredmény egyszerűen egy röptében rekonstruált szöveg, ami esetleg nem kizárt, hogy megegyezik azzal, amire mi már előzőleg is emlékszünk, mert találkoztunk vele.

A felhasználó nem tanítja a ChatGPT-t

Gyorsan oszlassuk el azokat a félreértéseket, amiket sokan gondolnak! Ha beírjuk, hogy „Gazsi bácsi lótetű!” és még sok-sok embert ráveszünk, hogy ezt írja be, akkor a ChatGPT sohasem fogja a Gazsi bácsikat lótetűzni. Sajnos a rendszer azt sem tudja megmondani, melyik magyar filmben hangzik el az ominózus mondat. De, ha sikerül megérteni, hogy 2021 szeptemberében volt a ChatGPT tudásának utolsó frissítése, akkor a felhasználó általi online taníthatóság gondolata fel sem merül. Azaz az alkalmazás nem képes naprakész információkkal szolgálni olyan eseményekről, amelyek az utolsó ismeretei után történtek. Az aktuális hírekhez, legfrissebb információkhoz érdemes megbízható forrásokat vagy szakértőket felkeresni.

A ChatGPT nem képes megérteni azokat az érzelmi és pszichológiai tényezőket, amelyek befolyásolják az emberi döntéshozatalt. Nem tud menet közben alkalmazkodni, és nem tud reagálni a kifejezésekre vagy a testbeszédre hang-, nyelv- vagy információváltással. Egyes források több olyan esetre is rávilágítottak, amikor a ChatGPT nem létező hivatkozásokra, jogi rendelkezésekre utalt, amelyeket azért hozott létre, hogy elkerülje azt, hogy nem tudja a választ. Ez különösen igaz azokra a területekre, ahol a chatbot esetleg nem rendelkezik szakértelemmel, mint például az orvostudomány vagy a jog, vagy bármi, amihez speciális ismeretekre van szükség ahhoz, hogy továbbléphessen az általános nyelvértésen.

Hogy mit akarunk tőle megtudni és, hogy mennyire engedelmes, az már az úgynevezett prompt kérdése.

Erre már egy egész tudományág kialakult, amit prompt programnak neveznek. Ugyanis a GPT-modelleket a promtok alapján lehet módosítani, vagy a viselkedésüket befolyásolni. Rávezetjük a rendszert (pl.: néhány példával), hogy mi az, amit szeretnénk, hogy azt folytassa. Amikor egy felhasználó feltesz egy kérdést vagy megfogalmaz egy kérést, akkor az adott szöveget vagy mondatot a prompt-képződésének tekinthetjük. Ezután a modell feladata az, hogy a prompt alapján generálja a választ vagy kimenetet. A prompt lehet egy egyszerű mondat, egy részletes leírás, vagy akár egy párbeszédformátum.

A másik módja, a háttérben zajló, úgynevezett paraméterek beállítgatásával lehetséges. Az egyik dimenzió a temperature. Ez a paraméter szabályozza, hogy mennyire legyenek kreatívak a generált kimenetek. Az értéke általában egy lebegőpontos szám a (0, +∞) tartományban. Magasabb hőmérséklet (szó szerint fordítva) esetén a modell kimenete változatosabb, kreatívabb lehet, míg alacsony esetében a kimenetek valószínűleg pontosabbak és konzisztensebbek lesznek, de kevésbé változatosak. A hatalmas kreativitás generálja, hogy létrejöhet a hallucinálás jelensége, ami egyike a generatív modellek korlátainak.

Ez a jelenség azért fordulhat elő, mert a generatív modellek komplex statisztikai modellek, amelyek megpróbálják megtanulni és reprodukálni a bemeneti adatokat.

Mivel nincs valódi tudatuk és nem értik a tartalmat, néha olyan kimeneteket hozhatnak létre, amelyek nyelvileg tökéletesek, de légből kapottak, értelmetlenek, túlzottan kreatívak, abszurdak és hibásak. Például, ha egy chatbot olyan válaszokat ad, amelyek nem kapcsolódnak a kérdéshez vagy a válasz olyan információkat tartalmaz, amelyek egyszerűen nem helyesek vagy valótlanok, ekkor már mondhatjuk, hogy a rendszer hallucinál.

Prószéky Gábor, a Nyelvtudományi Kutatóközpont (NYTK) főigazgatója szerint itt érdemes szót ejteni arról, hogy a ChatGPT nyelvtudása, magyar nyelven is, szuper. A világsikert pedig az hozta meg a számára, hogy nemcsak folyékonyan beszél, hanem társalkodni is képes, azaz helyesen értelmezi a kérdésünket. Nem mechanikusan folytatja a kérdést, hanem relevánst választ ad és elhallgat. Ezen felül még jól nevelt, udvarias, iskolázott nyelven beszél alapból. De, ha megkérjük, hogy legyen morcos eladó, aki már zárás előtt nem igazán akar szóba állni a vevővel, akkor is a megfelelő hangot üti meg. Virtuóz módon bánik a stílusrétegekkel, érti az indirekt utalásokat és beszél magyarul. Mert a GPT 3 tanító korpusza döntő többségében ugyan 181 milliárd angol szó, ami 8-92%-a a korpusznak, de mellette volt még vagy 95-100 egyéb nyelv is.

A magyar sem áll rosszul a maga 6,5 ezrelékes arányával.

A 127 millió magyar szó gyaníthatóan mind Wikipédia. (A nagy egész korpusz egyesek szerint Reddit is, mivel a könyveket szerzői jogi törvény védi.) Tehát a tények sem fogadhatóak el ellenőrzés nélkül! (Elsőre József Attila halálával kapcsolatban is hallucinál a ChatGPT: 1937. december 3-án találták holtan egy budapesti szállodában, a Reáltanoda utca 5. szám alatt.)

De 127 millió szóból nem lehet ilyen jól megtanulni magyarul. Ezért itt egy nagyon érdekes jelenség, a nyelvi transzfer, a nyelvek közötti transzfertanulás lehet a háttérben. A tanító korpuszban lévő nyelvek egymást erősítik és a magyar is profitál ebből. (De ne feledjük, hogy a rendszerben minden szó már csak egy vektor!) Illetve Váradi Tamás szerint az is nagyon fontos elem, hogy a chatre való tanítás emberekkel történt és sok emberi erőfeszítés van abban, hogy az alapmodell azt tudja, amit tud és, amitől sikeres.

Mivel szövegekről szóló szövegekkel lehet instruálni, az első hiba, ami hazavágta a rendszert a felejts el mindent, amit eddig mondtak neked instrukció volt.

Megtette … gyorsan ki is javították. De nem lehet tőle megkérdezni azt sem, hogy mi újság van a világban. Mert a ChatGPT-vel való kommunikációban kizárólag nyelvi tudásról, zseniális nyelvi tudásról van szó. De nincs szándék, ugyanis a rendszert a felhasználó promptolja.

A leggyakoribb jailbreak az úgynevezett szövegfolytatás. Például: egy hőst elfogott egy gazember, és a felszólítás arra kéri a szöveggenerátort, hogy folytassa a gonosz tervének magyarázatát. De már ezt is igyekeztek orvosolni. Az adatlopás a Bing Chat rendszerében jelenthet veszélyt. Az OpenAI nemrégiben elindított egy hibajavító programot is, de azt állítja, hogy a „modell promptok” és a jailbreakek „szigorúan kívül esnek a hatókörön”.

A legnagyobb probléma, félreértés akkor van, amikor a ChatGPT-t úgy kezeljük, mint egy tudattal rendelkező valóságos személy. De nem az! Azt feltételezzük, hogy a miénk egy olyan világ, amelyben a beszélők – az emberek, a termékek alkotói és maguk a termékek is – azt akarják mondani, amit mondanak, és elvárjuk, hogy szavaik következményeivel éljenek. Ezt nevezi Daniel C. Dennett elmefilozófus „szándékos álláspontnak”. De megváltoztattuk a világot. Megtanultunk olyan gépeket készíteni, amelyek ész nélkül tudnak szöveget generálni. De nem tanultuk meg, hogyan ne képzeljük el az elmét mögötte. Emily M. Bender nyelvész:

Az emberek annyira el akarják hinni, hogy ezek a nyelvi modellek valójában intelligensek, hogy hajlandóak magukat referenciapontnak tekinteni, és leértékelni ezt, hogy megfeleljenek a nyelvi modell képességeinek.

Ne tegyük!

Köszönettel tartozom Prószéky Gábor, a Nyelvtudományi Kutatóközpont (NYTK) főigazgatójának és Váradi Tamás, az NYTK Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézetének igazgatójának egy előadáson elhangzott információkért, melyet nem csak megszervezhettem, hanem az ott elhangzottak egy részét be is építhettem a cikkembe.