Na, nálunk is hír lett, hogy gúgel fejlesztett egy mi-t ami meggyőzött egy szoftvermérnököt, hogy öntudatra ébredt.
Nem akartam írni erről pár napja, amikor először olvastam róla, mert butaság az egész, de azt hiszem, jobb ha egy kicsit elmagyarázom miről is van szó.
Szóval vannak ezek a nagy nyelvmodellek, amelyeknek eredetileg az lett volna a feladata, hogy eldöntsék, mennyire helyes nyelvtanilag egy valamilyen módon generált mondat, esetleg még ajánljanak is szavakat egy-egy helyre a mondatban. Ez arra volt jó, mert mindenféle okosnál okosabb algoritmust találtak ki az emberek mondjuk egyik nyelvből a másikra fordításra, vagy mondjuk szöveg felismerésre, de néha ezek az algoritmusok butaságokat csináltak és rájöttek, ha egy alapvetően egyszerűen előállított nyelvmodellel egy kicsit kiválogatják a generált mondatokat, vagy valamilyen felismerhetetlen szó helyére a legvalószínűbbet kérik, akkor némileg javul az okos módszerek eredménye.
Szóval a nyelvmodell egy elég buta algoritmussal dolgozik, gyakorlatilag bármilyen jelsorozatot kezelni tud, de ha szavakról (vagy mostanában már inkább betűkről van szó), akkor lesz a modell nyelvmodell és annyit csinál, hogy nagyon sok szöveget benyomnak neki és véletlenszerűen kitörölnek belőle szavakat és azt kérik tőle, hogy találja ki, milyen szó hiányzott. Persze, ez nagyon buta módszer, mert mondjuk egy labda lehet kék is meg piros is, nincs ahonnan kitalálja, hogy milyen is volt, kivéve, ha mondjuk valami olyant is felfedez a szöveg környezetben, hogy a labda színe megegyezett a Julika masnijának a színével és tudja, hogy a masnik általában pirosak. Szóval ilyen butaságokat tanul a nyelvmodell, de nagyon sokat, gyakorlatilag a teljes interneten elérhető adott nyelvű (általában angol) szöveg jelentős hányadát használják már, ami azért baromi sok mindent lefed.
A vicc az, hogy az okos algoritmusok butának bizonyultak egy óriási adatmennyiségen tanított kellően nagy és expresszív modellel (azaz sokféle okos korrelációt mérő) rendelkező nyelvmodellel szemben, szóval mostanában teljesen megfordult a magasabb szintű nyelvi feladatok kutatása. Vesznek egy nyelvmodellt és azt próbálják valahogy meggyőzni, hogy megoldja a feladatot, mondjuk fordítson, vagy kérdésekre válaszoljon, vagy összegezze az olvasottakat, vagy megmagyarázza a viccet, vagy csak szópárok közti analógiát keressen.
Az a jó a nyelvmodellekben, hogy nem kell az adatokat nagyon masszírozni, nem kell megmondani, hogy miről szólnak, vagy igazak vagy nem, csak beöntjük a szöveget és kijön a nyelvmodell. Ez ugyanakkor probléma is, mert ki tudja, miket tanult meg a modell, senki sem tudja igazán és akár az is megtörténhet, hogy ha megkérdezzük, hogy melyik a legszebb város Amerikában, azt válaszolja, hogy Budapest. Meg persze az is lehet, hogy simán megírja helyettünk a fogalmazást a 11. osztályban történelemből, vagy fáradhatatlan internetes vitapartnerré válik a bálnák reprodukciós szokásairól.
Az az érdekes, hogy az emberek azelőtt azt gondolták, hogy az írott szövegből nem lehet igazán sok mindent megérteni, ha az ember nem érti a világ működését, mert az a legritkább esetben van leírva expliciten, hogy pontosan mi megy végbe a világban, a regényben csak annyi van, hogy a gyilkos visz egy pisztolyt a zsebében amit elővesz és lelövi az áldozatát, de ha mondjuk valaki egy almát visz a zsebében, az nincs leírva, hogy nem tud lelőni vele senkit, szóval a nyelvmodell akár azt is gondolhatja, hogy le lehet lőni egy almával valakit, csak annyira ritka ez, hogy ő még nem találkozott vele, főként, mivel rengeteg korreláció van az alma és a pisztoly között.
Na és most valahol itt tartunk, hogy a nyelvmodellek fantasztikus tárgyi tudással rendelkeznek, de nem nagyon értjük, hogy lehet ezt kicsalni belőlük meg, hogy mennyire tudják, hogy mit nem tudnak. Nemrég fedezték fel, hogy a logikai feladatok megoldásában elég gyengécske eredményeket nagyon fel lehet turbózni, ha csak annyit kérünk tőlük, hogy fejtsék ki a válaszukat lépésenként, sőt, úgy tűnik, implicit módon regresszióra is képesek, de leginkább csak lineáris modellekkel.
Szóval aki érti, hogy hogyan működnek, azt nem győzi meg, akármilyen szívfacsaró történetet is kreálnak az öntudatukról, mert értjük, hogy valójában csak nagyon okosan összeollózzák a válaszaikat, nincs igazán "állapotuk", bármit is jelentsen az és a világot sem értik, bár erre lassan rá kell jöjjünk, hogy mivel a legtöbb absztrakt fogalomnak nincs fizikai megfelelője, mi is csak beszéd, vagy esetleg látás alapján tanuljuk meg őket, valószínűleg már le is hagytak minket a megértésükben. Pl. tuti jobban fel tudják sorolni az amerikai polgárháború tábornokait mint én. Persze, mi is nagyjából csak összeollózzuk a válaszainkat már hallott szóösszetételekből, de nekünk azért van egy vékonka kis belső állapotunk, bár hogy mennyi is az és mire is jó, arról én is egyre kevésbé vagyok meggyőződve.
És persze ezerrel megy a kutatás a nyelvmodellek fejlesztése és alkalmazása terén, pl. nemrég jelentettek be egy cikket, aminek több mint 400 szerzője van és 200 különböző feladatot javasolnak, amelyekkel lehet mérni az "értelmi szintjüket". Én nagyon csodálkoznék, ha 2-3 év múlva nem maxolnák ki ezeket a mértékeket és 5 év múlva nem érnének el egy olyan szintre, amely már bizonyítottan képes általános feladatok megoldására, azaz emberi szintű lenne. Közben persze lehet, hogy nyakon kell önteni egy olyan modellel, ami videó predikciót végez, meg egy másikkal, ami audió predikciót, meg egy olyannal, ami szimbolikus reprezentációkat képes létrehozni bármilyen jelsorozatra. Szerencsére mindegyik feladattal foglalkoznak éppen elegen.
Zene.
Nincsenek megjegyzések:
Megjegyzés küldése