szombat, május 31, 2014

a gyenge elefánt a mikrocsipben

Eleddig mind szép és jó volt minden. De hogy lesz igazi MI 2029-re, ha ma még közelében sem járunk? Ez itt az elefánt a szobában, illetve a mikrocsipben, eljött az ideje, hogy ezt a témát nyúzzam egy kicsit.

Nagyon sokféle osztályozása van az MI rendszereknek, az egyik a gyenge (weak) és erős (strong) osztályozás. Ezek szerint azokat az MI-ket nevezzük gyengének, amelyeket egyetlen feladat megoldására hoztak létre, bármilyen jól is teljesítik azt a feladatot, gyengék, mivel nem képesek általános tanulásra. Ezekből nagyon sok van már, jónéhány területen meghaladták már az adott területen legjobban teljesítő embereket is, még sokkal több területen pedig az átlagos embereket és ha extrém körülményeket tekintünk, akkor mégjobb a helyzet, pl. elég kevés ember képes ugyanazt a feladatot 72 órán keresztül elvégezni egyhuzamban, míg MI-k (számítógépek, robotok) néha éveken keresztül végeznek egy feladatot, megállás nélkül. Ez egy nagy fegyvertény, amit általában simán lesöpörnek az emberek, ugyanis gépek ezek, ez a dolguk, de elfelejtik, hogy pl. egy embernek mennyi energiájába kerül kibírni a napi 8 óra monoton munkát, stb. Nemrégiben még csodájára jártunk a japánoknak és kínaiaknak, akik képesek voltak ilyen csodatettekre, ma már "Designed in California, Manufactured in China" és el van intézve.

Az erős MI-k azok, amelyeket nem egy bizonyos feladat megoldására terveztek, hanem általános stratégiákat tartalmaznak amelyekkel bármilyen feladattal (vagy legalábbis a feladatok elég széles körével) kellő felkészülés után képesek kell legyenek megbírkózni. Ilyen MI nem nagyon van még, vagy legalábbis nem mutogatják őket. Elméletben azért már foglalkoznak a kérdéssel, a matematikusok már rég bebizonyították, hogy minden függvény kellően pontosan közelíthető és ezzel el is veszítették az érdeklődésüket a téma iránt, valamint vannak mindenféle kognitív elméletek amelyek az emberi személyiség mindenféle működéseit (többek között a tanulást) hivatottak modellezni. Lehetne sokat fejtegetni, hogy miért nincsenek még ilyen általános MI-k, szerintem egyszerűen azért, mert nem volt rá szükségünk és általában a sok pénzt kiszámítható módszerekere szeretjük költeni. Ha pl. valaki sakkprogramot ír, nem egy embert akar modellezni és reménykedik, hogy ha elkészült vele, akkor képes lesz majd meggyőzni, hogy a sakk érdekelje és ne a középkori Európa divatja, hanem inkább egy matematikailag nagyon jól leírható kombinatorikus optimalizációs feladat heurisztikus megoldási módszereit kutatja.

Akkor jöjjön a nagy fordulat. Szerintem nincs különbség a gyenge és erős MI között, ez egy fals dichotómia. Nem azt akarom mondani, hogy bármilyen szűk feladat megoldása alkalmazható teljesen általános feladatok megoldására, hanem azt, hogy elegendő a részfeladatokat megoldani, a nagy feladat megoldása már csak a részek összeragasztása és szerintem ez nem egy alapvetően más vagy nehezebb feladat mint a részek. Nagyjából ezt látjuk az agyban is egyébként, nincsenek központi vezérlő struktúrák, amelyek végül értelmet adnak az egész katyvasznak, bár az egyes feladatoknak néha jól elkülöníthető helye van (látás, hallás, memória, stb.), elég plasztikus az agy, hogy az egyes részek kiesése esetén más rész vegye át a feladatot és némi bénázás (agyvérzés esetén szó szerint értendő, sajnos) után többé kevésbé visszaállítható a teljes funkció. A matematikusok is ezt mondják, vegyünk jó sok Gauss görbét és bármilyen bonyolult függvényt közelíteni tudunk vele, még a hiszti-függvényt is.

Ma már mindenki általános tanuló módszerekkel fog neki "gyenge" MI-t írni, azért lesz az az MI gyenge, mert esélyt sem adunk neki, hogy beletanuljon az élet nagy dolgaiba, ugyanis nem ezt várjuk el tőle. Valamint rengeteg kísérletezgetéssel és néhány jó meglátással sikerült sok-sok feladathoz néhány olyan kezdő lépést találni, amelyek sokat segítenek azon feladatok megoldásában, de ha hirtelen át szeretnénk állni egy más feladat megoldására, jobb kihagyni őket (lásd pl. gépi látás és hallás lépéseit amíg eljutnak az osztályozóig). Igazából ha most valaki előállna egy teljesen általános MI-vel, fogalmunk se lenne, hogy mit kezdjünk vele (ezért egyébként nem is lehetünk teljesen biztosak benne, hogy már nem állt elő valaki vele, egyrészt a legtöbb módszert ki sem próbálják olyan területeken, amelyek nem szorosan kapcsolódnak az eredeti területhez, amelyre szánták, másrészt meg tényleg nem vagyunk még ott számítási kapacitásban, hogy nagyon kísérletezhetnénk ilyenekkel). A történet még ma is arról szól, hogy izomból próbáljunk minél jobb és jobb módszereket találni szűk feladatokhoz, ezeket lehet publikálni, mert ezeket lehet elég egyszerűen mérni, ezeket lehet használni, mert a legtöbb eszközünknek nagyon jól meghatározott feladata van. Csak mostanában, a mobil forradalommal jutottunk el oda, hogy a telefon esetleg tudhatná azt, hogy hol van a legközelebbi étterem, amiben kutyagumit is felszolgálnak. És ezt akár szóban is megkérdezhetnénk. És ha mindezt már tudja, akkor tudhatná a holnapi időjárást is és akár figyelmeztethetne arra is, hogy kinek van névnapja. Azt még nem bízzuk rá, hogy mit vegyünk neki ajándékba, de eljön az az idő is.

Tekintsük pl. azt a sakkprogramot, ami győzedelmeskedni tudott Kasparov felett. Bizonyára azt sem tudja, hogy a vasárnap után a hétfő következik. Viszont a keresési algoritmusok, amelyeket használt hasznosíthatók bármilyen folyamat tervezési és irányítási feladatban, legyen az repülőjegy foglalás vagy egy hajóra konténer rakodás. A speciális processzorok amiket hozzá fejleszettek direktben befolyásolták a modern szuperskalár architektúrákat. Bár csak egy gyenge MI, nagyon sokat mozdított előre minden téren. Vagy Watson, a Jeopardy győztes MI, valójában csak kb. 100 gyenge MI és az azokat kombináló (egyébként ha jól emlékszem, konvex) függvényt optimalizáló architektúra, ami meg van fejelve még néhány rekurzív lépéssel is. Amiben zseniálisat alkotott az a 40 ember aki 4 év alatt létrehozta az az, hogy elhitték, hogyha jól megcsinálják a részeket, azzal a résszel együtt, ami az egészet összerakja, akkor az egész sokkal több lesz mint a részek összege. A Watsonnak vannak teljesen nem MI-nek tekintett részei is, pl. irodalmi, földrajzi, biológiai stb adatbázisok, amelyek csak egyszerű tényeket tárolnak és keresnek vissza. Persze, felettük van néhány réteg, ami el kell tudja dönteni, hogy pont milyen tényt akarunk visszakeresni, de ezek is csak többé-kevésbé működnek, jól mutatja ezt ugyebár, hogy a hülye szójátékokat meg tudta oldani, de az nem tartotta nagyon fontosnak, hogy amerikai városokról nem igazán Toronto jut eszünkbe (bár van ilyen város az USA-ban, ezt viszont jobban tudta valószínűleg az amerikaiak 99%-ánál). Az is érdekes, hogy teljesen "gyenge" módszertannal dolgoztak, amíg a Watsonon dolgoztak, volt egy precision-recall görbe, ami a legjobb Jeopardy játékosok teljesítményét jellemezte és azt optimalizálták 4 éven keresztül, amig el nem jutottak az ő szintjükre és akkor a feladatot megoldottnak tekintették, mert egyrészt bízhattak abban, hogy gyorsabban meg tudják nyomni a gombot, mint az ember (bár erre is kellet egy gyengécske MI-t írni, ami meg tudta jósolni, hogy mikor fogja befejezni a bemondó a kijelentés felolvasását) és a válaszadás sebességét simán fel tudták skálázni rengeteg hardver felhasználásával (egyébként azóta is ez a legfőbb fejlesztési irány, ledolgozni azt a rengeteg mikrocsipet, amit felszedtek az első megpróbáltatáskor). Ja és írtak egy másik gyengécske MI-t, ami a legjobb Jeopardy stratégiát játszotta. Az eredmény meg valami egészen erősnek tűnő dolog, bár az IBM múzeumban, ahol ki van állítva Watson, verték már meg látogatók rövidebb Jeopardy partikon.

A lényeg az, hogy én nem látom annyira a gyenge/erős dichotómiát. Bár ma még van értelme, főként azért, hogy felhívja a figyelmet arra, hogy kéne az erős MI kutatására is pénzt áldozni. Szerintem az irány teljesen megfelelő, tanuló rendszereket készítenek a feladatok megoldásához, semmi bekódoljuk előre a megoldást. Persze, kell használni néhány trükköt, főként azokat, amelyekről tudjuk, hogy segítenek a módszereken, amiket tanulmányozunk. Persze, most a deep learning forradalom meg már ennek is ellentmond, nem kell már a jó trükk, csak sok adat és sok szint a hálóban. Legalább az egyes szintek tervezésénél még lehet trükközni. Ha majd meglesz a teljes, erős rendszer, lehet majd szórakozni az egyes gyenge részek helyettesítésével, kiiktatásával, áttervezésével, amíg az egész egy nagy homogén katyvasz nem lesz, de legalább közben már lehet az MI előnyeit élvezni, csak csíszolni kell a rendszert.

Remélem ezennel elűztem az elefántot ami itt lebegett az eddigi írásaim körül, legközelebb nem tudom mi lesz, talán ugyanez a téma, hogy hogyan jutunk el az erős MI-hez hamarosan.

Nincsenek megjegyzések: