Mindenkiről mindent tudni

Kategória: Cikkek, írások Megjelent: 2014. szeptember 28. vasárnap

Az óriási digitális lábnyomunk, az hozza a nyakunkra az NSA-t. Az IBM új adatvizualizációs szoftvere épp úgy használható bűnmegelőzésre, mint egy terroristacsoport kapcsolati hálójának elkészítéséhez. Az egyik fejlesztő, Mark Ploszay korábban a katonai hírszerzésnek dolgozott; szolgált az amerikai és a brit légierőnél, de dolgozott külföldi hadseregek tanácsadójaként és profi kódfejtőként is. Az idei ITBN-en ő mutatta be, hogy mire képes a big data-analízis, ha bűnüldözésre használják.

 „Rá kell szánni napi 16 órát. Persze, van, akinek ösztönös érzéke van hozzá. A legtehetségesebb jóformán csak ránézett a lapra, és azonnal meglátta a kódban az összefüggést. Én 16 órán át izzadtam és gyűrögettem a papírokat.” – mondja Mark Ploszay. Épp azt kérdeztem tőle, hogy lett belőle az amerikai Nemzetbiztonsági Hivatal (NSA) egyik legjobb kriptográfusa. De tényleg, a legjobb 2 százalékba tartozik.

Ploszay több mint harminc évig dolgozott katonai hírszerzőként és biztonsági szakértőként három- és négybetűs kormányügynökségeknél. Az amerikai és a brit légierő egyaránt leigazolta, részt vett a Sivatagi Viharban, és a szakértelmére az FBI épp úgy igényt tartott, mint a spanyol vagy japán védelmi erők. Súlyos bűncselekmények, terrorista-elhárítás, gyilkossági esetek, bűnszövetkezetek felderítése, kódfejtés – ez mind az ő asztala. Sajnos Ploszay nem beszélhet a katonai múltjáról – köti a szigorú titoktartási szerződés –, pedig érdekelne, milyen lehetett az SR-71 és U-2 repülőgépek kémfotóiból kibogarászni a kommunizmus bukását. Vajon izgalmasabb az IBM hátszelével adatvizualizációs rendszert tervezni, ami automatikusan készíti el a bűnszövetkezetek és terroristacsoportok kapcsolati térképét?

„A Sivatagi Vihar idején is információk feldolgozásával és rendszerezésével foglalkoztam – mondja. „Ez bármilyen formában érkezhet. Lehet elektronikus adat, műholdas felvétel, emberi forrás; igazából mindegy. A legnehezebb mindezt használható információvá alakítani.” A konferencián bemutatott adatvizualizációs technika az emberi agy csekély számítási kapacitását bővíti ki. Egybilliós (igen, ezermilliárdos) adatbázissal az agy nem boldogul, a számítógép igen. Márpedig a big data-elemzés lényege – az IBM modern kori vesszőparipája –, hogy minél több adatból dolgozunk, annál pontosabb lesz az előrejelzés. Akármit akarunk megjósolni.

3 nap helyett 30 másodperc

A big data-analízist lehet ártalmatlan, de hasznos dolgokra is használni; ilyen például egy mozifilm bevételeinek előrejelzése. A magánszféra szentségéért aggódók és a terroristák viszont valószínűleg frászt kapnak, ha meghallják, a technológiát milyen hatékonyan lehet használni a bűnüldözésben is. Az új adatvizualizációs rendszer fél perc alatt elvégzi azt a munkát, ami az elemzőknek tollal-papírral három napig tartana – már ha hihetünk Ploszaynak, de ha valakinek, neki nyilván van rálátása a dologra.

A hírszerző és bűnüldöző szervezetek csak úgy tarthatják a lépést a bűnözőkkel, ha naprakész adatokkal dolgoznak, valamint részletes kapcsolati térképet és előrejelzést készíthetnek a gyanús személyekről, illetve arról, hogy mire készülnek. (Nyugalom, ez még nem a Különvélemény; a bűnmegelőzés fogalmát nem ma találták föl.) Az IBM rendszere a látszólag kaotikus adathalmazban is megtalálja a kapcsolódási pontokat, így a szoftver felépíthet egy összefüggésrendszert, amivel az elemzők dolgozhatnak.

Itt jön a képbe, amit Ploszay mondott: hogy a hírszerzőknek használható adatokra van szükségük. Az új rendszerrel több ezer terabájtnyi adatot lehet komplex keresési feltételek szerint csoportosítani, de az igazi húzóereje, hogy magától találja meg az összefüggéseket – csak adatmennyiség kérdése a dolog. (Ezt az IBM is tudja; valószínűleg nem véletlen, hogy a Big Blue Innovation Centre nemrég leszerződött vagy száz indiai céggel, akik big datával (is) foglalkoznak.)

„Gyakorlatilag végtelen adatforrásaink vannak, fuldokolhatunk az adatokban.” – mondja Ploszay. Az adat származhat telekommunikációs forrásból, bűnüldöző szervek jelentéseiből, de lehet akár földrajzi koordináta is. Az adatvizualizációs rendszer épp úgy használható nemzetbiztonsági célokra, mint a pénzmosó hálózatok vagy a szomáliai kalóztevékenység feltérképezésére. A lényeg mindig ugyanaz: milliónyi adat közt megtalálni az összefüggéseket, elvégezni a leegyszerűsítéseket, és kinyerni a nettó információt.

Ki, hol, kivel, mit

Ploszay szerint az elmúlt évtizedekben a hírszerzés célja nem változott, csak az eszközei. Az elemzőknek most máshogy van nehéz dolguk, mint húsz-harminc éve: régen a befutó adatokra vártak, hogy elkezdhessenek dolgozni, de ma a releváns információt kell megtalálni a több ezer petabájtnyi adatkupacban. Némi segítséget nyújt, hogy az értesítési rendszer automatikusan figyelmeztet az állapotváltozásokra: így az elemzők tudni fogják, ha történt az adott járműre, helyszínre vagy személyre vonatkozó változás. Ha hagyják, hogy ezt a gép csinálja, több száz manuális lekérdezést spórolhatnak meg.

Ploszay – aki nyilván belülről is látta ezeknek a szervezeteknek a működését – azt mondja, az adatvizualizáció egyik nagy előnye, hogy segíti a különböző munkacsoportok együttműködését. A nyers adatokkal dolgozó hírszerzők és a geográfiai analízist készítő munkatársaik például egyszerre használhatják ugyanazt az interaktív térképet, amire könnyű felvinni az adatokat, így meghatározható a célszemélyek lakóhelye, mozgástere és tevékenységi köre, és hozzá lehet fogni a kapcsolatok kiismeréséhez. Tehát a „ki” után jön a „hol”, majd a „kivel”. Tudni fogják, hogy az illető melyik kávézóban fizetett, hogy kivel találkozott, és hogy megint azzal az autóval mentek-e, aminek a nyilvántartási száma az egyik ismerős nevére volt regisztrálva. Ha van ilyen adat, a rendszer megtalálja.

Ploszay megjegyzi, hogy a közösségi hálózat analízisének semmi köze a Facebook vagy a Twitter mechanizmusához; ők nem szimpla kapcsolati térképet készítenek, hanem csoportdinamikai vizsgálatokat végeznek. Sokszor a kapcsolódási pont nem más, mint egy műholdfelvétel, egy dokumentumra mutató link, vagy egy fénykép. Nem egyszerű töredékinformációkból összelegózni a teljes képet, mivel manapság olyan adatokat is felhasználnak az elemzéshez, amire korábban nem is tekintettek használható adatként.

Az ember a legfőbb értékelő

„Aha. Tehát ha a gép kidobja, hogy az adatok szerint bűnös vagyok, rám rúghatja az ajtót az FBI?” – kérdezhetik. Nem egészen. A fejlesztők már korábban rájöttek, hogy gondolni kell majd a duplikációkra is, mert ha például egy milliárdos adatbázisban rákeresünk a Smith (Kovács) vezetéknevű személyekre, jó eséllyel kapunk vagy 2,8 millió találatot. Az IBM fejlesztői ezért készítettek egy Identity Insight nevű szoftvert, ami a duplikációkra vadászik. Ploszay szerint az elemzőkben megfagyott a vér, amikor a mérnökök ezt a folyamatot is automatizálni akarták. „Nem állhatunk oda a bíróság elé, arra hivatkozva, hogy azért tartóztatjuk le ezt a személyt, mert egy gép így döntött.”

Itt jön a képbe a recommendation engine, az ajánlórendszer. Ha mondjuk 250 ezer bejegyzésből 150 duplikáció – például azonos a születési név és a születési dátum, de nem stimmel a cím –, az elemző eldöntheti, hogy mekkora az esélye annak, hogy ugyanarról a személyről van szó, majd megad egy valószínűségi értéket. Az információ fajsúlyát tehát az ember határozza meg, nem a gép – még akkor is, ha ez az eljárás a mérnököknek nem igazán tetszett. Ennek részben az az oka, hogy a bigdata-elemzésben friss, sőt, lehetőség szerint valós idejű információkkal érdemes dolgozni; nyilván, mert az új változók egyre pontosabbá teszik az előrejelzési modellt.

Könyvtárakkal legózó

Tehát hogy is működik a rendszer? Attól függ, mire szeretnénk használni. Ha banki adatbázisokból dolgozunk, felrajzolhatjuk a pénzmosó szervezetek tevékenységét. Ha szervezett bűnözői csoportokat akarunk kiismerni, a potenciális tagok személyes információit és kapcsolatait kell felhasználni, nyilván bűnügyi adatbázisokra alapozva. Az elemzők ilyenkor még azokat az adatokat is figyelembe veszik, amiknek látszólag nincs relevanciája – legfeljebb alacsonyabbra értékelik. De az is adat.

A több millió adatbázis több millió petabájtjában természetesen rengeteg hulladék lesz, de az ajánlórendszer elvégzi az egyszerűsítéseket, illetve a folyamatosan érkező újabb adatokat is feldolgozza. Nagyjából olyan az egész, mint amikor a rendőrök a mágneses táblán tologatják a fantom- és fényképeket és post-it cetliket. Csak itt egész könyvtárakkal legózik egy gép, miközben tűket keres és talál egy szénakazalban.

Ploszay szerint a rendszer kapcsolatban áll 1,7 millió telefonos adótoronnyal, 100 millió egyedi telefonszámból válogathat, 120 millió személyről van ilyen-olyan információjuk, és még a napi egymilliárd telefonhívásra, SMS-re és faxra is marad kapacitása. És ez nem a jövő – ez a rendszer már most is működik. Megrendelik, leszállítják, 5 nap alatt betanítják a személyzetet, 5 nap alatt a menedzsmentet, és máris használhatják – pénzmosási ügyek felderítésére, gyilkossági esetek feltérképezésére, vagy bármilyen összefüggés felismerésére; egyre megy.

Régi nóta, új eszköz

Kicsit később a kínai kiberbűnözésről is kérdezem Ploszayt. Vajon mekkora esély van rá, hogy Kína behozza a húszéves haditechnikai lemaradását az Egyesült Államokkal szemben, ha az alulfizetett programozóik elég ügyesen lopják az F-22-es vadászgépek tervrajzait?

„Egy háborút nem lehet csak légierővel megnyerni” - mondja, majd hozzáteszi: az ipari kémkedés nem új keletű dolog, és lehet is védekezni ellene – csak éppen most más eszközöket használnak hozzá, mint tíz-húsz éve. Ugyanez igaz az adatvizualizációs szoftverre is: az elemzői munkát továbbra is el kell végezni, csak nem mágneses táblával, fotókkal és térképekkel, hanem két kattintással, automatizmussal, kézműves rating rendszerrel.

(Hegyeshalmi Richárd, index.hu)

You have no rights to post comments