Egy fiatal hölgy terhességéről vajon a családja értesül előbb vagy egy áruházlánc? Mi köze egy hurrikánnak az előrecsomagolt édességek eladásához? Ki lehet-e néhány adat alapján mutatni, ha valaki bűnt akar elkövetni, és etikus-e még bármilyen bizonyíték nélkül közbeavatkozni? Megmondhatja-e egy algoritmus, hogy jogosultak vagyunk egészségbiztosításra? Látszólag összefüggéstelen kérdések, mégis van bennük valami közös: mindegyik a big data jelenségéhez kapcsolódik. A big data napjaink egyik legnagyszerűbb lehetősége, mások szerint legnagyobb veszélye. Cikkünkben a információs társadalom egy fontos vívmányát és annak veszélyeit mutatjuk be.

A big data napjaink egyik divatos kifejezése. Big data alatt elsősorban a hatalmas mennyiségű, főleg digitális adat elemzésére szolgáló technológiák összességét értjük, ám a big data jelenséghez hozzátartozik maga a rengeteg adat és forrásaik, valamint az egész információs társadalom, amely táptalajként lehetővé teszi ezen adatok kinyerését. Miután életünk legapróbb részlete is mérhetővé tehető, adattá alakítható és felhasználható, a big data a lehetőségek mellett rendkívül fontos etikai-morális-társadalmi kérdéseket, valamint veszélyeket rejt. Cikkünkben ezeket járjuk körül.

Először nézzünk néhány példát a big data segítségével elért eredményekre:

  1. A Google a keresőszavak bizonyos kombinációja alapján képes volt 2009-ben gyakorlatilag valós időben követni a sertésinfluenza elterjedését az USA-ban, miközben az Amerikai Járványügyi Központnak körülbelül két hetébe telt volna egy ugyanilyen térképet felállítani. Egy súlyos betegség esetén ez a két hét milliók életét követelhette volna.
  2. A Walmart tranzakciós adatbázisaink elemzésekor észrevette, hogy hurrikánok érkezése előtt az emberek fokozottan vásárolnak bizonyos termékeket. Nemcsak zseblámpát és egyéb túlélőfelszerelést, de például egy Pop-Tarts nevű snacket is. Így a Walmart a hurrikánokból is képes volt hasznot húzni és jelentősen megnövelte eladásait, mivel hurrikán-előrejelzéskor ezeket a termékeket rakják a legelső polcokra.
  3. A Target nevű amerikai áruházlánc képes a keresési adatok alapján azelőtt jelezni egyes vásárlóik terhességét, hogy a családjuk értesülne róla.
  4. Kórházi szoftverek képesek megjósolni, mekkora eséllyel esik vissza a betegségbe a frissen elbocsátott személy.

Korreláció és egyéb varázslatok

A big data elemzések többsége egyszerű korreláció: az elemzők megkeresik az adathalmazból, hogy mely értékek változása mutat összefüggést más értékek változásával. A hurrikán és a település közti távolság csökkenése például összefügg az eladott Pop-Tarts mennyiségének növekedésével. A terhes nők nagyobb eséllyel vásárolnak egyszerre vitamint és ízesítetlen higiéniás termékeket. A big datát azonban nem érdekli, hogy mi áll ennek a változásnak a hátterében, nem érdekes a „miért”. A big data filozófiája, hogy az okok nem érdekesek, csak a következmények. Ha a hurrikánok közeledésekor emelkedik a Pop-Tarts eladása, logikusan gondolhatunk arra, hogy az emberek azért veszik, mert könnyen elfér egy zsebben, de nagy tápértékű, így amíg elmenekülnek a hurrikán elől, egyszerűen meg van oldva pár órára a táplálkozás. Gondolhatnánk ugyanakkor arra is, hogy Pop-Tartsokkal körberakva a házat és mellette esőtáncot járva a hurrikán elkerül minket.

Ameddig nem bizonyítottuk célzott kutatással, bármelyik hipotézis igaz lehet.

De számít a Walmartnak, hogy melyik igaz? Nem. A saját szempontjukból csak az a fontos, hogy a hurrikán közeledtével együtt emelkednek az Pop-Tarts eladások is. Az okok felkutatására már nem érné meg pénzt költeniük, hiszen így is elérték a kitűzött célt, vagyis a nagyobb profitot. A big data kutatások és piaci eredményeik azt mutatják, hogy a jövőben ez az adatgyűjtési irány teljesen helytállónak bizonyulhat. Ha 30 emberrel készítenénk egy ilyen elemzést egy szakdolgozathoz, megbuknánk, mivel az a korreláció, ami ilyen kevés emberen még megjelent, jelentős eséllyel teljesen más lesz vagy eltűnik egy nagyobb populációra általánosítva. Azonban a big data által garantált, milliós mennyiségű adatban egy ilyen egyszerű módszer is képes feltárni a széles tömegekre jellemző mintákat.

Veszély és etika

De mi köze big datának a pszichológiához?

A big data segítségével végzett pszichológiai kutatások elképesztő távlatokat nyithatnak meg.

Több ezres vagy akár milliós, országos vagy interkulturális szintű tömegek tanulmányozása válik elérhetővé, csillagászati költségek nélkül. A rendelkezésre álló adatok elképesztően sok forrásból származhatnak, olyan összefüggések kutatása válik lehetségessé, amely korábban soha. A veszély abban a faktorban rejlik, amit már korábban is említettünk: a big datában nincs „miért”.  AZ IBM „CRUSH” nevű szoftvere például a rendőrség munkáját segíti azzal, hogy megjósolja, hogy egy városnak mely területein és mikor történik potenciálisan több bűncselekmény. Arról azonban nem árul el a szoftver semmit, hogy miért nagyobb mértékű azon az adott területen a bűnözés. A rendőrség így felveheti a harcot a felszínen a bűn ellen, de a probléma gyökeréről a szoftver semmit sem tud mondani. Azért rosszabbak azok a környékek, mert szegényebbek az ott élők, és sokan a bűnt látják kilépési lehetőségnek? Azért, mert rossz az oktatás, rossz mintákat látnak a felnövő fiatalok? Azért, mert úgy érzik, hogy az állam magukra hagyta őket és így lázadnak a normák ellen? Ezeket a felvetéseket szerencsés esetben meg tudjuk vizsgálni a big data által nyújtott vezérszálon haladva, de több ezer ember adatait anonim módon felvéve – például egy pszichológiai kutatásban – ez már nem mindig lehetséges. A big data valamilyen szinten visszatér a behaviorista alapelvekhez: van egy bemeneti változó (az adott városrész), és van egy vele összefüggő kimeneti változó vagy eredmény (a bűnözés szintje). Ami a kettő közt történik, az emberi elmében, lélekben és társadalomban, az „black box” megismerhetetlen entitás, de nem is kell megismerni, hiszen az eredményt anélkül is megtudjuk. Így elveszik az egyéni tapasztalás, átélés, narratíva, érzelmek, vagyis minden ami maga az ember. A behaviorizmus uralma alatt a pszichológiára ráragadt a „patkánytudomány” gúnynév, mivel az emberiséget foglalkoztató évezredes kérdések – például mi a boldogság, mi ad értelmet az életnek – vizsgálata helyett az embert ugyanolyan egyszerű biológiai géppé redukálta, mint a patkányokat, és az állatkísérletek eredményei alapján az embereket is megismerhetőnek tartotta. A személyiségközpontú, humanisztikus és pozitív pszichológiai irányzatok elterjedése lemosta ezt a bélyeget, de a big datában megvan a lehetőség, hogy újra a pszichológusokra ragassza azt.

Különvélemény

A big data egyik legfőbb erőssége és egyben problémája az előrejelzés, vagyis szakszóval a „prediktív analitika”. Megfelelő mennyiségű adat birtokában megállapítható, hogy bizonyos jellemzők megléte előjelez későbbi problémákat. Ha egy motortípus egyik alkatrészét nem cserélik ki 300 ezer kilométerenként, az nemsokára az egész motor tönkremenéséhez vezet. Ha egy szomatikus beteg valamilyen mentális problémáról is említést tesz, nagyobb eséllyel fog záros határidőn belül visszakerülni a kórházi ellátásba. Ha valaki egy bizonyos környéken lakik és bizonyos szint alatt van a jövedelme, jóval nagyobb eséllyel fog bűncselekményt elkövetni.

Megfelelő mennyiségű adat birtokában megállapítható, hogy bizonyos jellemzők megléte előjelez későbbi problémákat.

Amennyiben ezeket a jellemzőket sikerül egy megfelelő prediktív modellben elhelyezni, megjelenhetnek az ezekre az adatokra épülő algoritmusok, amelyek adataink alapján megjósolják, hogy mekkora eséllyel eshetünk bele a kockázatos kategóriába. Ez lehet fantasztikus lehetőség, például ha idejekorán ráláthatunk krónikus betegségek kialakulására, mielőtt azok egyáltalán elkezdődnének. Azonban ennek megvan a sötét oldala is. Ha például büntetlen előéletű polgárok vagyunk, de olyan negyedben lakunk, ahol nagyobb a bűnözők és csalók aránya, vagyis kockázatos helyről származunk, megtagadhatja tőlünk a bank a hitelt, mert nem 100 százalék, hogy visszafizetjük? Ha valakinek a korábbi adatai alapján jelentős esélye van rá, hogy bűnt fog elkövetni, azt megfigyelik és potenciális bűnözőként kezelik, még akkor is ha ártatlan? Megvalósul a Különvélemény című mozi? Algoritmus fog dönteni arról, hogy az adataik alapján kockázatos családoktól születéskor elvegyék a gyereküket? Ha adataink alapján magas az esélyünk a különféle betegségekre, vagy kockázatosan fogunk viselkedni, megtagadhatja tőlünk egy algoritmus az egészségbiztosítást vagy felszámíthat magasabb árat? A big data eredményeire épülő algoritmusokat nem korlátozza az emberi becsaphatóság, megvesztegethetőség, illúzió, naivitás, tapasztalatlanság vagy gyenge akarat. Ugyanakkor nem befolyásolja őket a szánalom, empátia, megértés, együttérzés, kedvesség vagy segíteni akarás sem. Ezek az algoritmusok könyörtelenül és számszerűen kimutatják, hogy mekkora esélyünk lehet kriminalitásra, szívrohamra, kockázatos viselkedésre – nem érdekli őket, hogy lehet, hogy mi vagyunk a kivétel, és nem érdekli őket, hogy dönthetünk úgy, hogy nem követünk el bűnt.

Egy ilyen algoritmus nem a tettek, hanem a hajlamok és esélyek alapján szankcionál, ezzel pedig semmisnek tekinti a szabad emberi akarat létezését.

Arról sem szabad elfeledkezni, hogy ha az emberekhez számbeli értékeket rendelünk, már meg is kezdődhet az értékek alapján történő társadalmi szakadás és diszkrimináció. Elvégre akinek 5 százalék esélye van a bűnelkövetésre, az miért ne óvakodjon olyantól, akinek az algoritmus szerint 25 százalék? A Kínában épülő digitális társadalmi értékelőrendszer tökéletesen mutatja be ezt a jelenséget, és megvan az esélye, hogy ez a rendszer a jövőben a társadalom teljes, „jobb” és „rosszabb” osztályokra való szétszakadásához fog vezetni.

Buborék és bezártság

A big data újabb aggályos oldala a pszichológia szempontjából, hogy miközben látszólag megkönnyíti életünket, valójában a saját kis buborékunkba zárhatnak vele minket. Az elmúlt években nagy vihart kavartak a Facebook „véleménybuborékjai”. A felhasználók aktivitásai és like-jai alapján egyes oldalakat ajánlott, másokat pedig kivett az ajánlásaik közül a Facebook, a párosítás egyszerű statisztikák alapján történt. Ha A felhasználó kedvelte X és Y oldalakat, B viszont csak X-et, akkor közös érdeklődésük alapján B-nek is Y oldalt ajánlja az algoritmus, nem pedig mondjuk Z-t. Ezzel ugyan lehet, hogy elősegítik, hogy több, az érdeklődéséhez illő oldalt találjon a felhasználó, ugyanakkor elzárták annak a lehetőségétől, hogy spontán találjon olyan dolgokra, amik addig nem, de azután érdekelhetnék. Unalomig ismételt, ám sok igazságot tartalmazó közhely, hogy akkor tudunk a legjobban fejlődni és új ismereteket szerezni, ha kilépünk a komfortzónánkból. Ha örökre a saját kis kialakított határainkon belül maradunk, nem ér minket semmilyen új inger, és nem fogjuk megismerni az azon kívüli világot. Az ízlésbuborékot Youtube-on lehet remekül megfigyelni: ha például sok klasszikust hallgatunk, akkor nem fog metál zenét ajánlani az oldal, pedig lehet, hogy első hallásra beleszeretnénk.

A buborékok pedig bezárhatnak minket olyan helyekre is, ahonnan szabadulni szeretnénk.

Gondoljunk bele, mi történik, ha valaki depresszióba zuhan, melankolikus zenéket hallgat és rövid időn belül tele lesz az ajánlási listája szomorú számokkal. Ha napi szinten ezekkel a zenékkel szembesül, átéli szomorú hangulatukat és felidézik benne a depressziós időszak érzéseit, valószínűleg jelentősen meg fogják nehezíteni számára a kilábalást.

Digitális diktatúra?

A big data felhasználható egyszerre sok ember vizsgálatára, hogy tömeges tendenciákat állapítsunk meg, vagy pedig egy ember vizsgálatára, rendkívüli részletességgel. Internetes aktivitásunk önmagában olyan mennyiségű információt árul el rólunk, amely alapján a megfelelő módszerekkel bármilyen személyes adat kiszivárgása nélkül azonosíthatók leszünk, és megismerhető lesz érdeklődésünk, preferenciáink de akár szexuális beállítódásunk és politikai nézetünk is. 2006-ban az AOL rengeteg régi keresési előzményt hozott nyilvánosságra kutatási célból. A felhasználókat anonimmá tették, személyes adataikat – IP cím, felhasználónév, helyadatok –, törölték, és egyszerű azonosítókóddal látták el őket. Mégis, csak az internetes előzményei alapján, a New York Times napokon belül azonosított egy felhasználót. Ugyanez játszódott le, amikor a Netflix hozta nyilvánosságra egy régi adatbázisát, egy fejlesztőverseny kedvéért – habár mindent elkövettek, hogy anonimmá tegyék a felhasználókat, mégis sikerült azonosítani egyet, ráadásul még azt is sikerült róla kideríteni, hogy habár édesanya, titkolt leszbikus hajlammal rendelkezik. (A hölgy be is perelte a céget.) Érdemes megnézni az évszámokat: mindkét eset még az okostelefonok tömeges elterjedése előtt történt, vagyis azóta több százszor ennyi adatot árulunk el magunkról okostelefonunk használata közben. A történelem bármely titkosszolgálata vagy kémszervezete sárgulna az irigységtől, ha meglátná a tech-óriáscégek adatbázisait – és ezen információkat ráadásul önkéntesen adtuk át! A két módszer remekül kombinálható. A Cambridge Analytica-botrányban az elemzők először levonták az általános következtetéseket a nagyobb összefüggésekről, majd ezután kezdtek személyre szabott hirdetéseket küldeni a személyeknek, internetes aktivitásuk alapján a személyes ízlésükhöz igazítva, és ezzel érzékenyen befolyásolva őket.

 

Felhasznált irodalom: Big Data. (2014) Viktor-Mayer Schönberger, Kenneth Zuckier. HVG Kiadó, Budapest. 21 Lecke a 21. Századra. (2018) Yuval Noah Harari. Animus Kiadó, Budapest.