Adattudomány a társadalomkutatásban

Az adatanalitika (vagy divatos de nem pontos és kissé túlhasznált nevén Big Data) szociológiai alkalmazásának egyik legfőbb kihívását az adja, hogy az a szociológián kívül intézményesült, míg a szociológia (korábbi) tudományos tekintélyét éppen saját kutatási módszertani paradigmája adta. A másik lényegi kihívás természetét tekintve episztemológiai, és az adatok érvényességi/megbízhatósági kérdéseihez, a szociológia számára fontos magyarázat/okság problémájához kötődik. Ezek a kihívások adják annak a feszültségnek a hátterét, ami a Big Data-alapú társadalmi megfigyelések és ezen megfigyeléseket övező, a Big Data szociológiai tudás-termelő potenciálját megkérdőjelező szociológiai szkepszis között húzódik.

Ezek a kihívások a szociológiai módszertan alapjainak újradefiniálásával, az adatanalitikai módszerek hagyományos eszközeink közé történő szerves beépítésével válaszolhatók meg. A megoldás a kvantitatív és kvalitatív gondolkodás együttes használatát, az adatvezérelt adatanalitikai módszerek tudásvezérelt megközelítésre váltását is szükségessé teszi.

Eddigi eredmények

E téren történő kutatásaink másik motivációja az adatanalitikát övező folyamatosan növekvő társadalomtudományi érdeklődés. Példaként tekintsük az automatizált szöveganalitika esetét: a Dimensions (https://dimensions.ai) adatai alapján e módszertan népszerűsége folyamatosan növekszik általában is és résztudományok szerint külön is. Minden trendvonal emelkedést mutat az adott tudomány össz-publikációszámával való normalizálás után is, sőt a téma szociológián belüli százalékos elterjedtsége még gyorsabban nő, mint általában, tehát egyre inkább elfogadott megközelítéssé válik.

 

A depresszió diszkurzív keretezése online fórumok közösségében

A depresszió a modernitás betegsége, ahol a társadalmak nagyobb felelősséget helyeznek az egyénre, miközben azoknak nincs lehetőségük körülményeik megváltoztatására. A szociológia egy kurrens kérdése, hogy a terapeuták illetve maguk a betegek hogyan keretezik a betegséget, vagy pl. hogy a terapeuták újra-értelmezése nyomán hogyan tolódik el a társadalmi eredetű szenvedés az énhez kapcsolt szenvedés felé (lásd pl Flick, 2016). 

Kutatásunkban az NLP módszerek lehetőségeit vizsgáljuk a depresszió online betegközösségekben megjelenő egyéni szintű keretezésének megértésében. A depresszió kognitív keretezése társadalmi konstrukció. A keretezés határozza meg a depresszió jelentését a beteg számára, oksági magyarázatot kínál rá, sőt akár a kezelési preferenciákat is meghatározza. A depresszió jelenlegi klinikai magyarázatai a biológiai, pszichológiai és szociológiai diskurzusok felé mutatnak (e.g. Comer, 2015). 

E téren korábban elsősorban kvalitatív módon, offline szövegek (naplók, levelek, interjúk) elemzésével közelítették a keretezést (lásd pl. Riskind et al, 1989). Meggyőződésünk, hogy a digitális társadalom online betegközösségeinek nem-klinikai jellegű írásai jó terepet kínálnak a kérdés vizsgálatára, s hogy az automatizált szöveganalitikai módszerek jelentős kutatási potenciált jelentenek e téren.

A korrupció megjelenése az online médiában és a közösségi médiában, nemzetközi összehasonlító vizsgálat

A csoport tagjai az elmúlt években több tanulmányt is publikáltak korrupciókutatás témában. Bár ezek a kutatások mind survey adatokra épültek, tartalmi szempontól jól megágyaznak a csoportban zajló nem-survey alapú kutatásoknak. Utóbbi megközelítésben a 2019-es évben kutatócsoportunk NLP módszerrel két esettanulmányt készített. Az első esettanulmány a szerző-topik modellt használja. Azt vizsgáltuk, hogy melyik híroldal milyen korrupciós témáról ír leggyakrabban. A K-Monitor cikkgyűjteményét használva 25 korrupciós topikot identifikáltunk.

A második esettanulmányban a korrupció hazai online sajtóban megjelenő témáinak időbeli változására fókuszáltunk. Az elemzéshez dinamikus topikmodellt használtunk, a K-Monitor cikkgyűjteményére építve. 26.000 cikk alapján vizsgáltuk a 2007 és 2018 közötti időszakon belül a legjellemzőbb korrupciós témák népszerűségének és tartalmának változását. A modell eredményeként hét, egymástól jól elkülöníthető topik jött létre. Tanulmányunk jelenleg elbírálás alatt van egy hazai vezető szociológia lapban.

Eddigi munkáink főként leíró elemzések, jó alapot adva további mélyebb vizsgálatoknak. Az empirikus elemzéseken túl szisztematikusan foglalkozunk azzal is, hogy az NLP módszerek összességében mit tudnak adni a téma vizsgálatához. Vizsgáljuk a korrupció definíciós keretét, valamint a korrupció kutatásában a nagy tömegű szövegek automatizált feldolgozásának lehetőségeit és az erre épülő adatelemzési és adatfeldolgozási technológiákat. A projekthez kapcsolódó oktatási tevékenység során a K-Monitorral és a Precognox-szal hallgatóknak szervezett, civil adatokra épülő hackathonon a K-Monitor is hozott egy korpuszt, melynek elemzésével a hallgatók megismerhették azokat az adatokat is, amiket kutatócsoportunkban használtunk.

Online antiszemitizmus

Az antiszemitizmus mértéke Magyarországon hagyományosan a legmagasabbak közé tartozott Európában. Reprezentatív felmérések eredményei azt mutatják, hogy a magyar lakosság körülbelül 33-40 százaléka mondható antiszemitának. Bár előfordult némi ingadozás, az antiszemitizmus mértéke meglehetősen stabilnak bizonyult az elmúlt években. Szintén kérdőíves vizsgálatok alapján azt találtuk, hogy annak ellenére, hogy azon zsidók aránya, akik áldozatai vagy tanúi voltak antiszemita cselekményeknek erőteljesen csökkent (79-ről 58 százalékra 1999 és 2017 között), az antiszemitizmus percepciójának mértéke nagymértékben növekedett. Míg 1999-ben a zsidók 37 százaléka nyilatkozott úgy, hogy az antiszemitizmus erős vagy nagyon erős Magyarországon, addig 2017-ben 65 százalékuk mondta ugyanezt. A magas eltérés a tapasztalat és a percepció között több oknak is betudható, amelyek közül az egyik az online gyűlöletbeszéd terjedése. Ez a tény szükségessé teszi ezen források vizsgálatát.

A nagy mennyiségű, online elérhető, gyengén strukturált szöveges adatok feldolgozása új eszközök alkalmazását igényli, amelyek közül az egyik a Natural Language Processing (Természetes nyelvfeldolgozás, vagy NLP). Az NLP egy interdiszciplináris kutatási terület, amely az informatika, a mesterséges intelligencia és a nyelvészet közös metszetében található. Kutatásunkban az NLP eszközkészletében megtalálható módszereket alkalmazunk nagyméretű, magyar nyelvű online korpuszokra, amelyek egyebeket mellett újságcikkeket, közösségi média tartalmakat és fórumhozzászólásokat tartalmaznak. Az NLP segítségével nem csupán a nyílt antiszemitizmus struktúrájának, fő témaköreinek és aktorainak feltárását lehetséges elvégezni, hanem képet kaphatunk a látens antiszemitizmus sajátosságairól is.

A politikai nyilvánosság rétegei Magyarországon (2001-2020)

A hivatásos politikusi, a professzionális sajtóban megjelenő és a laikus online közbeszéd szociológiai elemzése automatizált szövegelemzés és kritikai diskurzuselemzés segítségével

Az NKFIH által támogatott kutatás (K-134428 azonosító alatt)

Támogatási időszak: 2020. december – 2023. december

Vezető kutató: Németh Renáta

Résztvevők: Barna Ildikó, Csigó Péter, Sik Domonkos (szenior kutatók), Buda Jakab, Katona Eszter, Knap Árpád, Rakovics Márton, Rakovics Zsófia, Tóth Emese (junior kutatók)

Összefoglaló

A nyilvánosság a modern képviseleti demokráciák sarokköve: nemcsak azért felelős, hogy a választók rendelkezésére álljon a megfontolt szavazáshoz szükséges információ, hanem azért is, hogy a közigazgatási rendszert ne csak jogi, hanem erkölcsi szempontból is felügyelje. Ebben az értelemben a nyilvánosság minőségétől függ azoknak a potenciális torzulásoknak és válságoknak az esetleges elhárítása, amelyek a demokratikus rendszerekben kialakulhatnak (Habermas 1975, 1998). Az online nyilvánosság kialakulása Magyarországon több hullámban is jelentős politikai átalakulásokkal és a politikai mező átrendeződésével esik egybe, ezért Magyarország különösen gazdag kontextust kínál a kutatás számára.

A kutatás átfogó célja a magyar online politikai közbeszéd feltérképezése a 2000-es évektől napjainkig. A politikai szféra és a nyilvánosság átalakulása körvonalazza kutatásunk tartalmi keretét. A politikai diskurzus különböző rétegeit elemezzük, beleértve a hivatalos kommunikációs csatornákat (pl. parlamenti beszédeket); a politikai sajtó különböző típusait (pl. online sajtót, hírportálokat, bulvárlapokat), valamint a felhasználók által generált tartalmakat (online kommenteket, fórumokat, blogokat és nyilvános Facebook-bejegyzéseket). Nemcsak ezen rétegek belső diszkurzív tartalmát és dinamikáját kívánjuk elemezni, hanem a köztük lévő kölcsönhatásokat is. Ezen túlmenően azt tervezzük, hogy ezeket a diszkurzív folyamatokat összevetjük a meglévő közvélemény-kutatási adatokkal is, hogy mélyebb megértést nyerjünk a politikai diskurzus és a közvélemény közötti kölcsönhatásokról.

A kutatás keretei között a diskurzusok tartalmának (a megvitatott témáknak) a vizsgálatát, valamint a nyelvhasználat/keretezés elemzését végezzük el. Azonosítjuk azokat a diszkurzív helyeket, ahol a nyelvi polarizáció megjelenik, hogy leírjuk annak nyelvi jellemzőit és megmagyarázzuk mechanizmusait. Továbbá vizsgálni fogjuk a kapcsolatot a manifeszt és a látens véleményklíma között, előbbit a politikai diskurzus, utóbbit a közvélemény-kutatási adatok képviselik a kutatásban. Ezeknek nem kizárólag hasonlóságaira, hanem eltéréseire is összpontosítunk.

Az online nyilvánosságban megjelenő digitális adatok elsősorban szöveges jellegűek. A feldolgozásukhoz szükséges eszközök csak a közelmúltban váltak hozzáférhetővé, a természetes nyelvfeldolgozás (NLP) elterjedésével, amely képes nagy mennyiségű szöveges adat szisztematikus, automatizált feldolgozására. Ezek az innovatív eszközök megfelelő mélységű eredményeket biztosítanak a szociológia számára is (Németh és Koltai, 2020). A szociológia akkor fogja kiaknázni az ezekben a változásokban rejlő lehetőségeket, ha képes megújítani kutatási kultúráját, miközben megőrzi kritikai reflexióit. Ezért volt küldetésünk egy olyan kutatás megtervezése, amely megmutatja, hogy az NLP hogyan illeszthető be szerves módon a hagyományos szociológiai módszerek eszköztárába. E cél elérése érdekében azt tervezzük, hogy az automatizált szövegelemzést nemcsak kvalitatív diszkurzív elemzéssel, hanem hagyományos kvantitatív statisztikai módszerekkel is kombináljuk.

Hivatkozások

Habermas, Jürgen. 1975. Legitimation Crisis. Boston: Beacon Press.

Habermas, Jürgen. 1998. Between Facts and Norms: Contributions to a Discourse Theory of Law and Democracy. Cambridge: Polity Press.

Németh, Renáta, and Júlia Anna Koltai. 2020. “Sociological knowledge discovery through text analytics”. In Pathways between Social Science and Computational Social Science – Theories, Methods and Interpretations, edited by Rudas Tamás, Péli Gábor. Springer.

Publikációk

Csomor, Gábor ; Simonovits, Borbála ; Németh, Renáta: Hivatali diszkrimináció?: Egy online terepkísérlet eredményei [Discrimination at local goversments? Results of an online field experiment] SZOCIOLÓGIAI SZEMLE 31 : 1 pp. 4-28. , 25 p. (2021)

Katona, Eszter ; Németh, Renáta: Automatizált szöveganalitika a korrupció kutatásában [Computational text analytics in corruption research] SOCIO.HU : TÁRSADALOMTUDOMÁNYI SZEMLE 11 : 1 pp. 108-124. , 17 p. (2021)

Kapcsolódó doktori kutatások

A nyelvi változás és -polarizáció szociológiai vizsgálata

Doktori hallgató: Rakovics Zsófia

Témavezetők: Németh Renáta, PhD, Sik Domonkos, PhD

A fenntarthatóság diskurzusának elemzése a politikai nyilvánosság, az online médiafelületek és a laikus nyilvánosság hármasában

Doktori hallgató: Tóth Emese

Témavezető: Kocsis János Balázs, PhD