Adattudomány a társadalomkutatásban

Az adatanalitika (vagy divatos de nem pontos és kissé túlhasznált nevén Big Data) szociológiai alkalmazásának egyik legfőbb kihívását az adja, hogy az a szociológián kívül intézményesült, míg a szociológia (korábbi) tudományos tekintélyét éppen saját kutatási módszertani paradigmája adta. A másik lényegi kihívás természetét tekintve episztemológiai, és az adatok érvényességi/megbízhatósági kérdéseihez, a szociológia számára fontos magyarázat/okság problémájához kötődik. Ezek a kihívások adják annak a feszültségnek a hátterét, ami a Big Data-alapú társadalmi megfigyelések és ezen megfigyeléseket övező, a Big Data szociológiai tudás-termelő potenciálját megkérdőjelező szociológiai szkepszis között húzódik.

Ezek a kihívások a szociológiai módszertan alapjainak újradefiniálásával, az adatanalitikai módszerek hagyományos eszközeink közé történő szerves beépítésével válaszolhatók meg. A megoldás a kvantitatív és kvalitatív gondolkodás együttes használatát, az adatvezérelt adatanalitikai módszerek tudásvezérelt megközelítésre váltását is szükségessé teszi.

Eddigi eredmények

E téren történő kutatásaink másik motivációja az adatanalitikát övező folyamatosan növekvő társadalomtudományi érdeklődés. Példaként tekintsük az automatizált szöveganalitika esetét: a Dimensions (https://dimensions.ai) adatai alapján e módszertan népszerűsége folyamatosan növekszik általában is és résztudományok szerint külön is. Minden trendvonal emelkedést mutat az adott tudomány össz-publikációszámával való normalizálás után is, sőt a téma szociológián belüli százalékos elterjedtsége még gyorsabban nő, mint általában, tehát egyre inkább elfogadott megközelítéssé válik.

 

A depresszió diszkurzív keretezése online fórumok közösségében

A depresszió a modernitás betegsége, ahol a társadalmak nagyobb felelősséget helyeznek az egyénre, miközben azoknak nincs lehetőségük körülményeik megváltoztatására. A szociológia egy kurrens kérdése, hogy a terapeuták illetve maguk a betegek hogyan keretezik a betegséget, vagy pl. hogy a terapeuták újra-értelmezése nyomán hogyan tolódik el a társadalmi eredetű szenvedés az énhez kapcsolt szenvedés felé (lásd pl Flick, 2016). 

Kutatásunkban az NLP módszerek lehetőségeit vizsgáljuk a depresszió online betegközösségekben megjelenő egyéni szintű keretezésének megértésében. A depresszió kognitív keretezése társadalmi konstrukció. A keretezés határozza meg a depresszió jelentését a beteg számára, oksági magyarázatot kínál rá, sőt akár a kezelési preferenciákat is meghatározza. A depresszió jelenlegi klinikai magyarázatai a biológiai, pszichológiai és szociológiai diskurzusok felé mutatnak (e.g. Comer, 2015). 

E téren korábban elsősorban kvalitatív módon, offline szövegek (naplók, levelek, interjúk) elemzésével közelítették a keretezést (lásd pl. Riskind et al, 1989). Meggyőződésünk, hogy a digitális társadalom online betegközösségeinek nem-klinikai jellegű írásai jó terepet kínálnak a kérdés vizsgálatára, s hogy az automatizált szöveganalitikai módszerek jelentős kutatási potenciált jelentenek e téren.

A korrupció megjelenése az online médiában és a közösségi médiában, nemzetközi összehasonlító vizsgálat

A csoport tagjai az elmúlt években több tanulmányt is publikáltak korrupciókutatás témában. Bár ezek a kutatások mind survey adatokra épültek, tartalmi szempontól jól megágyaznak a csoportban zajló nem-survey alapú kutatásoknak. Utóbbi megközelítésben a 2019-es évben kutatócsoportunk NLP módszerrel két esettanulmányt készített. Az első esettanulmány a szerző-topik modellt használja. Azt vizsgáltuk, hogy melyik híroldal milyen korrupciós témáról ír leggyakrabban. A K-Monitor cikkgyűjteményét használva 25 korrupciós topikot identifikáltunk.

A második esettanulmányban a korrupció hazai online sajtóban megjelenő témáinak időbeli változására fókuszáltunk. Az elemzéshez dinamikus topikmodellt használtunk, a K-Monitor cikkgyűjteményére építve. 26.000 cikk alapján vizsgáltuk a 2007 és 2018 közötti időszakon belül a legjellemzőbb korrupciós témák népszerűségének és tartalmának változását. A modell eredményeként hét, egymástól jól elkülöníthető topik jött létre. Tanulmányunk jelenleg elbírálás alatt van egy hazai vezető szociológia lapban.

Eddigi munkáink főként leíró elemzések, jó alapot adva további mélyebb vizsgálatoknak. Az empirikus elemzéseken túl szisztematikusan foglalkozunk azzal is, hogy az NLP módszerek összességében mit tudnak adni a téma vizsgálatához. Vizsgáljuk a korrupció definíciós keretét, valamint a korrupció kutatásában a nagy tömegű szövegek automatizált feldolgozásának lehetőségeit és az erre épülő adatelemzési és adatfeldolgozási technológiákat. A projekthez kapcsolódó oktatási tevékenység során a K-Monitorral és a Precognox-szal hallgatóknak szervezett, civil adatokra épülő hackathonon a K-Monitor is hozott egy korpuszt, melynek elemzésével a hallgatók megismerhették azokat az adatokat is, amiket kutatócsoportunkban használtunk.

Online antiszemitizmus

Az antiszemitizmus mértéke Magyarországon hagyományosan a legmagasabbak közé tartozott Európában. Reprezentatív felmérések eredményei azt mutatják, hogy a magyar lakosság körülbelül 33-40 százaléka mondható antiszemitának. Bár előfordult némi ingadozás, az antiszemitizmus mértéke meglehetősen stabilnak bizonyult az elmúlt években. Szintén kérdőíves vizsgálatok alapján azt találtuk, hogy annak ellenére, hogy azon zsidók aránya, akik áldozatai vagy tanúi voltak antiszemita cselekményeknek erőteljesen csökkent (79-ről 58 százalékra 1999 és 2017 között), az antiszemitizmus percepciójának mértéke nagymértékben növekedett. Míg 1999-ben a zsidók 37 százaléka nyilatkozott úgy, hogy az antiszemitizmus erős vagy nagyon erős Magyarországon, addig 2017-ben 65 százalékuk mondta ugyanezt. A magas eltérés a tapasztalat és a percepció között több oknak is betudható, amelyek közül az egyik az online gyűlöletbeszéd terjedése. Ez a tény szükségessé teszi ezen források vizsgálatát.

A nagy mennyiségű, online elérhető, gyengén strukturált szöveges adatok feldolgozása új eszközök alkalmazását igényli, amelyek közül az egyik a Natural Language Processing (Természetes nyelvfeldolgozás, vagy NLP). Az NLP egy interdiszciplináris kutatási terület, amely az informatika, a mesterséges intelligencia és a nyelvészet közös metszetében található. Kutatásunkban az NLP eszközkészletében megtalálható módszereket alkalmazunk nagyméretű, magyar nyelvű online korpuszokra, amelyek egyebeket mellett újságcikkeket, közösségi média tartalmakat és fórumhozzászólásokat tartalmaznak. Az NLP segítségével nem csupán a nyílt antiszemitizmus struktúrájának, fő témaköreinek és aktorainak feltárását lehetséges elvégezni, hanem képet kaphatunk a látens antiszemitizmus sajátosságairól is.

A politikai nyilvánosság rétegei Magyarországon (2001-2020)

A hivatásos politikusi, a professzionális sajtóban megjelenő és a laikus online közbeszéd szociológiai elemzése automatizált szövegelemzés és kritikai diskurzuselemzés segítségével

Az NKFIH által támogatott kutatás (K-134428 azonosító alatt)

Támogatási időszak: 2020. december – 2023. december

Vezető kutató: Németh Renáta

Résztvevők: Barna Ildikó, Csigó Péter, Sik Domonkos (szenior kutatók), Buda Jakab, Katona Eszter, Knap Árpád, Rakovics Márton, Rakovics Zsófia, Tóth Emese (junior kutatók)

Összefoglaló

A nyilvánosság a modern képviseleti demokráciák sarokköve: nemcsak azért felelős, hogy a választók rendelkezésére álljon a megfontolt szavazáshoz szükséges információ, hanem azért is, hogy a közigazgatási rendszert ne csak jogi, hanem erkölcsi szempontból is felügyelje. Ebben az értelemben a nyilvánosság minőségétől függ azoknak a potenciális torzulásoknak és válságoknak az esetleges elhárítása, amelyek a demokratikus rendszerekben kialakulhatnak (Habermas 1975, 1998). Az online nyilvánosság kialakulása Magyarországon több hullámban is jelentős politikai átalakulásokkal és a politikai mező átrendeződésével esik egybe, ezért Magyarország különösen gazdag kontextust kínál a kutatás számára.

A kutatás átfogó célja a magyar online politikai közbeszéd feltérképezése a 2000-es évektől napjainkig. A politikai szféra és a nyilvánosság átalakulása körvonalazza kutatásunk tartalmi keretét. A politikai diskurzus különböző rétegeit elemezzük, beleértve a hivatalos kommunikációs csatornákat (pl. parlamenti beszédeket); a politikai sajtó különböző típusait (pl. online sajtót, hírportálokat, bulvárlapokat), valamint a felhasználók által generált tartalmakat (online kommenteket, fórumokat, blogokat és nyilvános Facebook-bejegyzéseket). Nemcsak ezen rétegek belső diszkurzív tartalmát és dinamikáját kívánjuk elemezni, hanem a köztük lévő kölcsönhatásokat is. Ezen túlmenően azt tervezzük, hogy ezeket a diszkurzív folyamatokat összevetjük a meglévő közvélemény-kutatási adatokkal is, hogy mélyebb megértést nyerjünk a politikai diskurzus és a közvélemény közötti kölcsönhatásokról.

A kutatás keretei között a diskurzusok tartalmának (a megvitatott témáknak) a vizsgálatát, valamint a nyelvhasználat/keretezés elemzését végezzük el. Azonosítjuk azokat a diszkurzív helyeket, ahol a nyelvi polarizáció megjelenik, hogy leírjuk annak nyelvi jellemzőit és megmagyarázzuk mechanizmusait. Továbbá vizsgálni fogjuk a kapcsolatot a manifeszt és a látens véleményklíma között, előbbit a politikai diskurzus, utóbbit a közvélemény-kutatási adatok képviselik a kutatásban. Ezeknek nem kizárólag hasonlóságaira, hanem eltéréseire is összpontosítunk.

Az online nyilvánosságban megjelenő digitális adatok elsősorban szöveges jellegűek. A feldolgozásukhoz szükséges eszközök csak a közelmúltban váltak hozzáférhetővé, a természetes nyelvfeldolgozás (NLP) elterjedésével, amely képes nagy mennyiségű szöveges adat szisztematikus, automatizált feldolgozására. Ezek az innovatív eszközök megfelelő mélységű eredményeket biztosítanak a szociológia számára is (Németh és Koltai, 2020). A szociológia akkor fogja kiaknázni az ezekben a változásokban rejlő lehetőségeket, ha képes megújítani kutatási kultúráját, miközben megőrzi kritikai reflexióit. Ezért volt küldetésünk egy olyan kutatás megtervezése, amely megmutatja, hogy az NLP hogyan illeszthető be szerves módon a hagyományos szociológiai módszerek eszköztárába. E cél elérése érdekében azt tervezzük, hogy az automatizált szövegelemzést nemcsak kvalitatív diszkurzív elemzéssel, hanem hagyományos kvantitatív statisztikai módszerekkel is kombináljuk.

Hivatkozások

Habermas, Jürgen. 1975. Legitimation Crisis. Boston: Beacon Press.

Habermas, Jürgen. 1998. Between Facts and Norms: Contributions to a Discourse Theory of Law and Democracy. Cambridge: Polity Press.

Németh, Renáta, and Júlia Anna Koltai. 2020. “Sociological knowledge discovery through text analytics”. In Pathways between Social Science and Computational Social Science – Theories, Methods and Interpretations, edited by Rudas Tamás, Péli Gábor. Springer.

Kapcsolódó doktori kutatások

A nyelvi változás és -polarizáció szociológiai vizsgálata

Doktori hallgató: Rakovics Zsófia

Témavezetők: Németh Renáta, PhD, Sik Domonkos, PhD

A fenntarthatóság diskurzusának elemzése a politikai nyilvánosság, az online médiafelületek és a laikus nyilvánosság hármasában

Doktori hallgató: Tóth Emese

Témavezető: Kocsis János Balázs, PhD

Gépi tanulás alapú nyelvi modellek megmagyarázhatósága és a megmagyarázható nyelvi modellek felhasználhatósága a társadalomtudományokban

Doktori hallgató: Buda Jakab

Témavezető: Dr. Németh Renáta

Digital Lens

Kutatócsoportunkat, a Revisiting Early Testimonies of Hungarian Jewish Holocaust Survivors through a Digital Lens, röviden a Digital Lens-et 2021-ben alapítottuk. Fő célkitűzésünk az 1945-ben alakult DEGOB (Deportáltakat Gondozó Országos Bizottság) által a náci fogolytáborokat megjárt túlélőkkel készített jegyzőkönyveinek kvantitatív „automatizált” és kvalitatív elemzése. A DEGOB pontosabb történeti megismerése mellett, szövegelemzéseinkkel célunk feltárni a zsidó túlélők által használt nyelv legfontosabb jellemzőit, az üldöztetés és a túlélés topográfiáját, illetve a tipikusan női és férfi tapasztalatokat (gendered experience).


A Digital Lens kutatócsoport interdiszciplináris történelmi és társadalomtörténeti kutatásokkal foglalkozik. A kutatócsoportban a digitális történelem és a computational social science innovatív módszereivel dolgozunk, nem a hagyományos módszereket kirekesztve, hanem azokat kiegészítve. Kutatócsoportunkban második éve foglalkozunk az 1945-ben alakult DEGOB (Deportáltakat Gondozó Országos Bizottság) által készített jegyzőkönyvekkel, melyek a túlélők deportálási útvonalát és interjú alapján elkészített visszaemlékezésüket tartalmazzák. Projektünk célja, hogy a jegyzőkönyveket újfajta, innovatív módszertan segítségével elemezzük. Kutatásunkban a hagyományos kvalitatív és kvantitatív módszerek mellett az automatizált szövegelemzés, a mesterséges intelligencia és a vizualizációk is fontos szerephez jutnak.

Kutatási kérdéseink a holokauszt nyelviségéhez, az üldöztetés topográfiájához és a férfiak és nők eltérő tapasztalataihoz kapcsolódnak. A holokauszt nyelviségével kapcsolatos kutatási irányunk fő kérdése, hogy melyek a zsidó holokauszttúlélők jegyzőkönyvekben használt nyelvezetének főbb jellemzői? Hogyan beszélnek a túlélők közvetlenül az átélt borzalmak után a történtekről? Vannak-e eltérések különböző túlélő csoportok között? Hogyan viszonyul a túlélők által használt nyelv a korra jellemző közbeszédhez, például a korabeli sajtó nyelvezetéhez?

Kutatási érdeklődésünk másik iránya az üldöztetés és a túlélés topográfiájával foglalkozik. Honnan deportálták a túlélőket? Milyen helyeken voltak a holokauszt során? Mi jellemezte a felszabadulás utáni időszakot? Milyen útvonalon és miként érkeztek vissza Magyarországra?

Kutatócsoportunk a nemek szerinti tapasztalatokra külön fókuszál. Melyek voltak az eltérő és a hasonló női és férfi tapasztalatok? Máshogyan vallanak-e szenvedéseikről a férfiak és a nők? Milyen különbségek következnek a nők és férfiak eltérő topográfiai tapasztalataiból?

Emellett kutatócsoportunk újabb történelmi anyagok feltárására is vállalkozik. A gyűjtemény nem teljes, így célunk további jegyzőkönyvek, dokumentumok felkutatása akár levéltárakban, akár családi gyűjteményekben. Fontosnak tartjuk a történelem személyessé tételét és ennek érdekében megkeressük azokat a túlélőket és családjaikat, akik alakították a DEGOB életét és munkásságát.

Eddigi eredményeink

(#1) Előadás 2021. március 11.: Történelem home office-ban, Országos Rabbi­képző – Zsidó Egyetem (Barna Ildikó és Szabó Alexandra M.) (https://www.youtube.com/watch?v=Ur80hCFaw48&t=1702s)

(#2) Konferenciaelőadás 2021. november 17: Vienna Wiesenthal Institute for Holocaust Studies: Precarious Archives, Precarious Voices Expanding Jewish Narratives from the Margins. Barna Ildikó; Szabó Alexandra M.: Excavating Voices in a Cross-Archival Approach: DEGOB Testimonies Aligning to ITS Documentation

(#3) Előadás 2021. december 14: Modern Jewish History Seminar. Barna Ildikó: : The DEGOB Collection Through a Digital Lens

(#4) Publikáció: Szabó Alexandra M.: Discovery of an Unknown Holocaust Testimony. Eastern European Holocaust Studies Interdisciplinary Journal of the BYHMC. Under publication.

EuMePo Jean Monnet Network az emlékezetpolitikáról

Az EuMePo Jean Monnet Network az Európai Unió és a Konrad Adenauer Foundation által támogatott kutatási projekt, amiben 2019 és 2023 között a kanadai University of Victoria, a lengyel Adam Mickiewicz University, a francia Institute for Political Studies (IEP) at the University of Strasbourg és az ELTE Társadalomtudományi Karán működő Research Center for Computational Social Science kutatói vesznek részt. A nemzetközi kutatási projektben kanadai, francia és lengyel kutatókkal együtt vizsgáljuk és elemezzük a XX. század traumáit és a jelenkor emlékezetpolitikáját. A Jean Monnet EuMePo Network célja egy hosszútávú, transzatlanti együttműködés kialakítása, amelynek alapját a populista narratívák és emlékezetpolitikai gyakorlatok vizsgálata adja. Európai kollektív emlékezet-kutatásunk célja, hogy a ma élő emlékezetpolitikai gyakorlatok gyökereit megismerjük, valamint leírjuk a mai populista-nacionalista politikai pártok működését. A kutatás segítségével mélységeiben ismerhetjük meg a magyar emlékezetpolitikai sajátosságok mellett a lengyel, francia, német és kanadai társadalom emlékezetpolitikai gyakorlatait, a közösségek kollektív tudatában ma is élő történeti elemeket.

Ezek mellett az EuMePo Research Network kiemelt célja, hogy a tudományos munkákat szélesebb közönség számára is elérhetővé tegye, eredményeit az érdeklődő laikusoknak és a tudományos közösségnek is kommunikálja. Ennek érdekében a munkánk során nem csupán szakpublikációk elkészítésére törekszünk, hanem többek között célunk egy középiskolások számára elérhető oktatófüzet létrehozása, valamint közérthető, tudományos-ismeretterjesztő videók rögzítése különböző témákban.

A projektben résztvevő kutatócsapatok a saját maguk által leginkább megfelelőnek tartott módszertant követik, ennek megfelelően közös eredményeinket többféle elmélet és módszer ötvözésével alkotjuk meg. Mi, az RC2S2 csapata a vizsgálataink során elsősorban a természetesnyelv-feldolgozás (angolul NLP vagy Natural Language Processing) módszerére támaszkodunk: nagy volumenű szövegkorpuszok feldolgozásával és elemzésével szeretnénk bepillantást nyújtani a magyarországi emlékezetpolitikai gyakorlatokba. A munkánk során foglalkoztunk a két világháborúval, a fasizmussal, a holokauszttal csakúgy, mint a kommunista időszak „örökségével”, valamint az e témák köré épülő narratívával.

A kutatócsoport eddigi eredményei, a közösség által szervezett webináriumok felvételei, valamint az elkészült szakmai anyagok az EUCAnet hivatalos honlapján érhetőek el (https://www.eucanet.org/projects/memory-politics/)

Publikációink:

Barna Ildikó, Knap Árpád: Analysis of the Thematic Structure and Discursive Framing in Articles about Trianon and the Holocaust in the Online Hungarian Press Using LDA Topic Modelling. Nationalities Papers pp. 1-19. 19 p. (2022)

Knap Árpád, Bartha Diána, Barna Ildikó: Trianon és holokauszt emlékezetpolitikai jellegzetességeinek elemzése természetesnyelv feldolgozás használatával. Szociológiai Szemle 31:4 pp. 28-62. 35 p. (2021)