Rakovics Zsófia, statisztikus és szociológus. Egyetemi tanulmányai alatt többek között a prekaritás kérdéskörével, a globalizáció társadalomra és a munka világára gyakorolt hatásával, a nemi egyenlőtlenség kérdésével, illetve emlékezetkutatással, Holokauszt túlélők elbeszéléseinek kvalitatív elemzésével foglalkozott. Módszertani érdeklődése szerteágazó, kvalitatív és kvantitatív módszereket egyaránt érint. Mesterképzéses tanulmányai befejezése után adattudósként dolgozott egy nemzetközi cégnél, amely képfeldolgozó és gépi tanuláson alapuló módszerekkel vizsgálta az emberek érzelmi reakcióit. Érdeklődése az utóbbi időben ismét az emlékezetkutatás, illetve a populizmus és a politikai témájú közbeszéd szövegbányászati eszközökkel történő elemzése felé fordult, a kutatócsoport munkájához ezen kutatási projektek mentén kapcsolódik. Doktori kutatásának középpontjában a nyelvi polarizáció vizsgálata áll, a politikai témájú közbeszéd elemzését végzi mély tanuláson alapuló nyelvmodellekkel.
Doktori kutatás A politikai nyilvánosság rétegei Magyarországon (2001-2020) c. (NKFIH-K-134428) kutatáshoz kapcsolódva
A nyelvi polarizáció szociológiai vizsgálata
Doktorandusz hallgató: Rakovics Zsófia
Konzulensek: Dr. Németh Renáta és Dr. Sik Domonkos
Összefoglaló
A doktori kutatás az online politikai közbeszédben megfigyelhető nyelvi változást és polarizációs tendenciákat (Gentzkow et al. 2016; Prior 2013) vizsgálja empirikusan, mélytanuláson alapuló nyelvmodellekkel (Vaswani et al. 2017; Devlin et al. 2018).
A mélytanuláson alapuló nyelvmodellek olyan sok réteggel és paraméterrel rendelkező mesterséges neurális hálózatok, amelyek képesek a természetes nyelv szintaktikai és szemantikai jellemzőinek megtanulásával értelmes szöveg generálására (Vaswani et al. 2017; Devlin et al. 2018); a bementeként megadott szöveghez – a belső, absztrakt reprezentáció szerint – leginkább illeszkedő szöveget hozzák létre (Brown et al. 2020; Mikolov et al. 2013; Radford et al. 2019).
Az információ-terjedés mintázatainak szöveges lenyomataiból rekonstruálható az online politikai tér diszkurzív struktúrája, azonosíthatók benne a hálózati centrumok és perifériák (Bryden et al. 2013), illetve az információterjedés „fertőzési mintázatai” (Alshaabi et al. 2021; Hamilton és Hamilton 2010). Az online politikai kommunikációban empirikusan letapogatott nyelvi változás és nyelvi polarizáció, illetve azok jellegzetességeinek és dinamikájának részletes leírásával mélyebb ismereteket gyűjthetünk a közbeszéd működési módjairól, ezáltal azok társadalomra gyakorolt hatásáról.
A doktori kutatás célja, hogy a magyar adatokon tanított modelleket elérhető tegye egy könnyen kezelhető grafikus felhasználói felülettel együtt, melyen keresztül mély technikai ismeretek nélkül végezhető új feladatok definiálása (például szövegek osztályozása, kivonatolása) és a válaszok kinyerése. A kutatás során kidolgozott módszertan, a nyelvmodellek szélesebb körű szociológiai alkalmazását segíthet megalapozni.
Hivatkozások
Alshaabi, T., Dewhurst, D. R., Minot, J. R., Arnold, M. V., Adams, J. L., Danforth, C. M., & Dodds, P. S. (2021). The growing amplification of social media: measuring temporal and social contagion dynamics for over 150 languages on Twitter for 2009–2020. EPJ data science, 10(1), 1-28.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
Bryden, J., Funk, S., & Jansen, V. A. (2013). Word usage mirrors community structure in the online social network Twitter. EPJ Data Science, 2(1), 1-9.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Gentzkow, M., Shapiro, J., & Taddy, M. (2016). Measuring polarization in high-dimensional data: Method and application to congressional speech (No. id: 11114).
Hamilton, J. D., & Hamilton, L. C. (2010 [1981]). Models of social contagion. Journal of Mathematical Sociology, 8(1), 133-160.
Mikolov, T., Yih, W. T., & Zweig, G. (2013). Linguistic regularities in continuous space word representations. In Proceedings of the 2013 conference of the North American chapter of the association for computational linguistics: Human language technologies (pp. 746-751).
Prior, M. (2013). Media and political polarization. Annual Review of Political Science, 16, 101-127.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. arXiv preprint arXiv:1706.03762.
ÚNKP kutatás 2022/23
Cím: A parlamenti felszólalások nyelvi- és politikai polarizációjának vizsgálata
Doktorandusz hallgató: Rakovics Zsófia
Konzulens: Dr. Sik Domonkos
A társadalomról alkotott képünk formálásában szerepe van a politikusoknak, akik megnyilvánulásaikkal alakítják a közvélemény számára meghatározó problémák körét és keretezését. A politikusokra hatással van a társadalom politikai polarizációja, miközben maguk is befolyásolhatják annak mértékét. A politikai kommunikáció kiemelt fóruma a parlament, mely jelentős változáson ment keresztül az elmúlt évtizedekben.
Kutatásomban 1998 és 2020 közötti parlamenti felszólalásokat elemeztem természetesnyelv-feldolgozással, gépi- és mélytanuláson alapuló módszerekkel, hogy képet adhassak a politikusok parlamenti beszédeiben megfigyelhető nyelvi- és politikai polarizációról a megjelölt időintervallumra vonatkozóan. A politikai kommunikáció változásának jobb megértése érdekében az elemzéskor a rendelkezésre álló metaadatokat is vizsgáltam; többek között a felszólalások dátumát, típusát, a felszólalók nevét és párthovatartozását.
Az egyedi szavak szintjén keyness elemzéssel azonosítottam a kulcsszavakat, amelyek leginkább megkülönböztetik a parlamenti pártokat egymástól. E kulcsszavak hasonlóságainak mérésével feltérképeztem a beszédekben bekövetkező változások mintáit, feltárva az egyes pártok politikai kommunikációs stratégiáját. Majd a szóeloszlások szintjén, strukturális topikmodellezéssel (Roberts et al. 2019) a szövegek kvantitatív modellezését végeztem. A topikmodell alkalmas arra, hogy a szövegek szóhasználata alapján exploratív módon azonosítsa a domináns témákat, így manuálisan feldolgozhatatlan mennyiségű szöveg esetén is kialakítható a felszólalók tématérképe. A dinamikus modellvariáns segítségével a témák időbeli prevalenciája is követhető, az egyedi szavakra koncentráló mintázatelemzésnél is szofisztikáltabb módon Ezt követően szóbeágyazási vektortérmodellekkel (Mikolov et al. 2013, Rakovics 2022) vizsgáltam a korábban azonosított kulcsszavak jelentésváltozását.
A Word Mover’s Embedding (Wu et al. 2018a, 2018b) dokumentumbeágyazást használva a szövegeket egy absztrakt vektortérbe ágyaztam, amelyben a felszólalások, a politikusok vagy a pártok közötti kapcsolatok leképezhetők és azokból hálózatok konstruálhatók. A felszólalások év és párt szerinti hasonlósága által generált gráf tranzitivitását (Wasserman & Faust 1994) vizsgálva időbeli növekedés volt megfigyelhető, ami a beszédek homogenizálódására utal egy adott párton belül. Ezt a tendenciát jelezte a dokumentumvektorok pártok szerinti osztályozása is; klasszifikációs modelleket építettem – XGBoost (Hastie et al. 2009) és BERT (Devlin et al. 2018, Nemeskey 2021) – a felszólalók pártjának előrejelzésére. A modellek kiértékelése pártonként és évenként lehetővé tette, hogy megvizsgáljam a nyelvi polarizáció amplitúdójának és jellemzőinek időbeli változását.
A beszédekben megfigyelhető pártokon belüli homogenizáció és pártok közötti polarizáció mintázatai összhangban voltak a neopopulizmus-elmélet (Csigó 2016) jellemzőivel; egy spekulatív mediatizált politikai tér alakul ki, amelyben a politikusok megfigyelik a többi politikus által alkalmazott stratégiákat, hogy népszerűnek tűnjenek, és önreferenciális kommunikációs buborékok létrehozásával megkülönböztessék magukat másoktól.
Hivatkozások
- Csigó, P. (2016). The Neopopular Bubble. Speculating on” the People” in Late Modern Democracy. Central European University Press.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction. (Vol. 2, pp. 1-758). New York: Springer.
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
- Nemeskey, D. M. (2021). Introducing huBERT. In Berend Gábor. Magyar Számítógépes Nyelvészeti Konferencia: MSZNY 2021: Szeged. pp. 3-14.
- Rakovics, Z. (2022). A Temporal Positive Pointwise Mutual Information (TPPMI) időbeli szóbeágyazási modell alkalmazásában rejlő lehetőségek demonstrálása: A miniszterelnöki beszédek szavainak jelentésváltozása. In: Feledy, A.; Egle, B. (szerk.) Van új a nap alatt: Az ELTE Angelusz Róbert Társadalomtudományi Szakkollégium konferenciájának tanulmánykötete. Budapest, Magyarország: ELTE ARTSZ pp. 31-48.
- Roberts, M. E., Stewart, B. M., & Tingley, D. (2019). STM: An R package for structural topic models. Journal of Statistical Software, 91, 1-40.
- Wasserman, S., & Faust, K. (1994). Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press.
- Wu, L., Yen, I. E., Xu, K., Xu, F., Balakrishnan, A., Chen, P. Y., … & Witbrock, M. J. (2018a). Word mover’s embedding: From word2vec to document embedding. arXiv preprint arXiv:1811.01713.
Wu, L., Yen, I. E. H., Xu, F., Ravikumar, P., & Witbrock, M. (2018b). D2ke: From distance to kernel and embedding. arXiv preprint arXiv:1802.04956.