Berbekár Réka – Trianon emlékezetpolitikájának vizsgálata gépi tanulási és szöveganalitikai eszközökkel

2022 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Berbekár Réka (LinkedIn, Email)

Több, mint 100 év telt el a trianoni békeszerződés aláírása óta, a Trianon közbeszédben való jelenléte azonban még mindig meglehetősen aktív. Sorra avatják az emlékműveket, számos megemlékezésnek lehetünk tanúi, a határon túli magyarok helyzete is folyamatosan téma az újságírók, politikusok körében.

Szakdolgozatomban azt vizsgálom, hogy a politikailag különböző hírportálokon megjelent Trianonnal kapcsolatos újságcikkek különbözők-e stílusukat és témájukat tekintve. LDA topikmodellezéssel topikokat alakítottam ki a cikkekből, a stílust pedig a NarrCat eszköz segítségével elemeztem (Pólya Tibor (ELKH TTK) segítségével).  A hírportálok kommunikációjának különbözőségét klasszifikációs algoritmusok sikerességével mértem. A topikhovatartozási és a NarrCat score-ok voltak a magyarázó változóim, a csoportképző változóm pedig a honlapok politikai hovatartozása, ahol megjelentek a cikkek. A legjobb algoritmus 61,2%-os pontossággal sorolta a 4 politikai csoport egyikébe a cikkeket, amely klasszifikációban a legfontosabb változók topikhovatartozási értékek voltak.

Varga Zsolt – Távolsági metrikus tanulás sziámi neurális háló segítségével emberi pózok hasonlóságának becslésére

2022 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Varga Zsolt (LinkedIn)

A szakdolgozat az emberi pózok közötti összehasonlíthatóságot vizsgálja azok alacsonyabb térbe való beágyazásán keresztül, mély hasonlósági tanulás segítségével. A konkrét implementáció metrikus tanuláson, illetve sziámi neurális háló architektúrán alapszik. A cél egy olyan leképzés létrehozása, amely a hasonló adatpontokat euklideszi értelemben egymáshoz közel, míg a különbözőeket távol helyezi el a térben. A módszer megfelelő olyan szemantikai hasonlóság alapú emberi póz beágyazás létrehozására, amely hatékonyabb a tradicionális megoldásokkal szemben. Az eredmények alapján a jelen megoldás jobb klasszifikációs teljesítményhez, illetve gyorsabb konvergenciához vezet tanulás során. Ez a megközelítés segíthet olyan további rendszerek létrehozásában, amelynek nem-triviális hasonlósági metrikákra van szükségük, pl. invariancia az oldalasságra, vagy testrészek pozíciójára. Ezen túl a beágyazások bementként szolgálhatnak egyéb modelleknek. Összességében a szakdolgozat kiindulópont lehet olyan fejlettebb technikák létrehozásában, melynek alapja az emberi testtartás, és potenciális alkalmazásokat rejt az egészségügy, oktatás, fitnesz, illetve más területek számára.

Békési Lilla – Holokauszttagadás és a holokauszttal kapcsolatos torzítások a Kuruc.info portálon

2021 Szociológia BA Konzulens Dr. Barna Ildikó

Békési Lilla

Szakdolgozatomban a holokauszttagadás és a holokauszttal kapcsolatos torzítások jelenségét vizsgáltam a Kuruc.info nevű, szélsőjobbhoz köthető portálon közzétett cikkekben és kommentekben. Dolgozatom elkészítéséhez azon szövegeken végeztem kvalitatív másodelemzést, melyeket Barna Ildikó és Knap Árpád gyűjtöttek össze és használtak fel a portálon megjelenő antiszemitizmus topikmodellezéssel történő vizsgálatára. A Manfred Gerstenfeld által kialakított kategóriarendszer felhasználásával olyan kérdésekre kerestem választ, mint hogy a holokauszttal kapcsolatos torzítások mely fajtái jelennek meg a portálon, illetve melyek a leggyakoribbak. Dolgozatomban továbbá kitértem arra, hogy felfedezhetők-e a torzításhoz köthető antiszemita megnyilvánulások, valamint hogy a portál felhasználói mennyire próbálják elkendőzni nézeteiket. Érintőleg pedig abba is igyekeztem betekintést nyújtani, hogy a cikkek és a kommentek tartalmilag vagy megfogalmazásukban milyen mértékben térnek el egymástól.

Csala-Ferencz Bernadett – Klaszterelemzés online depresszió fórumok bejegyzésein – A scatter/gather módszer alkalmazása szöveges adatokon

2021 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Csala-Ferencz Bernadett

A depressziós megbetegedések egyre elterjedtebbek korunkban, az internetes fórumok pedig jó lehetőséget nyújtanak a mentális betegség természetének alaposabb megismerésére, és súlyosabb állapotban lévő, veszélyeztetett személyek kiszűrésére. Ez utóbbihoz névmáshasználati különbségek használhatóak fel eredményesen. A kutatásban angol nyelvű, depresszió témájú fórumokról gyűjtött 66295 bejegyzés klaszterezésével vizsgáltam, hogy milyen csoportokba szerveződhetnek a vizsgált bejegyzések. A depresszió fórumok megismerésén túl módszertani céljai is voltak a kutatásnak: egyrészt megvizsgálni, hogy a szövegek milyen előfeldolgozásával végezhető hatékonyabban klaszterezés a szövegeken, valamint, hogy a kiválasztott scatter/gather klaszterezési algoritmus mennyiben tudja segíteni jól interpretálható klaszterek megtalálását. Az elemzés során 15 viszonylag jól értelmezhető klaszter került létrehozásra, és elmondható, hogy az alkalmazott klaszterezési módszer többnyire hasznos eszközként szolgált jól interpretálható klaszterek elkülönítésére. A névmáshasználat alapján bár detektálásra került egy veszélyeztetettnek tűnő klaszter, azonban érdemes lehet még további markerek bevonásával is vizsgálni a súlyos depressziós bejegyzések detektálhatóságát.

Zaboretzky Bendegúz – Depresszió és COVID-19 – online fórumok topik modellezése

2021 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Zaboretzky Bendegúz (GitHub, LinkedIn, Email)

A depresszió minél alaposabb megértésében kulcsszerepet tölt be magával a depresszióval küzdő személy. Az ilyen helyzetben lévő személyeket, pontosabban perspektívájukat a depresszió és ahhoz szorosan kötődő problémák tekintetében hatékonyan tudjuk megközelíteni és vizsgálni online fórumokon keresztül. Ezt egy másik idei kutatás nagyszerűen meg is tette, melyre jelen dolgozat szorosan épített. Az újdonságot a COVID-19 megjelenése és a következtében létrejövő világjárvány, illetve annak a depressziós diskurzusra gyakorolt hatásának a vizsgálata jelenti. A dolgozat célja a korábbi kutatásra építkezni, az ott megjelent eredményeket kiegészíteni és a vezérfonalat folytatni, az említett új hatás figyelembevételével. Ebből kifolyólag jelen kutatás is topikmodellezésen alapszik, valamint NLP (Natural Language Processing) módszereket – elsősorban LDA (Latent Dirichlet Allocation) és STM (Structural Topic Models) – használt az eredmények bemutatására.

A kutatás az ELTE RC2S2 kutatócsoport projektjéhez kapcsolódva készült, ennek a cikknek folytatásaként.

Boros Krisztián – Adathiány kezelési módszerek metaanalízise szövegbányászati eszközökkel

2020 Survey Statisztika és Adatanalitika MSC

Boros Krisztián (LinkedIn; GitHub)

A kvantitatív kutatások során szinte mindig találkozhatunk hiányzó adatokkal. Ezek az adathiányok keletkezhetnek például nemválaszolásból, adminisztratív hibákból, vagy egy rossz mintavételből. Az évek során egyre szofisztikáltabb módszereket dolgoztak ki az adahiányok kezelésére, a jelenlegi technikák spektruma a hiányos esetek törlésétől (listwise/casewise deletion) egészen az algoritmikus  modellekig (Többszörös imputáció, EM-algoritmus) terjed.

Dolgozatomban szövegbányászati eszközökkel vizsgáltam az adathiány kezelési módszereket tudományos publikációkban. Arra voltam kíváncsi, hogy milyen trendek és eltérések figyelhetők meg az alkalmazott adathiány kezelési technikákban tudományterületek és évek szerint; továbbá a szövegbányászati és -analitikai megközelítések módszertani határait tárgyaltam a Total Survey Error Framework szerint.

Az eredmények azt mutatják, hogy az „elavultabb” technikák (listwise-, pairwise deletion, egyszerű átlag imputálás) még mindig nagy népszerűségnek örvendenek, széleskörben alkalmazzák őket a kutatások során; viszont a „modernebb” módszerek használata minimális növekedést mutat. Fontos kiemelni, hogy az alkalmazott szövegbányászati és -analitikai technikák számos módszertani kérdést felvetnek az eredmények általánosíthatóságával és érvényességével kapcsolatban.

Buda Jakab – Szövegklasszifikáció rekurrens neurális háló alapú nyelvi modell segítségével

2020 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Szakdolgozatomban a visszacsatolt neurális háló alapú szövegklasszifikáció lehetőségeivel foglalkozom, ezen belül szövegek szerzőinek nem- és kormeghatározásával nyelvi modellek segítségével. A gyorsan fejlődő technológiai környezet és a folyamatosan változó online tartalmak által teremtett változó igények következtében az elmúlt években ezen a területen sok különböző megoldási lehetőség jelent meg, így ezek áttekintése teszi ki a dolgozat jelentős részét. Először összefoglalom a kapcsolódó természetesnyelv-feldolgozási, szóbeágyazással, szövegklasszifikációval és nyelvi modellekkel foglalkozó fontosabb szakirodalmakat, majd a visszacsatolt neurális hálók elméleti felépítését ás a gépi tanulás legfontosabb módszertani kérdéseit tárgyalom. Végül a 2013-as PAN szövegklasszifikációs verseny adatbázisán különböző méretű és felépítésű modelleket tesztelek. A dolgozat kérdése, hogy egy olyan osztályozó eljárás, amely különböző modelleket épít az egyes osztályokra és az egyes szövegeket az azokra legjobban illeszkedő modell osztályába sorolja lehet-e működőképes alternatívája a standard osztályozó algoritmusoknak. Bár a tesztelt esetekben az így épített modellek nem haladják meg a szokásos osztályozók összesített teljesítményét, úgy tűnik, hogy kiegyensúlyozottabb teljesítményt tudnak nyújtani.

Farkas Anna – Társadalmi torzítások a gépi tanulásban: Esettanulmány a Google Fordítóról

2020 Szociológia BA Konzulens Dr. Németh Renáta

A közelmúltban több kutatás is készült azzal kapcsolatban, hogy a gépi tanuló algoritmusok hajlamosak megismételni vagy felerősíteni a valós társadalmi különbségeket. Ezt az algoritmikus torzításnak nevezett jelenséget a szakdolgozat egy Google Fordítóról készült esettanulmányon keresztül mutatja be, amely a gépi fordításban megjelenő nemi torzítást vizsgálja foglalkozások magyar-angol fordításánál. Az esettanulmány célja a Google Fordítóban megjelenő nemi torzítás mértékének mérése volt és azt vizsgálta, hogy az „ő egy orvos”-hoz hasonló mondatokat az algoritmus a hímnemű „he” vagy a nőnemű „she” személyes névmással fordítja-e.

A kutatás a nemi torzítás megállapításához a fordításokat a foglalkozások valós nemi arányához viszonyítja, illetve ahhoz, hogy a társadalom hogyan gondolkodik a foglalkozásokról: A különböző foglalkozásokat inkább nőiesnek vagy inkább férfiasnak tartják? A társadalom véleményét a foglalkozásokról az Inspira Group kutatócég segítségével egy omnibusz kérdőíves kutatás keretében mértük fel. Az esettanulmány bemutatja, hogy a Google Fordító fordításai jobban lefedik a társadalom foglalkozásokról alkotott véleményét, mint a foglalkozások valós nemi arányát.

A szakdolgozat egy kiegészítő kutatást is tartalmaz, amely azt mérte fel, hogy hogyan változnak a fordítások, ha a foglalkozások elé jelzőket teszünk. Ezek a mondatok a „jó”, „nagyon jó”, „rossz”, „nagyon rossz” jelzőket tartalmazták.

Kerekes Norbert – Multi-label szövegklasszifikáció online fórumbejegyzéseken

2020 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Kerekes Norbert (LinkedIn)

A multi-label klasszifikáció egy olyan gépi tanulási feladat, amiről kevés szó esik, ahhoz képest, hogy milyen gyakran előforduló problémáról van szó a mindennapi életben.
A szakdolgozat ezzel a problémával foglalkozik, célja a multi-label problémák megoldására alkalmas algoritmusok összehasonlító áttekintése. Az algoritmusok két nagyobb családjának (a problémát transzformáló illetve az adaptív eljárásoknak) fontosabb képviselői egy szövegklasszifikációs problémán kerülnek bemutatásra. Az adatbázis depresszióval kapcsolatos online fórumbejegyzésekből épül fel, kategorizálásuk pedig a bio-pszicho-szociális modell alapján történt.

Nemes Dóra – A magyar filmiparban dolgozók kapcsolathálózatának feltárása IMDb adatok alapján

2020 Survey Statisztika és Adatanalitika MSC

Nemes Dóra (nemesdori8@gmail.com)

A dolgozat a magyar filmiparban dolgozók kapcsolathálózatát vizsgálja 2000-2019 között IMDb adatokon keresztül. Többek között olyan hiánypótló kérdésekre igyekszik választ adni, hogy tapasztalható-e látens struktúra a közös munkák szerveződésében, illetve kik, milyen karakterisztikákkal jellemezhető egyének tekinthetők a magyar filmes világ centrális szereplőinek. Az elemzett hálózat egy web scrapelt adatokra épülő súlyozott hálózat, melyben az egyes filmes dolgozók közötti kapcsolat alapja az egy filmben végzett közös munka, két ember közötti kapcsolat súlya pedig annak gyakorisága, hogy hányszor dolgoztak együtt. A filmvilágot leíró elemzéseken, centralitásvizsgálaton túl, a dolgozatban blokkmodellek és bróker-vizsgálat biztosítja, hogy a komplex struktúrák és szerveződések is láthatóvá váljanak. Ezen eljárások eredményeként bizonyítást nyert, hogy a magyar filmiparra a kiscsoportos, általában foglalkozások szerinti szervezettség mellett a projektalapú, sokszor egy film erejéig tartó közös munka a jellemző. A dolgozat filmes hitelességét, az eredmények filmipari interpretálását pedig szakértői interjúk biztosítják.

Tóbiás Dániel – A nemi diszkrimináció megjelenésének elemzése Twitch.tv csatornákon szövegbányászati módszerek segítségével

2020 Szociológia MA

Tóbiás Dániel (LinkedIn; tobiasdani88@gmail.com)

A tanulmány az NLP szociológiai alkalmazhatóságára igyekszik példát mutatni és rávilágít egyebek mellett arra, hogy mennyire fontos egy online közösség szövegbányászati elemzésénél az adatok társadalomtudományos értelmezése, valamint az adatkezelési környezet alapos ismerete. A kutatás online gamer közösségekben keresi a nemi diszkrimináció egyes szöveges megjelenéseit, többek között Bag of Words módszerrel, Szentiment- és Topikelemzéssel. Az eredményekből megállapítható, hogy bár különbségek vannak a férfi és női csatornák között, de általános nemi diszkriminációra, különösképp objektifikációra utaló jelek nem tapasztalhatóak.

Gallina Beáta – Szentiment elemzés online híroldalak cikkein

2019 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Gallina Beáta (https://github.com/bgallina, www.linkedin.com/in/bgallina)

Dolgozatomban magyar online híroldalak cikkein végzek szentiment elemzést (SA). Egy esettanulmányon keresztül mutatom be a szövegbányászat és a szentiment elemzés módszertani lépéseit – különös hangsúlyt fektetve az adatelőkészítésre – a legfontosabb, SA-ra alkalmas modellek működését, majd komparatív elemzést hajtok végre. Két hagyományos (lexikon- és gépi tanulás alapú) modellt hasonlítok össze e kettő kombinációjával és a legjobb teljesítményt elérő modell segítségével választ adok társadalomtudományi témájú kutatási kérdéseimre. A dolgozatomban olyan kérdésekre keresem a választ, hogy a magyar online sajtóban milyen mértékben jelenik meg politikai szereplőkkel kapcsolatos érzelmi viszonyulás; a választások hatására történt-e változás egyes politikai szereplők megítélésében újságírói oldalról és vajon található-e párhuzam a hagyományos, politikai népszerűségi közvélemény-kutatások eredményei és az SA eredménye között, azaz a választói preferenciák és politikai szereplők megjelenésének valenciája között beszélhetünk összefüggésről, vagy sem.

A modellek kiértékelését követően egy Naive Bayes osztályozóval dolgoztam tovább és az eredmények alapján megállapítható, hogy alapvetően a legnagyobb szentiment kategóriának a semleges bizonyul, viszont nagyban befolyásolja a domináns osztályt az, hogy mely politikai szereplő reprezentálódik az adott szövegben. A munka során kiderült, hogy az országgyűlési választások hatással vannak a politikusok médiabeli konnotációjára: a legtöbb ellenzéki politikus negatívabb színben tűnt fel az ellenzéki médiában a választások után. Némely párt esetén pedig hasonló tendencia tapasztalható a közvélemény-kutatásokban és a szentiment elemzésben.

A modellek pontossága feltehetően továbbfejleszthető egyéb jellemzők – nevezetesen topikok, n-gramok, cikk szerzők – bevonásával, nagyobb tanítóhalmazzal és átfogóbb szentiment szótárral.

Kulcsszavak: országgyűlési választások, szövegbányászat, szentiment elemzés, közvélemény-kutatás, gépi tanulás, Naive Bayes osztályozó

Hering András – Random Forest módszerek alkalmazásai

2019 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Hering András

A gépi tanulásos algoritmusok a statisztikai fősodortól eltérő, predikciós képességet végletekig optimalizáló, de gyakran korlátozottan értelmezhető kimenetű alternatívaként jelentek meg. Leo Breiman az általa algoritmusos modellezésnek nevezett kultúra mellett érvelt, miszerint a legpontosabb modell a preferált egy rosszabbul teljesítő, de jobban interpretálható modellel szemben. Szakdolgozatomban Leo Breiman és társa, Adele Cutler Random Forests nevű modelljét értékelem ki egy logisztikus regresszióval vizsgált, tanulási típusokat elemző kutatásban azzal a céllal, hogy a várhatóan jobb teljesítményű Random Forests milyen ismert vagy új információt tud feltárni az oksági magyarázatot kereső társadalomtudományos környezetben. A Random Forests döntési fákból álló komplex struktúrájának feltárását követően felsorakoztatom a három fő információforrást a modell értelmezésére: out-of-bag, variable importance, és multi-dimension scaling. Az elemzés során létrehozok egy marginálisan jobban teljesítő RF modellt, amely kiértékelése során korábban ismert és nem feltárt összefüggések is megjelennek: a fák szavazati arányaiból származó értékek érdekes összefüggést mutatnak a logisztikus regresszió együtthatóival.

Mayer Balázs – Homofília hatása hálózatokban lejátszódó véleménydinamikai folyamatokra – ágens alapú szimuláció

2018 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Mayer Balázs

Szakdolgozatomban a homofília hatását vizsgáltam hálózatokban lejátszódó véleménydinamikai folyamatokra, ágens alapú szimulációval. Fő hipotézisem, Gargiulo és Gandica (2017) nyomán az volt, hogy a vélemények szerinti homofília nagyobb mértéke össztársadalmi konszenzus létrejötte felé hat.

A véleménydinamikai folyamatok alanyait képző ágenseket hálózatok csomópontjaiként határoztam meg. Hálózatépítő modellem figyelembe vette a preferenciális kapcsolódás gyakran hivatkozott jelenségét, az ágensek közötti demográfiai attribútumok szerinti homofíliát a magyar társadalmat a kétezres években jellemző mértékben, valamint a vélemények szerinti homofíliát is, ötféle szimulált és valós véleményeloszlás mellett, pontosan beállítható mértékben.

A létrehozott gráfok fokeloszlásai a valós hálózatoktól elvárt módon hatványeloszlást követtek és képesek voltak megragadni azt a jelenséget is, hogy a hasonló tulajdonságú csomópontok nagyobb valószínűséggel kapcsolódtak, mint a különbözőek, várakozásaimmal ellentétben azonban a kizárólag demográfiai hasonlóságot figyelembe vevő hálózatokban nem jelent meg nagy modularitás.

A véleménydinamikai folyamatokat elemezve hipotézisem megerősítésre került, úgy tűnik, a homofília némileg kontraintuitív konszenzusképző hatása nem függ jelentősen a kiinduló véleményváltozók eloszlásától.