Theses – ELTE Research Center for Computational Social Science

Angyalffy Dávid – Az index.hu nyelvezetének vizsgálata a 2020-as tulajdonosváltást követően gépi tanulási módszerekkel

2026 Survey statisztika és adatanalitika MSc Konzulens Buda Jakab

Angyalffy Dávid (LinkedIn, GitHub, E-mail)

A magyar online médiatér polarizációja és a szerkesztéspolitikai változások kvantitatív kimutatása a digitális újságírás kutatásának aktuális kérdése. Jelen tanulmány azt elemzi, hogy az Index.hu 2020-as tulajdonos- és szerkesztőségváltását követően kimutatható-e változás a portál nyelvezetében. A vizsgálat proxy-alapú megközelítéssel történik. Ennek során gépi tanulási modellek kerülnek betanításra két eltérő szerkesztéspolitikát képviselő hírportál, a HVG és az Origo cikkein, majd ezek a modellek illesztésre kerülnek az Index cikkein. Az elemzésben három modellarchitektúra, a logisztikus regresszió, az XGBoost és a BiLSTM magyar fastText-beágyazásokkal, teljesítménye kerül összehasonlításra, SHAP- és LIME-alapú interpretálhatósági vizsgálattal kiegészítve. A statisztikai validáció Mann-Whitney U-próbával, és Cohen-féle d hatásmérettel történt. Az eredmények arra utalnak, hogy az Index 2021-es cikkeinek átlagos P(Origo)-értéke konzisztensen magasabb a 2019-es cikkekénél mindhárom modell esetében, ami az Origo stilisztikai pólusa felé történő szisztematikus elmozdulásra utal.

Kander Levente – Kontrasztív tanulás alkalmazása aortabillentyű-szűkülettel rendelkező betegek tabuláris adatain

2026 Survey statisztika és adatanalitika MSc Konzulens Rakovics Márton

Kander Levente

A dolgozat egy önfelügyelt kontrasztív tanulási technikát alkalmazva kísérletet tesz aortabillentyű-szűkülettel rendelkező betegek tabuláris adatai mögött rejlő mintázatok pontosabb feltérképezésére, elősegítve ezzel egy robosztusabb betegszegmentáció létrehozását. Elsőként bemutatásra kerül a kontrasztív tanulás elméleti háttere, majd a TabContrast módszer felépítése és működése. A kódoló által készített beágyazások csoportosíthatósága vizuálisan és a sziluette-mutató alapján került kiértékelésre. Az eredmények alapján megállapítást nyert, hogy az eredeti, nyers adatokhoz viszonyítva a TabContrast jobb klaszterezhetőséget hoz létre, egy általános klinikai és kardiovaszkuláris kockázati különbségeket megragadó struktúra mellett. Ugyanakkor, az aortabillentyűn mérhető kalcium érték klasszfikációjában a beágyazási és eredeti vektortérre készített véletlen erdő modellek pontossága nem mutat érdemi különbséget.

Keindl Jakab Mátyás – Önkormányzati választások részvételi adatainak becslése térbeli modellek segítségével

2026 Survey statisztika és adatanalitika MSc Konzulens Dr. Németh Renáta

Keindl Jakab Mátyás

Szakdolgozatomban összehasonlító elemzést végzek két eltérő megközelítésű módszer között, standard változószett mellett, mely során a választáson való részvételi arány becslése a cél. A kérdés, hogy vajon a modernebb gépi tanulás (XGBoost) jobban teljesít-e, a feladatot illetőleg, vagy továbbra is a jól bevett regressziós (OLS) módszer a domináns. Természetesen az is előfordulhat, hogy nincs számottevő különbség a kettő között. Habár általánosságban – akár a médiát megfigyelve is – a nagyobb figyelmet az országgyűlést meghatározó parlamenti választások kapják (Bódi és Bódi, 2011), az elemzés szempontjából, aktualitása miatt az önkormányzati választások a számomra kedvezőbb eset (a legutóbbi önkormányzati választás 2024-ben volt, míg az országgyűlési 2022-ben). Ez alapján, a kutatás során a polgármester választásokon való részvételi arányt fogom modellezni. A megfigyelési egységeim település szinten aggregált adatok lesznek, – szemben az alternatív járási, vagy választókerületi szintű adatokkal – mivel ezáltal kellő mennyiségű megfigyelésem lesz, ami kielégíti a modellek működéséhez szükséges feltételt. Továbbá a felhasználni kívánt változókról ez a számomra legrészletesebb szinten elérhető adat.

Konzulens: Bozsonyi Károly és Németh Renáta

Pap János Sebestyén – A magyar online média politikai polarizációjának vizsgálata a személyek említésén keresztül

2026 Survey statisztika és adatanalitika MSc Konzulens Rakovics Zsófia

Pap János Sebestyén (LinkedIn, E-mail)

A dolgozat a magyar online hírmédia politikai polarizációját vizsgálja a személynevek említési mintázatain keresztül. A kutatás abból a feltevésből indul ki, hogy a polarizáció nemcsak a véleményekben, hanem abban is megjelenik, hogy a médiumok mely közéleti szereplőket emelik ki a többi közül, és ezek között milyen strukturális mintázatok és csoportosulások figyelhetők meg. Az empirikus elemzés egy 1998 és 2022 között megjelent cikkeket tartalmazó szövegkorpuszon alapul. A vizsgálat a természetesnyelvfeldolgozás és a hálózatelemzés módszereit ötvözi, melynek keretében névelem-felismeréssel azonosítja a személyeket, majd híroldal–személy típusú páros hálózatokat épít. A kapcsolatok szűrése a komparatív előnyök mutatójával, értékelése pedig null modell-alapú megközelítéssel, a páros konfigurációs modell segítségével történik. A híroldalak elkülönülését a dolgozat csoporton belüli és azok közötti együtt kiemelés, valamint az ez alapján számított polarizációs mutató alapján vizsgálja. Az eredmények szignifikáns polarizációt jeleznek a 2017-es évet követően, amely összhangban áll a magyar médiarendszer Politikai tagoltságáról szóló korábbi kutatásokkal. A dolgozat hozzájárul a médiapolarizáció hálózati alapú méréséhez, ugyanakkor korlátai közé tartozik a névelem-felismerés pontossága és az adatok reprezentativitása.

Sipos Péter – A mérkőzések közötti összefüggések prediktív hasznosíthatósága a Premier League-ben: lehetőségek és korlátok nyilvánosan elérhető adatokon

2026 Survey statisztika és adatanalitika MSc Konzulens Buda Jakab

Sipos Péter (LinkedIn)

A kutatás azt vizsgálja, hogy nyilvánosan elérhető event és sérülési adatok alapján létrehozható-e érvényes fáradtságmutató, és hogy a fáradtság, a forma, illetve a történelmi mérkőzésadatok bevonásával javítható-e a Premier League mérkőzésekre vonatkozó predikciós pontosság. A 2015/16–2024/25 szezonokat lefedő elemzés RAPM-modellt, ELOpontszámokat, xG-alapú formát és percalapú terhelési mutatókat alkalmaz, ordinális logisztikus regresszió és XGBoost keretben. Az eredmények szerint a terhelési mutatók és a sérülések között nem igazolható megbízható összefüggés, és a kontextualizált változók bevonása érdemi predikciós előnyt sem a játékosteljesítmény-, sem a végeredménymodelleknél nem nyújt a baseline modellhez képest.

Tobak Balázs – Különböző gépi tanulási modellek fejlesztése és összehasonlítása döntéstámogatási céllal Formula–1-es előzési kísérletek predikciójára

2026 Survey statisztika és adatanalitika MSc Konzulens Rakovics Márton

Tobak Balázs

A dolgozat a Formula–1-es előzési kísérletek kimenetelének predikcióját vizsgálja a 2018–2025-ös adatok alapján. Három modellt (logisztikus regresszió, XGBoost, Entity Embedding neurális hálózat) fejlesztettem és hasonlítottam össze a predikciós pontosság és a valós idejű döntéstámogatási hatékonyság szempontjából. Az eredmények szerint az XGBoost a legpontosabb és legstabilabb. A kutatás rávilágít az interpretálhatóság jelentőségére és a dinamikus tényezők dominanciájára.

Wernigg András Richárd – Monte Carlo szimuláció alkalmazása az egészségügyi ellátás minőségének és kockázatainak elemzésében: Komplex döntéstámogató modell a sérvműtétek példáján

2026 Survey statisztika és adatanalitika MSc Konzulens Rakovics Márton

Wernigg András Richárd (LinkedIn)

A kutatás a hazai sérvellátás minőségét és hozzáférhetőségét vizsgálja sztochasztikus Monte Carlo szimulációval. A 2022-es bázisadatokra épülő modell bizonyítja a determinisztikus kapacitástervezés és az „átlagok hibájának” veszélyeit. A 10 éves előrejelzés rávilágít az elöregedés okozta teherre, a területi egyenlőtlenségekre és a HBCS-rendszer volumenkorlátozó hatására. A sztochasztikus modellezés transzparens döntéstámogatást nyújt a szűkös kapacitások optimalizálásához.

Fodor Alexandra – A nagy nyelvi modellek alkalmazási lehetőségei a szöveganalitikai annotációban

2025 Survey statisztika és adatanalitika MSc Konzulens Dr. Katona Eszter

Fodor Alexandra

A szakdolgozat a generatív nagy nyelvi modellek szöveganalitikai annotációs feladatokban való alkalmazhatóságát vizsgálja egy depresszióval kapcsolatos szövegkorpusz segítségével. A kutatás a zárt forráskódú GPT-4o mini és a nyílt forráskódú Llama 3.3 70B teljesítményét hasonlítja össze, mindkét modell esetében zero-shot és few-shot technikák eredményei is összevetésre kerülnek. A pontosság tekintetében a few-shot megközelítés enyhe javuláshoz vezetett a zero-shot technikával szemben. A Llama modell pedig összeségében kicsivel jobb teljesítményt nyújtott, mint a GPT. A két modell pontosság tekintetében inkább közepes eredményt nyújtott, ezzel szemben a konzisztenciájuk és megbízhatóságuk magasnak mondható.

Gályász Balázs – Trianon értelmezései politikai térben: Narratív klaszterek és tematikus különbségek

2025 Szociológia BA Konzulens Dr. Barna Ildikó

Gályász Balázs

A kormánypárt egyre növekvő térnyerésének egyik oka az általuk kialakított emlékezetpolitika. Ennek kiemelkedő eleme Trianon, amely történelmi eseményként tovább él a jelenben is. Dolgozatomban a trianoni békeszerződés kollektív emlékezetének politikai narratíváit vizsgáltam. Egy online médiából gyűjtött újságcikk-adatbázist elemeztem klaszteranalízissel és a NarrCat eszköztárának segítségével. Elemzésemben összehasonlítottam a kormányközeli, balliberális és szélsőjobboldali diskurzusokat, feltárva narratív különbségeiket az egyes topikokban.

Könye Máté – LSTM és GRU neurális hálózatok teljesítményének összehasonlítása álhírek osztályozásában különböző előfeldolgozási stratégiákkal

2025 Survey statisztika és adatanalitika MSc Konzulens Buda Jakab

Könye Máté (LinkedIn, GitHub)

Az álhírek terjedése jelentős közegészségügyi, társadalmi és politikai kockázatokat hordoz. Jelen tanulmány célja két fejlett rekurrens neurális hálózati architektúra, a Long Short-Term Memory (LSTM) és a Gated Recurrent Unit (GRU), teljesítményének összehasonlítása bináris álhírklasszifikációs feladatban. A modellek értékelése különféle szöveg-előfeldolgozási stratégiák (például lemmatizálás, stopwordkezelés, numerikus adatok átalakítása) mentén történt, GloVe szóbeágyazások felhasználásával. Az elemzésben több, egymástól független és tematikusan eltérő angol nyelvű hírkorpusz szolgált tanító- és teszthalmazként. Az eredmények arra utalnak, hogy bizonyos előfeldolgozási lépések, mint a számok szöveges formára hozása és a stopszavak megtartása, szignifikánsan növelhetik a prediktív teljesítményt. A GRU modellek jobb teljesítményt nyújtottak a 2016-os cikkeket tartalmazó teszthalmazokon, míg a legfrissebb, 2025-ös hírcikkeken az LSTM architektúra bizonyult megbízhatóbbnak és pontosabbnak. Az eredmények a neurális architektúrák és előfeldolgozási módszerek közötti kölcsönhatás jelentőségére világítanak rá, és irányt mutathatnak hatékonyabb automatizált álhírszűrő rendszerek fejlesztéséhez.

Makláry János Zsolt – Mesterséges intelligencia által generált és ember által írt kutatási absztraktok klasszifikációja

2025 Survey statisztika és adatanalitika MSc Konzulens Buda Jakab

Makláry János Zsolt (LinkedIn, E-mail)

Dolgozatomban azt vizsgálom, hogy klasszikus gépi tanulási algoritmusok milyen pontossággal képesek mesterséges intelligencia által generált tartalmat felismerni egy modern, transzformer alapú detektorhoz viszonyítva, továbbá az AI akadémiai közegre gyakorolt hatásaival is foglalkozom.

Ódor Péter – Legkisebb költségű utak modellezése régészeti célú térbeli elemzésben: Tolna vármegye késő középkori úthálózatának rekonstrukciós lehetőségei

2025 Survey statisztika és adatanalitika MSc Konzulens Rakovics Márton

Ódor Péter (Academia.edu)

A szakdolgozat egy komplex térbeli elemzés, amely a késő középkori Tolna vármegye úthálózatának részleges rekonstrukciójára tesz kísérletet egy sokat alkalmazott modellezési eszköz, a legkisebb költségű útszámítás (LCP) segítségével. A vizsgált terület alaposan feldolgozott középkori településtörténete, az elmúlt évtizedek tájrégészeti megfigyelései és a történeti források alapján azonosított középkori utak a modellezés referenciapontjai. Az előkészítésben a fő út-költség tényezők megalapozott modellezése, a számításhoz használt költségfüggvények kiválasztásában a földrajzi környezet sajátosságai és az útkeresés beállítása bizonyultak a legfontosabb tényezőnek. Az LCP utak hitelesen reprezentálták a meghatározható, szomszédos középkori települések közötti úthálózati elemeket. A modellezett utak alapján egy áttekintő rekonstrukció valósult meg, ugyanakkor több lehetőség kínálkozik a módszer továbbfejlesztésre, az elemzés elmélyítésére.

A szakdolgozat függeléke itt érhető el.

Varga Tamás – Szóbeágyazás, tudásgráfok és GAT neurális háló alkalmazása: heveny hasnyálmirigy-gyulladás súlyosságának előrejelzése

2025 Survey statisztika és adatanalitika MSc Konzulens Rakovics Márton

Varga Tamás (LinkedIn)

Dolgozatomban a heveny hasnyálmirigy-gyulladás súlyosságának előrejelzésére tettem kísérletet gráfalapú, figyelem-mechanizmust alkalmazó neurális háló segítségével annak érdekében, hogy bemutassak egy olyan keretrendszert és mélytanulási modellt, amely lehetővé
teszi a tabuláris adatok gráfalapú megközelítéssel történő prediktív elemzését. A dolgozat részletesen ismerteti a Graph Attention Network modell módszertanát és alkalmazását, kiemelt figyelmet fordítva a kutatási problémára vonatkozó legoptimálisabb paraméterbeállítások és döntési pontok bemutatására. A neurális hálón alapuló elemzés eredményeinek kontextusba helyezése érdekében a felvetett kutatási problémát gépi tanulási módszerekkel elemeztem, és az így kapott eredményeket összevetettem a mélytanulási algoritmus eredményével. Mindezek eredményeképpen a dolgozat hozzájárul a tárgyalt figyelem-mechanizmuson alapuló mélytanulási modell módszertani, illetve gyakorlati megértéséhez.

Érsek Boglárka – Word embedding használhatósága a társadalomkutatásban

2024 Szociológia BA Konzulens Dr. Németh Renáta

Érsek Boglárka

Dolgozatomban a szóbeágyazási modellek társadalomtudományos felhasználhatóságát járom körül. Célom annak a bemutatása, hogy a kutatók eddig milyen jellegű vizsgálatokhoz és miként alkalmazták ezt a módszert. Megközelítésemben a “no code” technikára fókuszálok, azaz azt vizsgálom, hogy egy programozni nem tudó kutató számára milyen lehetőség van a módszer használatára. Írásomban először elhelyezem a témát a társadalomtudományos kutatási módszerek között, majd leírom a módszer lényegét és a lehetséges felhasználási módokat. A korábbi kutatások ismertetésével bemutatom, hogy a módszer egyaránt alkalmas technikai és tartalmi felhasználásra, illetve a nyelvi modelleken alapuló algoritmusok kritikus vizsgálatára is. Ezen felül bemutatom a magyar nyelvű szövegek felhasználhatóságát is. Pilot kutatásomban pedig példázom, hogy a WebVectors nevű online elérhető word embedding modell segítségével miként lehet programozói tudás nélkül is használni a módszert.

Gelányi Péter – A média elfogultságának mérése szóbeágyazásokon keresztül

2024 Survey Statisztika és Adatanalitika MSc Konzulens Rakovics Zsófia

Gelányi Péter (E-mail)

A szóbeágyazások a szavak szemantikai kapcsolatainak kvantitatív reprezentációját kínálják. Dolgozatomban a média elfogultságának és állásfoglalásának vizsgálatában való lehetséges felhasználásukat elemzem. Munkám elméleti háttere a média elfogultsággal és a szóbeágyazásokkal foglalkozó irodalomba egyaránt beágyazódik. Egy újonnan gyűjtött magyar online médiakorpusz elemzését részletezem. Több szóbeágyazási modellt illesztek, összehasonlítom teljesítményüket, és a legjobbat használom arra, hogy feltárjam az egyes kulcsszavak szemantikai kapcsolatait a médiumok között és egy szentimentszótár elemeivel. Eredményeim rávilágítanak a szóbeágyazások előnyeire és hátrányaira egyaránt.

Kovács Anna Krisztina – Automatizált szövegelemzés no-code eszközökkel: a Meaning Extraction Helper és az AntConc bemutatása a 2022-es hazai online kivándorlás-diskurzus vizsgálatával

2024 Szociológia BA Konzulens Dr. Németh Renáta

Kovács Anna Krisztina (LinkedIn)

Az elmúlt évek során a témában készült tanulmányok száma alátámasztja, hogy az automatizált szövegelemzésnek egyre nagyobb szerepe van az empirikus társadalomkutatáson belül. Ebben a szakdolgozatban két olyan automatizált szövegelemzési eszköz kerül bemutatása, amelyek nem igényelnek programozói tudást, de releváns szociológiai kutatási kérdéseket képesek megválaszolni. Az eszközök lehetőségei és limitációi korábbi tanulmányok ismertetésével, valamint a dolgozatban végzett példa kutatáson keresztül kerülnek szemléltetésre. Az elemzésben a 2022-es országgyűlési választásokat követő, laikus közvéleményben megjelenő kivándorlás-diskurzusokat tekintem át. A Meaning Extraction Method alkalmazásával a diskurzusok fő témái, az Antconc használatával pedig a leggyakrabban használt szavak kontextusa kerül bemutatásra.

Piros Anna Sára – A BERTopic alkalmazásának lehetőségei és korlátai

2024 Survey Statisztika és Adatanalitika MSc Konzulens Rakovics Zsófia

Piros Anna Sára (LinkedIn, GitHub)

Egy új topikmodellezési technika, a BERTopic működését és teljesítményét mutatom be az elterjed LDA modellel szemben. A gyakorlati összehasonlításhoz egy LDA és két BERTopic modellt vizsgáltam Orbán Viktor angol nyelvű miniszterelnöki beszédeinek korpuszán. Az optimalizált LDA modellnél meghatározott beállításokat alkalmaztam az egyik BERTopic modellen, és optimalizált beállításokat a másikon. A modellek kiértékeléséhez topikkoherencia és topikdiverzitás mutatókat, valamint a topikreprezentációk értelmezhetőségét vizsgáltam. Az optimalizált LDA modell redundáns és nem összefüggő topikokat eredményezett, míg mindkét BERTopic modell változatos, koherens és specifikus topikokat hozott létre. A BERTopic jobb eredményeket ér el, alkalmazása egyszerűbb és számos lehetőség rejlik benne a moduláris, flexibilis felépítésének köszönhetően.

Csaba Enikő – Szóbeágyazási vektorterek illesztési problémájának megoldása Prokrusztész transzformációval

2023 Survey Statisztika és Adatanalitika MSc Konzulens Rakovics Márton

Csaba Enikő

A dolgozat kísérletet tesz két, eltérő társadalomszemléletű online hírportál cikkeiből létrehozott korpusz összehasonlítására szóbeágyazási vektorterek összeillesztésével, annak érdekében, hogy definiálja a különböző kontextusból eredő eltéréseket. Emellett a dolgozat további célja annak meghatározása, mennyire alkalmas eszköz a Prokrusztész transzformáció a vektorreprezentációk közös térbe való illesztésére. Különböző szóbeágyazások tanításával először a feladatra legalkalmasabb modell kiválasztása történik meg, majd a Prokrusztész-transzformációk végrehajtása és kiértékelése. A legalacsonyabb közelítési hibával rendelkező transzformáció kijelölése után pedig sor került az összeillesztett vektortér elemzésére. Az eredmények egyrészről alátámasztják, hogy a Prokrusztész transzformáció alkalmas a beágyazások eltéréséből fakadó illesztési probléma kezelésére, másrészről azonosít téma-specifikus szavakat, melyek eltérő kontextusban jelennek meg a két médiumban.

Berbekár Réka – Trianon emlékezetpolitikájának vizsgálata gépi tanulási és szöveganalitikai eszközökkel

2022 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Berbekár Réka (LinkedIn, Email)

Több, mint 100 év telt el a trianoni békeszerződés aláírása óta, a Trianon közbeszédben való jelenléte azonban még mindig meglehetősen aktív. Sorra avatják az emlékműveket, számos megemlékezésnek lehetünk tanúi, a határon túli magyarok helyzete is folyamatosan téma az újságírók, politikusok körében.

Szakdolgozatomban azt vizsgálom, hogy a politikailag különböző hírportálokon megjelent Trianonnal kapcsolatos újságcikkek különbözők-e stílusukat és témájukat tekintve. LDA topikmodellezéssel topikokat alakítottam ki a cikkekből, a stílust pedig a NarrCat eszköz segítségével elemeztem (Pólya Tibor (ELKH TTK) segítségével). A hírportálok kommunikációjának különbözőségét klasszifikációs algoritmusok sikerességével mértem. A topikhovatartozási és a NarrCat score-ok voltak a magyarázó változóim, a csoportképző változóm pedig a honlapok politikai hovatartozása, ahol megjelentek a cikkek. A legjobb algoritmus 61,2%-os pontossággal sorolta a 4 politikai csoport egyikébe a cikkeket, amely klasszifikációban a legfontosabb változók topikhovatartozási értékek voltak.

Varga Zsolt – Távolsági metrikus tanulás sziámi neurális háló segítségével emberi pózok hasonlóságának becslésére

2022 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Varga Zsolt (LinkedIn)

A szakdolgozat az emberi pózok közötti összehasonlíthatóságot vizsgálja azok alacsonyabb térbe való beágyazásán keresztül, mély hasonlósági tanulás segítségével. A konkrét implementáció metrikus tanuláson, illetve sziámi neurális háló architektúrán alapszik. A cél egy olyan leképzés létrehozása, amely a hasonló adatpontokat euklideszi értelemben egymáshoz közel, míg a különbözőeket távol helyezi el a térben. A módszer megfelelő olyan szemantikai hasonlóság alapú emberi póz beágyazás létrehozására, amely hatékonyabb a tradicionális megoldásokkal szemben. Az eredmények alapján a jelen megoldás jobb klasszifikációs teljesítményhez, illetve gyorsabb konvergenciához vezet tanulás során. Ez a megközelítés segíthet olyan további rendszerek létrehozásában, amelynek nem-triviális hasonlósági metrikákra van szükségük, pl. invariancia az oldalasságra, vagy testrészek pozíciójára. Ezen túl a beágyazások bementként szolgálhatnak egyéb modelleknek. Összességében a szakdolgozat kiindulópont lehet olyan fejlettebb technikák létrehozásában, melynek alapja az emberi testtartás, és potenciális alkalmazásokat rejt az egészségügy, oktatás, fitnesz, illetve más területek számára.

Békési Lilla – Holokauszttagadás és a holokauszttal kapcsolatos torzítások a Kuruc.info portálon

2021 Szociológia BA Konzulens Dr. Barna Ildikó

Békési Lilla

Szakdolgozatomban a holokauszttagadás és a holokauszttal kapcsolatos torzítások jelenségét vizsgáltam a Kuruc.info nevű, szélsőjobbhoz köthető portálon közzétett cikkekben és kommentekben. Dolgozatom elkészítéséhez azon szövegeken végeztem kvalitatív másodelemzést, melyeket Barna Ildikó és Knap Árpád gyűjtöttek össze és használtak fel a portálon megjelenő antiszemitizmus topikmodellezéssel történő vizsgálatára. A Manfred Gerstenfeld által kialakított kategóriarendszer felhasználásával olyan kérdésekre kerestem választ, mint hogy a holokauszttal kapcsolatos torzítások mely fajtái jelennek meg a portálon, illetve melyek a leggyakoribbak. Dolgozatomban továbbá kitértem arra, hogy felfedezhetők-e a torzításhoz köthető antiszemita megnyilvánulások, valamint hogy a portál felhasználói mennyire próbálják elkendőzni nézeteiket. Érintőleg pedig abba is igyekeztem betekintést nyújtani, hogy a cikkek és a kommentek tartalmilag vagy megfogalmazásukban milyen mértékben térnek el egymástól.

Csala-Ferencz Bernadett – Klaszterelemzés online depresszió fórumok bejegyzésein – A scatter/gather módszer alkalmazása szöveges adatokon

2021 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Csala-Ferencz Bernadett

A depressziós megbetegedések egyre elterjedtebbek korunkban, az internetes fórumok pedig jó lehetőséget nyújtanak a mentális betegség természetének alaposabb megismerésére, és súlyosabb állapotban lévő, veszélyeztetett személyek kiszűrésére. Ez utóbbihoz névmáshasználati különbségek használhatóak fel eredményesen. A kutatásban angol nyelvű, depresszió témájú fórumokról gyűjtött 66295 bejegyzés klaszterezésével vizsgáltam, hogy milyen csoportokba szerveződhetnek a vizsgált bejegyzések. A depresszió fórumok megismerésén túl módszertani céljai is voltak a kutatásnak: egyrészt megvizsgálni, hogy a szövegek milyen előfeldolgozásával végezhető hatékonyabban klaszterezés a szövegeken, valamint, hogy a kiválasztott scatter/gather klaszterezési algoritmus mennyiben tudja segíteni jól interpretálható klaszterek megtalálását. Az elemzés során 15 viszonylag jól értelmezhető klaszter került létrehozásra, és elmondható, hogy az alkalmazott klaszterezési módszer többnyire hasznos eszközként szolgált jól interpretálható klaszterek elkülönítésére. A névmáshasználat alapján bár detektálásra került egy veszélyeztetettnek tűnő klaszter, azonban érdemes lehet még további markerek bevonásával is vizsgálni a súlyos depressziós bejegyzések detektálhatóságát.

Zaboretzky Bendegúz – Depresszió és COVID-19 – online fórumok topik modellezése

2021 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Zaboretzky Bendegúz (LinkedIn, GitHub, E-mail)

A depresszió minél alaposabb megértésében kulcsszerepet tölt be magával a depresszióval küzdő személy. Az ilyen helyzetben lévő személyeket, pontosabban perspektívájukat a depresszió és ahhoz szorosan kötődő problémák tekintetében hatékonyan tudjuk megközelíteni és vizsgálni online fórumokon keresztül. Ezt egy másik idei kutatás nagyszerűen meg is tette, melyre jelen dolgozat szorosan épített. Az újdonságot a COVID-19 megjelenése és a következtében létrejövő világjárvány, illetve annak a depressziós diskurzusra gyakorolt hatásának a vizsgálata jelenti. A dolgozat célja a korábbi kutatásra építkezni, az ott megjelent eredményeket kiegészíteni és a vezérfonalat folytatni, az említett új hatás figyelembevételével. Ebből kifolyólag jelen kutatás is topikmodellezésen alapszik, valamint NLP (Natural Language Processing) módszereket – elsősorban LDA (Latent Dirichlet Allocation) és STM (Structural Topic Models) – használt az eredmények bemutatására.

A kutatás az ELTE RC2S2 kutatócsoport projektjéhez kapcsolódva készült, ennek a cikknek folytatásaként.

Boros Krisztián – Adathiány kezelési módszerek metaanalízise szövegbányászati eszközökkel

2020 Survey Statisztika és Adatanalitika MSC

Boros Krisztián (LinkedIn, GitHub)

A kvantitatív kutatások során szinte mindig találkozhatunk hiányzó adatokkal. Ezek az adathiányok keletkezhetnek például nemválaszolásból, adminisztratív hibákból, vagy egy rossz mintavételből. Az évek során egyre szofisztikáltabb módszereket dolgoztak ki az adahiányok kezelésére, a jelenlegi technikák spektruma a hiányos esetek törlésétől (listwise/casewise deletion) egészen az algoritmikus modellekig (Többszörös imputáció, EM-algoritmus) terjed.

Dolgozatomban szövegbányászati eszközökkel vizsgáltam az adathiány kezelési módszereket tudományos publikációkban. Arra voltam kíváncsi, hogy milyen trendek és eltérések figyelhetők meg az alkalmazott adathiány kezelési technikákban tudományterületek és évek szerint; továbbá a szövegbányászati és -analitikai megközelítések módszertani határait tárgyaltam a Total Survey Error Framework szerint.

Az eredmények azt mutatják, hogy az „elavultabb” technikák (listwise-, pairwise deletion, egyszerű átlag imputálás) még mindig nagy népszerűségnek örvendenek, széleskörben alkalmazzák őket a kutatások során; viszont a „modernebb” módszerek használata minimális növekedést mutat. Fontos kiemelni, hogy az alkalmazott szövegbányászati és -analitikai technikák számos módszertani kérdést felvetnek az eredmények általánosíthatóságával és érvényességével kapcsolatban.

Buda Jakab – Szövegklasszifikáció rekurrens neurális háló alapú nyelvi modell segítségével

2020 Survey Statisztika és Adatanalitika MSC Konzulens Rakovics Márton

Buda Jakab

Szakdolgozatomban a visszacsatolt neurális háló alapú szövegklasszifikáció lehetőségeivel foglalkozom, ezen belül szövegek szerzőinek nem- és kormeghatározásával nyelvi modellek segítségével. A gyorsan fejlődő technológiai környezet és a folyamatosan változó online tartalmak által teremtett változó igények következtében az elmúlt években ezen a területen sok különböző megoldási lehetőség jelent meg, így ezek áttekintése teszi ki a dolgozat jelentős részét. Először összefoglalom a kapcsolódó természetesnyelv-feldolgozási, szóbeágyazással, szövegklasszifikációval és nyelvi modellekkel foglalkozó fontosabb szakirodalmakat, majd a visszacsatolt neurális hálók elméleti felépítését ás a gépi tanulás legfontosabb módszertani kérdéseit tárgyalom. Végül a 2013-as PAN szövegklasszifikációs verseny adatbázisán különböző méretű és felépítésű modelleket tesztelek. A dolgozat kérdése, hogy egy olyan osztályozó eljárás, amely különböző modelleket épít az egyes osztályokra és az egyes szövegeket az azokra legjobban illeszkedő modell osztályába sorolja lehet-e működőképes alternatívája a standard osztályozó algoritmusoknak. Bár a tesztelt esetekben az így épített modellek nem haladják meg a szokásos osztályozók összesített teljesítményét, úgy tűnik, hogy kiegyensúlyozottabb teljesítményt tudnak nyújtani.

Farkas Anna – Társadalmi torzítások a gépi tanulásban: Esettanulmány a Google Fordítóról

2020 Szociológia BA Konzulens Dr. Németh Renáta

Farkas Anna

A közelmúltban több kutatás is készült azzal kapcsolatban, hogy a gépi tanuló algoritmusok hajlamosak megismételni vagy felerősíteni a valós társadalmi különbségeket. Ezt az algoritmikus torzításnak nevezett jelenséget a szakdolgozat egy Google Fordítóról készült esettanulmányon keresztül mutatja be, amely a gépi fordításban megjelenő nemi torzítást vizsgálja foglalkozások magyar-angol fordításánál. Az esettanulmány célja a Google Fordítóban megjelenő nemi torzítás mértékének mérése volt és azt vizsgálta, hogy az „ő egy orvos”-hoz hasonló mondatokat az algoritmus a hímnemű „he” vagy a nőnemű „she” személyes névmással fordítja-e.

A kutatás a nemi torzítás megállapításához a fordításokat a foglalkozások valós nemi arányához viszonyítja, illetve ahhoz, hogy a társadalom hogyan gondolkodik a foglalkozásokról: A különböző foglalkozásokat inkább nőiesnek vagy inkább férfiasnak tartják? A társadalom véleményét a foglalkozásokról az Inspira Group kutatócég segítségével egy omnibusz kérdőíves kutatás keretében mértük fel. Az esettanulmány bemutatja, hogy a Google Fordító fordításai jobban lefedik a társadalom foglalkozásokról alkotott véleményét, mint a foglalkozások valós nemi arányát.

A szakdolgozat egy kiegészítő kutatást is tartalmaz, amely azt mérte fel, hogy hogyan változnak a fordítások, ha a foglalkozások elé jelzőket teszünk. Ezek a mondatok a „jó”, „nagyon jó”, „rossz”, „nagyon rossz” jelzőket tartalmazták.

Kerekes Norbert – Multi-label szövegklasszifikáció online fórumbejegyzéseken

2020 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Kerekes Norbert (LinkedIn)

A multi-label klasszifikáció egy olyan gépi tanulási feladat, amiről kevés szó esik, ahhoz képest, hogy milyen gyakran előforduló problémáról van szó a mindennapi életben.
A szakdolgozat ezzel a problémával foglalkozik, célja a multi-label problémák megoldására alkalmas algoritmusok összehasonlító áttekintése. Az algoritmusok két nagyobb családjának (a problémát transzformáló illetve az adaptív eljárásoknak) fontosabb képviselői egy szövegklasszifikációs problémán kerülnek bemutatásra. Az adatbázis depresszióval kapcsolatos online fórumbejegyzésekből épül fel, kategorizálásuk pedig a bio-pszicho-szociális modell alapján történt.

Nemes Dóra – A magyar filmiparban dolgozók kapcsolathálózatának feltárása IMDb adatok alapján

2020 Survey Statisztika és Adatanalitika MSC

Nemes Dóra (E-mail)

konzulens: Koltai Júlia

A dolgozat a magyar filmiparban dolgozók kapcsolathálózatát vizsgálja 2000-2019 között IMDb adatokon keresztül. Többek között olyan hiánypótló kérdésekre igyekszik választ adni, hogy tapasztalható-e látens struktúra a közös munkák szerveződésében, illetve kik, milyen karakterisztikákkal jellemezhető egyének tekinthetők a magyar filmes világ centrális szereplőinek. Az elemzett hálózat egy web scrapelt adatokra épülő súlyozott hálózat, melyben az egyes filmes dolgozók közötti kapcsolat alapja az egy filmben végzett közös munka, két ember közötti kapcsolat súlya pedig annak gyakorisága, hogy hányszor dolgoztak együtt. A filmvilágot leíró elemzéseken, centralitásvizsgálaton túl, a dolgozatban blokkmodellek és bróker-vizsgálat biztosítja, hogy a komplex struktúrák és szerveződések is láthatóvá váljanak. Ezen eljárások eredményeként bizonyítást nyert, hogy a magyar filmiparra a kiscsoportos, általában foglalkozások szerinti szervezettség mellett a projektalapú, sokszor egy film erejéig tartó közös munka a jellemző. A dolgozat filmes hitelességét, az eredmények filmipari interpretálását pedig szakértői interjúk biztosítják.

Tóbiás Dániel – A nemi diszkrimináció megjelenésének elemzése Twitch.tv csatornákon szövegbányászati módszerek segítségével

2020 Szociológia MA

Tóbiás Dániel (LinkedIn, E-mail)

A tanulmány az NLP szociológiai alkalmazhatóságára igyekszik példát mutatni és rávilágít egyebek mellett arra, hogy mennyire fontos egy online közösség szövegbányászati elemzésénél az adatok társadalomtudományos értelmezése, valamint az adatkezelési környezet alapos ismerete. A kutatás online gamer közösségekben keresi a nemi diszkrimináció egyes szöveges megjelenéseit, többek között Bag of Words módszerrel, Szentiment- és Topikelemzéssel. Az eredményekből megállapítható, hogy bár különbségek vannak a férfi és női csatornák között, de általános nemi diszkriminációra, különösképp objektifikációra utaló jelek nem tapasztalhatóak.

Gallina Beáta – Szentiment elemzés online híroldalak cikkein

2019 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Gallina Beáta (LinkedIn, GitHub)

Dolgozatomban magyar online híroldalak cikkein végzek szentiment elemzést (SA). Egy esettanulmányon keresztül mutatom be a szövegbányászat és a szentiment elemzés módszertani lépéseit – különös hangsúlyt fektetve az adatelőkészítésre – a legfontosabb, SA-ra alkalmas modellek működését, majd komparatív elemzést hajtok végre. Két hagyományos (lexikon- és gépi tanulás alapú) modellt hasonlítok össze e kettő kombinációjával és a legjobb teljesítményt elérő modell segítségével választ adok társadalomtudományi témájú kutatási kérdéseimre. A dolgozatomban olyan kérdésekre keresem a választ, hogy a magyar online sajtóban milyen mértékben jelenik meg politikai szereplőkkel kapcsolatos érzelmi viszonyulás; a választások hatására történt-e változás egyes politikai szereplők megítélésében újságírói oldalról és vajon található-e párhuzam a hagyományos, politikai népszerűségi közvélemény-kutatások eredményei és az SA eredménye között, azaz a választói preferenciák és politikai szereplők megjelenésének valenciája között beszélhetünk összefüggésről, vagy sem.

A modellek kiértékelését követően egy Naive Bayes osztályozóval dolgoztam tovább és az eredmények alapján megállapítható, hogy alapvetően a legnagyobb szentiment kategóriának a semleges bizonyul, viszont nagyban befolyásolja a domináns osztályt az, hogy mely politikai szereplő reprezentálódik az adott szövegben. A munka során kiderült, hogy az országgyűlési választások hatással vannak a politikusok médiabeli konnotációjára: a legtöbb ellenzéki politikus negatívabb színben tűnt fel az ellenzéki médiában a választások után. Némely párt esetén pedig hasonló tendencia tapasztalható a közvélemény-kutatásokban és a szentiment elemzésben.

A modellek pontossága feltehetően továbbfejleszthető egyéb jellemzők – nevezetesen topikok, n-gramok, cikk szerzők – bevonásával, nagyobb tanítóhalmazzal és átfogóbb szentiment szótárral.

Kulcsszavak: országgyűlési választások, szövegbányászat, szentiment elemzés, közvélemény-kutatás, gépi tanulás, Naive Bayes osztályozó