Gallina Beáta – Szentiment elemzés online híroldalak cikkein

2019 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Gallina Beáta (LinkedIn, GitHub)

Dolgozatomban magyar online híroldalak cikkein végzek szentiment elemzést (SA). Egy esettanulmányon keresztül mutatom be a szövegbányászat és a szentiment elemzés módszertani lépéseit – különös hangsúlyt fektetve az adatelőkészítésre – a legfontosabb, SA-ra alkalmas modellek működését, majd komparatív elemzést hajtok végre. Két hagyományos (lexikon- és gépi tanulás alapú) modellt hasonlítok össze e kettő kombinációjával és a legjobb teljesítményt elérő modell segítségével választ adok társadalomtudományi témájú kutatási kérdéseimre. A dolgozatomban olyan kérdésekre keresem a választ, hogy a magyar online sajtóban milyen mértékben jelenik meg politikai szereplőkkel kapcsolatos érzelmi viszonyulás; a választások hatására történt-e változás egyes politikai szereplők megítélésében újságírói oldalról és vajon található-e párhuzam a hagyományos, politikai népszerűségi közvélemény-kutatások eredményei és az SA eredménye között, azaz a választói preferenciák és politikai szereplők megjelenésének valenciája között beszélhetünk összefüggésről, vagy sem.

A modellek kiértékelését követően egy Naive Bayes osztályozóval dolgoztam tovább és az eredmények alapján megállapítható, hogy alapvetően a legnagyobb szentiment kategóriának a semleges bizonyul, viszont nagyban befolyásolja a domináns osztályt az, hogy mely politikai szereplő reprezentálódik az adott szövegben. A munka során kiderült, hogy az országgyűlési választások hatással vannak a politikusok médiabeli konnotációjára: a legtöbb ellenzéki politikus negatívabb színben tűnt fel az ellenzéki médiában a választások után. Némely párt esetén pedig hasonló tendencia tapasztalható a közvélemény-kutatásokban és a szentiment elemzésben.

A modellek pontossága feltehetően továbbfejleszthető egyéb jellemzők – nevezetesen topikok, n-gramok, cikk szerzők – bevonásával, nagyobb tanítóhalmazzal és átfogóbb szentiment szótárral.

Kulcsszavak: országgyűlési választások, szövegbányászat, szentiment elemzés, közvélemény-kutatás, gépi tanulás, Naive Bayes osztályozó