Csala-Ferencz Bernadett – Klaszterelemzés online depresszió fórumok bejegyzésein – A scatter/gather módszer alkalmazása szöveges adatokon

2021 Survey Statisztika és Adatanalitika MSC Konzulens Dr. Németh Renáta

Csala-Ferencz Bernadett

A depressziós megbetegedések egyre elterjedtebbek korunkban, az internetes fórumok pedig jó lehetőséget nyújtanak a mentális betegség természetének alaposabb megismerésére, és súlyosabb állapotban lévő, veszélyeztetett személyek kiszűrésére. Ez utóbbihoz névmáshasználati különbségek használhatóak fel eredményesen. A kutatásban angol nyelvű, depresszió témájú fórumokról gyűjtött 66295 bejegyzés klaszterezésével vizsgáltam, hogy milyen csoportokba szerveződhetnek a vizsgált bejegyzések. A depresszió fórumok megismerésén túl módszertani céljai is voltak a kutatásnak: egyrészt megvizsgálni, hogy a szövegek milyen előfeldolgozásával végezhető hatékonyabban klaszterezés a szövegeken, valamint, hogy a kiválasztott scatter/gather klaszterezési algoritmus mennyiben tudja segíteni jól interpretálható klaszterek megtalálását. Az elemzés során 15 viszonylag jól értelmezhető klaszter került létrehozásra, és elmondható, hogy az alkalmazott klaszterezési módszer többnyire hasznos eszközként szolgált jól interpretálható klaszterek elkülönítésére. A névmáshasználat alapján bár detektálásra került egy veszélyeztetettnek tűnő klaszter, azonban érdemes lehet még további markerek bevonásával is vizsgálni a súlyos depressziós bejegyzések detektálhatóságát.

Szakdolgozat megtekintése