Piros Anna Sára – A BERTopic alkalmazásának lehetőségei és korlátai

2024 Survey Statisztika és Adatanalitika MSc Konzulens Rakovics Zsófia

Piros Anna Sára (LinkedIn, GitHub)

Egy új topikmodellezési technika, a BERTopic működését és teljesítményét mutatom be az elterjed LDA modellel szemben. A gyakorlati összehasonlításhoz egy LDA és két BERTopic modellt vizsgáltam Orbán Viktor angol nyelvű miniszterelnöki beszédeinek korpuszán. Az optimalizált LDA modellnél meghatározott beállításokat alkalmaztam az egyik BERTopic modellen, és optimalizált beállításokat a másikon. A modellek kiértékeléséhez topikkoherencia és topikdiverzitás mutatókat, valamint a topikreprezentációk értelmezhetőségét vizsgáltam. Az optimalizált LDA modell redundáns és nem összefüggő topikokat eredményezett, míg mindkét BERTopic modell változatos, koherens és specifikus topikokat hozott létre. A BERTopic jobb eredményeket ér el, alkalmazása egyszerűbb és számos lehetőség rejlik benne a moduláris, flexibilis felépítésének köszönhetően.

Szakdolgozat megtekintése