Piros Anna Sára (LinkedIn, GitHub)
Egy új topikmodellezési technika, a BERTopic működését és teljesítményét mutatom be az elterjed LDA modellel szemben. A gyakorlati összehasonlításhoz egy LDA és két BERTopic modellt vizsgáltam Orbán Viktor angol nyelvű miniszterelnöki beszédeinek korpuszán. Az optimalizált LDA modellnél meghatározott beállításokat alkalmaztam az egyik BERTopic modellen, és optimalizált beállításokat a másikon. A modellek kiértékeléséhez topikkoherencia és topikdiverzitás mutatókat, valamint a topikreprezentációk értelmezhetőségét vizsgáltam. Az optimalizált LDA modell redundáns és nem összefüggő topikokat eredményezett, míg mindkét BERTopic modell változatos, koherens és specifikus topikokat hozott létre. A BERTopic jobb eredményeket ér el, alkalmazása egyszerűbb és számos lehetőség rejlik benne a moduláris, flexibilis felépítésének köszönhetően.