Könye Máté – LSTM és GRU neurális hálózatok teljesítményének összehasonlítása álhírek osztályozásában különböző előfeldolgozási stratégiákkal

2025 Survey statisztika és adatanalitika MSc Konzulens Buda Jakab

Könye Máté (LinkedIn, GitHub)

Az álhírek terjedése jelentős közegészségügyi, társadalmi és politikai kockázatokat hordoz. Jelen tanulmány célja két fejlett rekurrens neurális hálózati architektúra, a Long Short-Term Memory (LSTM) és a Gated Recurrent Unit (GRU), teljesítményének összehasonlítása bináris álhírklasszifikációs feladatban. A modellek értékelése különféle szöveg-előfeldolgozási stratégiák (például lemmatizálás, stopwordkezelés, numerikus adatok átalakítása) mentén történt, GloVe szóbeágyazások felhasználásával. Az elemzésben több, egymástól független és tematikusan eltérő angol nyelvű hírkorpusz szolgált tanító- és teszthalmazként. Az eredmények arra utalnak, hogy bizonyos előfeldolgozási lépések, mint a számok szöveges formára hozása és a stopszavak megtartása, szignifikánsan növelhetik a prediktív teljesítményt. A GRU modellek jobb teljesítményt nyújtottak a 2016-os cikkeket tartalmazó teszthalmazokon, míg a legfrissebb, 2025-ös hírcikkeken az LSTM architektúra bizonyult megbízhatóbbnak és pontosabbnak. Az eredmények a neurális architektúrák és előfeldolgozási módszerek közötti kölcsönhatás jelentőségére világítanak rá, és irányt mutathatnak hatékonyabb automatizált álhírszűrő rendszerek fejlesztéséhez.

 

Szakdolgozat megtekintése