Boros Krisztián (LinkedIn, GitHub)
A kvantitatív kutatások során szinte mindig találkozhatunk hiányzó adatokkal. Ezek az adathiányok keletkezhetnek például nemválaszolásból, adminisztratív hibákból, vagy egy rossz mintavételből. Az évek során egyre szofisztikáltabb módszereket dolgoztak ki az adahiányok kezelésére, a jelenlegi technikák spektruma a hiányos esetek törlésétől (listwise/casewise deletion) egészen az algoritmikus modellekig (Többszörös imputáció, EM-algoritmus) terjed.
Dolgozatomban szövegbányászati eszközökkel vizsgáltam az adathiány kezelési módszereket tudományos publikációkban. Arra voltam kíváncsi, hogy milyen trendek és eltérések figyelhetők meg az alkalmazott adathiány kezelési technikákban tudományterületek és évek szerint; továbbá a szövegbányászati és -analitikai megközelítések módszertani határait tárgyaltam a Total Survey Error Framework szerint.
Az eredmények azt mutatják, hogy az „elavultabb” technikák (listwise-, pairwise deletion, egyszerű átlag imputálás) még mindig nagy népszerűségnek örvendenek, széleskörben alkalmazzák őket a kutatások során; viszont a „modernebb” módszerek használata minimális növekedést mutat. Fontos kiemelni, hogy az alkalmazott szövegbányászati és -analitikai technikák számos módszertani kérdést felvetnek az eredmények általánosíthatóságával és érvényességével kapcsolatban.