Cikkünkben a nemzetközi társadalomtudományi alkalmazásokban, a „Big Data” paradigma térnyerésével párhuzamosan rohamosan terjedő számítógépes szövegelemzési (NLP) módszereket és szociológiai felhasználhatóságukat tekintjük át. Bemutatjuk a legnépszerűbb és a szociológia számára véleményünk szerint legperspektivikusabb módszereket, és azokat a technikai-előfeldolgozási lépéseket is, melyek a klasszikus kvantitatív kutatáshoz képest az NLP specifikumát és komplexitását jellemzik. Egy konkrét esettanulmányként a korrupció online sajtóbeli témáinak időbeli változását vizsgáljuk, dinamikus topikmodell segítségével, a K-Monitor cikkgyűjteményét használva. 26.000 cikk alapján elemezzük a 2007 és 2018 közötti időszakot tekintve a tipikus korrupciós témák népszerűségének és tartalmának változását. A modell eredményeként hét, egymástól jól elkülöníthető topik jött létre, melyek külső információkkal is jó egyezést mutatnak.
Célunk az új megközelítés logikájának, a módszerekhez illeszthető kutatási kérdéseknek a megismertetése. Nem céloztuk sem a pontos matematikai-statisztikai háttér megismertetését, sem az egyes módszerek alkalmazásának támogatását, ugyanakkor utóbbihoz ajánlunk néhány jó kiindulópontot. Reményeink szerint írásunk inspirációul szolgál az NLP hazai szociológiai elterjedéséhez, e folyamat támogatását azért is fontosnak tartjuk, mert meggyőződésünk szerint az NLP néhány éven belül standard eszköze lesz a nemzetközi alkalmazott társadalomkutatásnak.
További részletek, vizualizációk: https://eszterkatona.github.io/dtm_viz/