Koltai, Júlia – Kmetty, Zoltán – Bozsonyi, Károly (2019) From Durkheim to machine learning – finding the relevant sociological content in a social media discourse. In: Rudas, Tamás – Péli, Gábor (eds.) Pathways Between Social Science and Computational Social Science – Therories, Methods and Interpretations. New York, NY, Springer. (forthcoming)

2019.12.15. Publikáció Adattudomány a társadalomkutatásban

Az öngyilkosság témája Durkheim óta foglalkoztatja a társadalomtudósokat. Az internet és a közösségi média új utakat nyitott meg az emberek számára ahhoz, hogy megosszák ott pozitív érzéseiket, ugyanakkor ezek színterei lehetnek a szuicid késztetés és a depressziós gondolatok megfogalmazásának is. A legtöbb ilyen bejegyzés nem valós öngyilkossági szándék miatt íródik, egyesek mögött azonban valós segélykiáltások vannak. Mindazonáltal, az öngyilkossággal és depresszióval kapcsolatos bejegyzések jellege nagyon eltérő a különböző platformokon, így egyáltalán nem egyértelmű, hogy egy kutató hogyan találja meg az ilyen tartalmakat a közösségi média hatalmas adattömegében. Tanulmányunkban egy olyan szövegkorpuszt dolgozunk fel, amely több mint 4 millió olyan Instagram fotón alapul, melyek kapcsolatban hozhatóak mentális problémákkal. A korpusz bemutatása után két eltérő stratégiát taglalunk arra vonatkozóan, hogy lehet a szociológiai szempontból releváns tartalmakat meghatározni a közösségi média zajos adataiból. Az első módszer kiindulópontja egy topicmodellezés (Latent Dirichlet Allocation – LDA), amelynek  eredménye egy felügyelt gépi tanulással készült osztályozási módszer alapjául szolgál. A másik stratégia egy mesterséges neurális hálón alapuló szóbeágyazási modellre épül.