data mining

Gli scienziati informatici dell’Università della California, stanno sviluppando strumenti per aiutare a tracciare e monitorare i sintomi di COVID-19 e per setacciare la disinformazione sulla malattia sui social media.

Utilizzando i dati di Google Trends, un gruppo guidato da Vagelis Papalexakis, professore associato presso il Marlan and Rosemary Bourns College of Engineering e Jia Chen, un assistente, ha sviluppato un algoritmo che ha identificato tre sintomi unici di COVID-19 rispetto all’influenza: ageusia / perdita della funzione del gusto della lingua / mancanza di respiro e anosmia o perdita dell’olfatto. L’algoritmo è stato sviluppato in collaborazione con due studenti laureati, Md Imrul Kaish e Md Jakir Hossain, presso l’Università del Texas Rio Grande Valley.

Gran parte del lavoro che utilizza Google Trends per l’influenza si è concentrato sulla previsione della stagione influenzale“, ha affermato Papalexakis. “Noi, d’altra parte, l’abbiamo usato per vedere se potevamo trovare un ago in un pagliaio: sintomi unici di COVID-19 tra tutti i sintomi simil-influenzali che le persone cercano”.

I ricercatori hanno individuato i sintomi su Google Trends per il 2019 e il 2020 e hanno utilizzato una tecnica che hanno chiamato analisi discriminativa non negativa e in seguito il DNA per avere la conferma.

Abbiamo ipotizzato che le ricerche sui sintomi nel 2019 avrebbero portato all’influenza o ad altri disturbi respiratori, mentre le ricerche per gli stessi sintomi nel 2020 potrebbero essere entrambe“, ha detto Chen. “Utilizzando il DNA, siamo stati in grado di trovare la differenza tra i due set di dati. Si trattava di termini che i medici hanno già identificato come unici per COVID-19, dimostrando che il nostro approccio funziona”.

Un progetto che andra’ avanti

Papalexakis e Chen si aspettano che il loro lavoro aiuterà gli epidemiologi e altri esperti di salute pubblica a tracciare e monitorare il COVID-19 utilizzando Google Trends come proxy per i dati ospedalieri.

“I dati sulle tendenze di Google sono molto confusi, ma i dati ospedalieri non sono disponibili pubblicamente. Le persone potrebbero cercare i sintomi perché li stanno vivendo o perché ne hanno sentito parlare e vogliono saperne di più“, ha detto Papalexakis. “Le ricerche riflettono l’interesse per i sintomi meglio delle persone che li sperimentano attivamente, ma data la mancanza di altri dati, riteniamo che questo strumento possa aiutare i ricercatori a comprendere meglio i sintomi”.

Chen ha affermato che l’algoritmo è semplice e facile da implementare come parte di un potenziale strumento che può aiutare gli scienziati che ricercano altre malattie a conoscere i potenziali sintomi.

Il documento “COVID-19 o influenza? Discriminative Knowledge Discovery of COVID-19 Sintomi da Google Trends Data“, è stato presentato a epiDAMIK 2021, un workshop sul data mining per far progredire le conoscenze epidemiologiche. Il workshop è stato organizzato nell’ambito della più grande conferenza annuale sulla scienza dei dati, l’Association for Computing Machinery‘s, o ACM, Special Interest Group on Knowledge Discovery and Data Mining.

Papalexakis e il dottorando William Shiao della UC Riverside stanno anche sviluppando uno strumento che non solo identifica la disinformazione COVID-19, ma mostra perché le informazioni sono contrassegnate come false in relazione a un database di articoli scientifici sulla ricerca sui coronavirus.