Home News GDPR: i ricercatori rilevano 150 milioni di siti con contenuti sensibili

GDPR: i ricercatori rilevano 150 milioni di siti con contenuti sensibili

Dopo due anni di duro lavoro e dopo aver elaborato più di un miliardo di siti Web, un team internazionale ha sviluppato classificatori specializzati di machine learning in grado di identificare URL sensibili sul Web e li hanno utilizzati per cercare tali URL su una base di circa 1 miliardo di URL in totale.

Alessandro Papa

23/10/2020

Dopo due anni di duro lavoro e dopo aver elaborato più di un miliardo di siti Web, un team internazionale, con Nikolaos Laoutaris (Professore di ricerca presso IMDEA Networks Institute, Madrid), nonché ricercatori del TU Berlino e la Cyprus University of Technology, hanno sviluppato classificatori specializzati di machine learning in grado di identificare URL sensibili sul Web e li hanno utilizzati per cercare tali URL su una base di circa 1 miliardo di URL in totale.

Come risultato principale (e inquietante), circa 150 milioni di loro sono stati trovati per includere contenuti sensibili relativi alla salute, convinzioni politiche, orientamento sessuale, ecc., e sono ancora monitorati quasi quanto il resto del web.

Dati negativi che portano gli esperti a migliorare e trovare soluzioni per gli utenti sui contenuti sensibili

La legislazione esistente sui dati personali sensibili è destinata principalmente all’uso da parte di esseri umani, ad esempio per presentare reclami, condurre indagini e persino perseguire casi in tribunale. Con l’uso dei nuovi classificatori di machine learning automatizzati, tuttavia, per la prima volta possono essere messe in atto anche ulteriori misure proattive. Ad esempio, il browser dell’utente o un programma aggiuntivo può avvisarlo prima di fare clic e seguire gli URL che puntano a contenuti sensibili.

Visitando tali siti, i tracker possono essere bloccati e i reclami possono essere archiviati automaticamente. Essere in grado di fare questo, dipende dalla capacità di classificare automaticamente se un URL è sensibile o meno, in tempo reale.

Quest’ultimo è più facile a dirsi che a farsi. Il motivo ha a che fare con l’ambiguità di termini come “Salute”, utilizzati dai documenti legali per indicare quali tipi di informazioni sono considerate sensibili. In effetti, la parola “salute” può essere trovata in siti web su alimentazione sana, sport e alimenti biologici, ma anche su siti web su malattie croniche, malattie sessualmente trasmissibili e cancro.

La maggior parte degli sforzi per produrre il suddetto classificatore è andata alla raccolta di dati sufficienti di “verità fondamentale” per addestrare il classificatore e consentirgli di distinguere usi veramente sensibili di parole come salute da quelli meno sensibili.

I risultati del lavoro del team saranno presentati, come documento scientifico, in ACM IMC’20 (ACM Internet Measurement Conference 2020, 27-29 ottobre, Pittsburgh, USA). Laoutaris partecipa anche a PIMCity (Building the next generation personal data platform), il progetto finanziato dall’UE per aumentare la trasparenza e fornire agli utenti il controllo sui propri dati. Il team di ricerca sta lavorando per portare una soluzione tecnologica all’utente nel 2021.

Ferrari, arriva il nuovo sistema di scarico aerodinamico

AI, musica generata grazie all’ intelligenza artificiale

Apple, arriva la matematica anche alla WWDC

Intel, creato un cervello artificiale chiamato Hala Point

AI, musica generata grazie all’ intelligenza artificiale

Intel, creato un cervello artificiale chiamato Hala Point

Axitea e il futuro della sorveglianza: videoronde basate sull’IA

Scetticismo e dubbi sull’IAG per il CEO di Mistral

Lenovo ThinkVision P32p-30: tra prestazioni e design, vale quello che costa?

Recensione DJI Avata 2: riprese FPV alla portata di tutti!

Geekom XT12 Pro: mini PC di fascia alta con Intel Core…

DEEBOT T30 Omni: il robot da battere che aspira e lava…

Fairphone Fairbuds: auricolari Bluetooth con batteria sostituibile

Smartphone, se ti cade nell’acqua lascia stare il riso

TV: come pulire correttamente lo schermo senza danneggiarlo

Beamforming: il metodo che non conosci per ottimizzare il tuo WiFi

Apple, arriva la matematica anche alla WWDC

Nothing: pericolo per la violazione dei dati degli utenti

Attenzioni alle truffe per le auto usate: ecco come evitale

Eclatante errore per Elon Musk: le news AI non funzionano

Amazon, sanzione ANTITRUST da 10 milioni: pratica commerciale scorretta

Apple iPad con sconto del 32%: OFFERTA AMAZON da non perdere

Aspirapolvere senza fili a meno di 100 euro: un PREZZO FOLLE…

Garmin Fenix 7S: OFFERTA con 350 euro di SCONTO su Amazon

Kena FOLLE, offerta flash con 100 GB a 4,99 euro

CoopVoce sta per stupire con CoopVoce Evo 30

TIM aumenta i PREZZI delle offerte mobili e fisse: ecco quali

Iliad, GIGA 180: è tornata l’offerta che regala il 5G e…