Mai come in questo ultimo anno i riflettori sono stati puntati sul ruolo chiave che l’innovazione tecnologica può e deve giocare al fine di migliorare la qualità della vita.
Si fa sempre più strada, sebbene con alcune limitazioni, l’utilizzo dei big data in ambito sanitario al fine di analizzare miliardi di microdati e trovare cure per le più disparate patologie e virus.
Anche nella corsa al vaccino del Covid-19 i big data hanno giocato un ruolo fondamentale.
COSA SONO I BIG DATA?
Quando si parla di big data ci si riferisce a un insieme di dati che sono così grandi di volume e così complessi che i software e le architetture informatiche tradizionali non sono in grado di catturarli, gestirli ed elaborarli in un tempo ragionevole.
Se un database tradizionale può gestire tabelle composte da milioni di righe e decine o poche centinaia di colonne, i big data richiedono strumenti in grado di gestire lo stesso numero di record, ma con migliaia di colonne.
In più, spesso i dati non sono disponibili in forma strutturata, facilmente incasellabili in righe e colonne, ma sono presenti sotto forma di documenti, meta dati, posizioni geografiche, valori rilevati da sensori IoT e in numerose altre forme, dal semi-strutturato al completamente destrutturato. In altre parole, i dati che compongono gli archivi di big data possono provenire da fonti eterogenee, come dati di navigazione di siti web, social media, applicazioni desktop e mobile, ma anche da sensori integrati in migliaia di oggetti che fanno parte della cosiddetta internet of things (IoT).
QUAL È IL RUOLO DEI BIG DATA NELLA LOTTA AL COVID-19?
Attualmente nella lotta al Coronavirus è stato usato il supercomputer Summit di IBM in forza all’Oak Ridge National Lab del Tennessee. Con una potenza computazionale pari a 200 petaflop (1 petaflop è una unità di velocità di calcolo pari a un miliardo di milioni di operazioni in virgola mobile al secondo di picco, equivalenti a 200 milioni di miliardi di calcoli al secondo) ha consentito di effettuare una selezione, su base simulata (cosiddetta selezione “in silico”), di ottomila composti nel giro di pochi giorni per modellare ciò che potrebbe influire sul processo di infezione e ne sono stati identificati 77 con il potenziale di compromettere la capacità del Covid19 di infettare le cellule ospiti.
In laboratorio, dove i composti reali vengono messi a contatto con il virus per capirne la reazione, questo è un processo troppo lento per essere realizzabile, perché ogni variabile può essere composta da milioni, se non miliardi, di possibilità con in più la necessità di condurre simulazioni multiple. Va comunque detto che la potenzialità di elaborazione del supercomputer è stata giudicata paragonabile a circa l’1% di quella del cervello umano.
BIG DATA E APPLICAZIONE IN AMBITO SANITARIO
Dai big data possono essere estratte informazioni utili per incrementare le conoscenze per la pratica clinica di natura diversa rispetto a quelle prodotte nel passato, rispetto alle quali non vanno viste come alternative, ma come un importante complemento, integrazione e potenziamento.
La generazione della conoscenza di efficacia (efficacy) dei trattamenti in medicina viene prodotta con i trials clinici, prospettici, per lo più “randomizzati”, cioè con il confronto di trattamenti sperimentali rispetto al trattamento conosciuto considerato più efficace. Il confronto può avvenire “in cieco” (senza che medici e pazienti conoscano se il paziente viene sottoposto al trattamento sperimentale o allo standard) o in modo “aperto” e gli obiettivi dello studio vengono definiti prima di iniziare lo studio.
I trials clinici sono costosi, complessi da organizzare, orientati spesso su gruppi di pazienti non rappresentativi di tutta la popolazione reale e orientati a quesiti estremamente specifici, al di fuori dei quali l’applicabilità non è fattibile.
Con i big data viene normalmente analizzato ciò che avviene nel mondo reale in modo non preordinato, effettuando analisi sulle informazioni disponibili, anche se diverse e raccolte per altri fini. Questo può consentire di scegliere domande alle quali cercare poi di rispondere con i trials clinici. Il circolo virtuoso della conoscenza è basato sulla individuazione dei quesiti rilevanti, l’avanzamento delle ipotesi e la loro verifica, ripetuto ciclicamente in un loop indirizzato al miglioramento continuo delle evidenze.
Inoltre, l’osservazione del mondo reale consente di valutare il reale effetto dei trattamenti (effectiveness), la diffusione e l’applicazione delle migliori pratiche note.
I LIMITI DEI BIG DATA IN AMBITO SANITARIO
L’implementazione di strumenti informatici è un processo iniziato da tempo e sempre più esteso. Lo stoccaggio di dati complessi, registrati e utilizzati digitalmente in ambito sanitario si è diffuso con la sistematica adozione di programmi per la diagnostica per immagini, per la cartella clinica elettronica, per la refertazione e la registrazione di attività diagnostiche, terapeutiche ed organizzative.
I dati prodotti in ambiti e situazioni diverse per essere utili dovrebbero avere una natura il più possibile omogenea, in quanto i dati classificabili in modo standard hanno un significato specifico dovuto ad un metadato corrispondente che lo colloca in un ambito ordinato.
Però purtroppo non sempre sono disponibili classificazioni standardizzate delle varie categorie e, anche quando queste sono disponibili, non sempre vengono utilizzate in modo confrontabile e sufficientemente sistematico.
Ci sono poi altre caratteristiche che possono diminuirne l’effettivo valore delle registrazioni di informazioni sanitarie e riguardano due motivi principali:
- la descrizione avviene spesso per “episodi”
- i dati sono centrati sull’erogatore dei servizi sanitari piuttosto che sul paziente
Questo rende più difficile il riconoscimento di un intero percorso e la descrizione puntuale della storia complessiva di un paziente che può avere molte fasi di malattia e anche patologie differenti, concomitanti e intersecate tra loro, trattate in vari ambiti territoriali, organizzativi e temporali. Caratteristiche così eterogenee vengono spesso tracciate in modi inadeguati alla precisione necessaria per decisioni ed analisi di tipo clinico o scientifico. La qualità e l’omogeneità dei dati in sanità sono quindi spesso discutibili e di conseguenza le interpretazioni possono risultare poco affidabili per incompletezza e difficoltà di verifica.
La mancanza di strutturazione dei dati e l’individuazione degli elementi comuni può essere ovviata con l’uso di protocolli di analisi sintattica, di parsing e di algoritmi di natural language processing (NLP) con l’identificazione di informazioni elencate in formato testuale con processi di riconoscimento come la semantic annotation. All’interno delle masse dei dati gli algoritmi di ricerca riescono ad individuare relazioni e organizzazioni logiche che possono rientrare in ontologie note.
In ultima analisi, comunque, esiste un limite che è rappresentato dal fatto che ai risultati di analisi di questo tipo non sempre è facile associare un significato e non sempre a una correlazione può essere attribuita una causalità definita. Difatti, vi sono state conclusioni ottenute con big data che non sono state confermate da studi prospettici successivi.
Cerchi un partner per progetti di ricerca ICT? Compila il modulo qui in basso per entrare in contatto con PMF Research.