Il data mining è quel processo iterativo che ha come obiettivo quello di scoprire e identificare le relazioni nel dataset o nel flusso di dati preso in esame, attraverso metodi manuali o automatici. Tale analisi si divide in due tipi di attività: l’analisi predittiva e quella descrittiva.
Non è corretto pensare che una teoria sia meglio dell’altra, anzi, i risultati delle due attività sono complementari al raggiungimento dello stesso scopo. Mentre l’analisi descrittiva si ferma a trovare i pattern e altre nuove informazioni, la predittiva permette di produrre un modello eseguibile sotto forma di codice, utile alla predizione, estimazione e identificazione di un processo. Per farla semplice, quindi, il data mining riguarda l’attività che viene svolta sui big data per renderli intelligibili a tutti e per trarre da essi informazioni predittive utili a chi le ha richieste. Le principali tecniche del data mining sono:
- classificazione: è l’attività che prevede di scoprire la funzione che, a sua volta, permette di etichettare il dato di una classe. Alcuni algoritmi sono la classificazione Bayesiana, la classificazione statistica o la cosiddetta foresta casuale. Un tipo di classificatori sono gli alberi decisionali che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un evento
- regressione: si tratta di trovare la funzione che associa una variabile dipendente con una o più indipendenti. Tale variabile dipendente è funzionale, lineare o di più gradi polinomiali rispetto alle indipendenti, più il valore di errore. Il metodo più usato è quello dei minimi quadrati
- clustering: è l’attività che permette di identificare una serie di categorie, o appunto cluster, che dividono il dataset
- associazione: è la scoperta di nessi casuali, ma ricorrenti, estrapolabili dai dati racchiusi in una banca dati, finalizzata ad esempio al rilevamento di anomalie
ESTRAZIONE DELLE INFORMAZIONI
Il data mining può essere visto come l’unione di due scienze, le scienze statistiche e il machine learning. È definibile come un processo che permette di scovare modelli e descrizioni a partire da un dataset. Tale processo non può essere un’applicazione di metodi di machine learning e tool statistici presi a caso, anzi, deve essere un processo ben pianificato e strutturato, in modo tale da risultare utile e pienamente descrittivo del sistema preso in esame. Tale piano di estrazione delle informazioni di solito segue una procedura sperimentale di cinque passi:
- definizione del problema e formulazione delle ipotesi: l’identificazione del modello è più efficiente se il contesto su cui funziona l’applicazione è ben definito, perciò un’ottima conoscenza ed esperienza è necessaria per definire al meglio il problema su cui lavorare
- collezione dei dati: in questa fase ci si sofferma su come il dato viene generato e poi su come lo si può collezionare. In genere, ci si può agganciare a due possibili approcci. Il primo è quello del design of experiment, in cui l’esperto ha il controllo sulla generazione dei dati. Infatti, si va ad influenzare il sistema in modo da studiare in maniera isolata, e in una variabile di risposta, l’effetto scaturito. Il secondo approccio, invece, non prevede la possibilità di influenzare il sistema ed è definito come observational study. Esso riguarda, esclusivamente l’osservazione del dato, senza conoscerne la causa generatrice
- pre-elaborazione del dato: di solito, con l’approccio di osservazione, i dati derivano da database e altri storage. Il data preprocessing, quindi, include almeno due attività. La rilevazione e rimozione degli outlier, dati anomali per il contesto e scorrelati da altri dati osservati, e la distribuzione delle soglie dei valori, scalati in modo tale che tutte le variabili possano avere lo stesso peso
- estimazione del modello: in questa fase si seleziona la metodologia che fornisca il miglior modello che possa, a sua volta, rappresentare il caso in questione
- interpretazione del modello e studio delle prestazioni: la possibilità di interpretare un modello non dipende dalla sua accuratezza, difatti i modelli più semplici sono i più interpretabili, ma sono anche quelli meno accurati. Questo perché, un modello costruito con il data mining, a volte, deve essere interpretato per facilitare l’interpretazione umana ad attuare delle strategie. Per migliorare l’user experience è necessario ottimizzare e rendere comprensibili questi risultati
Queste fasi non sono indipendenti, ovvero il processo di data mining prevede necessariamente un approccio iterativo. Grazie all’osservazione dei risultati ottenuti da una certa fase, si può rielaborare il dataset in modo da risolvere il problema preposto.
PERCHÉ IL DATA MINING È IMPORTANTE
I settori di applicazione del data mining sono innumerevoli, ma raggruppabili in alcune macrocategorie. Di seguito elencheremo i principali settori e i vantaggi che il data mining può apportare per ognuno di essi.
MARKETING
- individuazione di tipologie di acquirenti accomunati da abitudini di acquisto e caratteristiche socio-demografiche
- prevedibilità nell’identificare i soggetti a rischio abbandono, e adottare quindi opportune strategie per impedirlo
- individuazione dei prodotti o servizi che vengono abitualmente comprati in modo congiunto
- possibilità di convogliare in una direzione le strategie di un’azienda
Economia e finanza
- individuazione di anomalie nell’utilizzo delle carte di credito e tracciamento di comportamenti fraudolenti
- prevedibilità sui trend degli indici azionari
- prevedibilità sull’influenza dell’andamento generale dei mercati e del singolo settore di riferimento
Scienza
- in ambito clinico e farmacologico, il data mining è un valido supporto per il processo di decision making
- accuratezza delle previsioni meteorologiche, determinata dall’analisi incrociata di un’enorme mole di dati
- classificazione e individuazione di stelle, galassie, pianeti, satelliti e altri corpi celesti
Tecnologie dell’informazione e della comunicazione (ICT)
- sul fronte dalla sicurezza, il data mining consente di ottimizzare e velocizzare le procedure di intrusion detection
Statistica
- velocizzazione delle analisi demografiche e, soprattutto, possibilità di estrapolare le informazioni precluse alle normali metodologie statistiche, riuscendo a fornire validi modelli predittivi
Industria
- incremento della produttività grazie all’analisi che identifica errori o inefficienze nelle catene produttive