ALBERI DECISIONALI prima parte
Argomenti della lezione Generazione di sistemi di classificazione Scelte dell’analisi Criteri di valutazione della disomogeneità
Gli alberi decisionali rientrano nell’ambito dell’analisi della dipendenza Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione di spaccature di tipo gerarchico L’obiettivo è di selezionare, tra le variabili esplicative, quelle che maggiormente spiegano la variabilità (o la mutabilità) della variabile target
La costruzione dell’albero è una procedura stepwise Le partizioni prodotte sono di tipo gerarchico, e pertanto rappresentabili mediante un dendrogramma ad albero La costruzione dell’albero è una procedura stepwise
Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio della variabile dipendente
Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai valori assunti da una o più variabili esplicative Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a quando il processo viene interrotto in base ad una regola d’arresto
La partizione migliore ad ogni passo viene scelta sulla base di un criterio di omogeneità interna dei gruppi che vengono generati dalle suddivisioni del campione
La variabile dipendente può essere: qualitativa quantitativa
La costruzione dell’albero può seguire una procedura di partizione: binaria ternaria multipla
Ambiti di applicazione degli alberi decisionali:
ricerca di interazioni tra variabili predittive identificazione di gruppi devianti identificazione di dati anomali
interpretazione causale del fenomeno rappresentato dalla variabile dipendente ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali
forzatura di un dato valido in sostituzione di un dato mancante produzione di regole di previsione o di classificazione
Regole di salvaguardia nella esecuzione dell‘analisi: errore di stima nei gruppi formati forma della distribuzione della variabile dipendente
Scelte nell’analisi di partizione
tipo di variabile dipendente ordine di ingresso dei predittori numero dei gruppi da tentare ad ogni passo dell’analisi criteri che modificano la struttura dell’albero criteri di arresto del processo di segmentazione
Eliminazione dall’analisi di variabili di disturbo
Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà spiegata da questa variabile predittiva In questi casi è opportuno considerare invece della variabile originaria Y, i residui della regressione della Y sulla Z
Scelta dei potenziali predittori: ipotesi a priori analisi statistiche preliminari del campione osservato
Modalità dei predittori Tutte le variabili esplicative vanno trasformate in variabili categoriali Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi Limitare il numero di categorie e bilanciarle tra le variabili
Monotonicità della relazione
Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala almeno ordinale, quando la crescere della prima la seconda varia costantemente Si impone la monotonicità tra Y e X quando si vuole che siano aggregate per formare gruppi solo modalità adiacenti sulla scala ordinale
x1 > 0,7 t1 x2 > 0,5 x1 ≤ 0,7 x2 ≤ 0,5 t2 t3 t5 t4
x2 t5 t3 t4 x1 0,5 0,7 classe 1 classe 2
Ordine d’ingresso dei predittori E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente inserite per prime nel processo di partizione le variabili che stanno all’origine della catena causale