Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
ALBERI DECISIONALI prima parte
2
Argomenti della lezione
Generazione di sistemi di classificazione Scelte dell’analisi Criteri di valutazione della disomogeneità
3
Gli alberi decisionali rientrano nell’ambito dell’analisi della dipendenza
Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione di spaccature di tipo gerarchico L’obiettivo è di selezionare, tra le variabili esplicative, quelle che maggiormente spiegano la variabilità (o la mutabilità) della variabile target
4
La costruzione dell’albero è una procedura stepwise
Le partizioni prodotte sono di tipo gerarchico, e pertanto rappresentabili mediante un dendrogramma ad albero La costruzione dell’albero è una procedura stepwise
5
Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio della variabile dipendente
6
Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai valori assunti da una o più variabili esplicative Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a quando il processo viene interrotto in base ad una regola d’arresto
7
La partizione migliore ad ogni passo viene scelta sulla base di un criterio di omogeneità interna dei gruppi che vengono generati dalle suddivisioni del campione
8
La variabile dipendente può essere:
qualitativa quantitativa
9
La costruzione dell’albero può seguire una procedura di partizione:
binaria ternaria multipla
10
Ambiti di applicazione degli alberi decisionali:
11
ricerca di interazioni tra variabili predittive
identificazione di gruppi devianti identificazione di dati anomali
12
interpretazione causale del fenomeno rappresentato dalla variabile dipendente
ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali
13
forzatura di un dato valido in sostituzione di un dato mancante
produzione di regole di previsione o di classificazione
14
Regole di salvaguardia nella esecuzione dell‘analisi:
errore di stima nei gruppi formati forma della distribuzione della variabile dipendente
15
Scelte nell’analisi di partizione
16
tipo di variabile dipendente
ordine di ingresso dei predittori numero dei gruppi da tentare ad ogni passo dell’analisi criteri che modificano la struttura dell’albero criteri di arresto del processo di segmentazione
17
Eliminazione dall’analisi di variabili di disturbo
18
Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà spiegata da questa variabile predittiva In questi casi è opportuno considerare invece della variabile originaria Y, i residui della regressione della Y sulla Z
19
Scelta dei potenziali predittori:
ipotesi a priori analisi statistiche preliminari del campione osservato
20
Modalità dei predittori
Tutte le variabili esplicative vanno trasformate in variabili categoriali Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi Limitare il numero di categorie e bilanciarle tra le variabili
21
Monotonicità della relazione
22
Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala almeno ordinale, quando la crescere della prima la seconda varia costantemente Si impone la monotonicità tra Y e X quando si vuole che siano aggregate per formare gruppi solo modalità adiacenti sulla scala ordinale
23
x1 > 0,7 t1 x2 > 0,5 x1 ≤ 0,7 x2 ≤ 0,5 t2 t3 t5 t4
24
x2 t5 t3 t4 x1 0,5 0,7 classe 1 classe 2
25
Ordine d’ingresso dei predittori
E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente inserite per prime nel processo di partizione le variabili che stanno all’origine della catena causale
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.