La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Presentazioni simili


Presentazione sul tema: "ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità"— Transcript della presentazione:

1 ALBERI DECISIONALI prima parte

2 Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

3 Lobiettivo è di selezionare, tra le variabili esplicative, quelle che maggiormente spiegano la variabilità (o la mutabilità) della variabile target Gli alberi decisionali rientrano nellambito dellanalisi della dipendenza Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione di spaccature di tipo gerarchico

4 Le partizioni prodotte sono di tipo gerarchico, e pertanto rappresentabili mediante un dendrogramma ad albero La costruzione dellalbero è una procedura stepwise

5 Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio della variabile dipendente

6 Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a quando il processo viene interrotto in base ad una regola darresto Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai valori assunti da una o più variabili esplicative

7 La partizione migliore ad ogni passo viene scelta sulla base di un criterio di omogeneità interna dei gruppi che vengono generati dalle suddivisioni del campione

8 La variabile dipendente può essere: qualitativa quantitativa

9 La costruzione dellalbero può seguire una procedura di partizione: binaria ternaria multipla

10 Ambiti di applicazione degli alberi decisionali:

11 ricerca di interazioni tra variabili predittive identificazione di gruppi devianti identificazione di dati anomali

12 interpretazione causale del fenomeno rappresentato dalla variabile dipendente ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali

13 forzatura di un dato valido in sostituzione di un dato mancante produzione di regole di previsione o di classificazione

14 Regole di salvaguardia nella esecuzione dellanalisi: errore di stima nei gruppi formati forma della distribuzione della variabile dipendente

15 Scelte nellanalisi di partizione

16 tipo di variabile dipendente ordine di ingresso dei predittori numero dei gruppi da tentare ad ogni passo dellanalisi criteri che modificano la struttura dellalbero criteri di arresto del processo di segmentazione

17 Eliminazione dallanalisi di variabili di disturbo

18 Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà spiegata da questa variabile predittiva In questi casi è opportuno considerare invece della variabile originaria Y, i residui della regressione della Y sulla Z

19 Scelta dei potenziali predittori: ipotesi a priori analisi statistiche preliminari del campione osservato

20 Modalità dei predittori Tutte le variabili esplicative vanno trasformate in variabili categoriali Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi Limitare il numero di categorie e bilanciarle tra le variabili

21 Monotonicità della relazione

22 Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala almeno ordinale, quando la crescere della prima la seconda varia costantemente Si impone la monotonicità tra Y e X quando si vuole che siano aggregate per formare gruppi solo modalità adiacenti sulla scala ordinale

23 x 1 > 0,7 t1t1 t1t1 x 2 > 0,5 x 1 0,7 x 2 0,5 t2t2 t2t2 t3t3 t3t3 t5t5 t5t5 t4t4 t4t4

24 classe 1 classe 2 x2x2 x2x2 t5t5 t5t5 t3t3 t3t3 t4t4 t4t4 x1x1 x1x1 0,5 0,7

25 Ordine dingresso dei predittori E possibile imporre lordine dingresso dei predittori nellanalisi, in modo che vengano forzatamente inserite per prime nel processo di partizione le variabili che stanno allorigine della catena causale


Scaricare ppt "ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità"

Presentazioni simili


Annunci Google