La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore.

Presentazioni simili


Presentazione sul tema: "ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore."— Transcript della presentazione:

1 ALBERI DECISIONALI terza parte

2 Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore di Bonferroni Esempio di impiego degli alberi decisionali

3 Caratteristiche principali del metodo CHAID

4 CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente, ma mantiene distinte tutte le categorie che sono eterogenee

5 CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni per compiere gli aggiustamenti necessari per compiere inferenze statistiche simultanee

6 CHAID, a differenza di altri metodi di partizione iterativa, è limitato a caratteri di tipo ordinale e nominale

7 Utilizza il test del chi-quadrato per saggiare l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica della partizione

8 Il test chi-quadrato di indipendenza i i j j ( n ij - n ij ) 2 * * n ij * * x 2 =

9 dove è la frequenza empirica che corrisponde alla combinazione della modalità i del primo carattere con la modalità j del secondo carattere n ij

10 è la corrispondente frequenza teorica calcolata in accordo all'ipotesi di indipendenza tra i due caratteri considerati n ij = n i n j *

11 ESEMPIO Famiglie secondo la zona di residenza e il possesso di personal computer (frequenze empiriche)

12 Zona geografica Possesso di personal computer Nord- Centro Mezzogiorno In complesso SI NO In complesso

13 Famiglie secondo la zona di residenza e il possesso di personal computer (frequenze teoriche)

14 Zona geografica Possesso di personal computer Nord- Centro Mezzogiorno In complesso SI NO In complesso 162,5 487,5 650,0 87,5 262,5 350,0 250,0 750,0 1000,0

15 Calcolo del test: ( ,5) 2 /487,5+ (87,5-100)2/87,5+ (162,5-150)2/162,5+ ( ,5)2/262,5= ( ,5) 2 /487,5+ (87,5-100)2/87,5+ (162,5-150)2/162,5+ ( ,5)2/262,5=

16 Il fattore di aggiustamento di Bonferroni 4Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05) 4Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due

17 Vi sono = 15 modi differenti di rendere dicotomica la variabile B Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe pari a: 1-(1-a) 15 > a

18 Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni 1 - (1-a) M = Ma Per il predittore A la probabilità di commettere un errore del primo tipo è semplicemente a Se a è piccolo

19 Nel metodo CHAID si confronta il valore di a associato con il test di indipendenza per la variabile A con il valore di a per la variabile B corretto con il fattore di Bonferroni

20 Componenti di base del metodo CHAID:

21 1 1 Una variabile dipendente categorica 2 2 Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni 3 3 Un insieme di parametri per l'esecuzione dell'analisi

22 In ogni passo dell'analisi, ciascun sottogruppo è analizzato e si identifica il miglior predittore, definito come quello che ha il valore di a corretto con il fattore di Bonferroni più piccolo

23 Tipi di variabili predittive in CHAID Fluttuanti 3 3 Libere 2 2 Monotoniche 1 1

24 L'algoritmo CHAID: Passo 1: Fusione Passo 2: Divisione Passo 3: Arresto

25 Fusione

26 Per ciascun predittore

27 Forma la tabella a doppia entrata completa 1 1

28 Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4 2 2

29 Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi- quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2 3 3

30 Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto 4 4 Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione 5 5

31 Divisione 4Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni 4Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

32 Arresto Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati analizzati o contengono troppo poche osservazioni

33 Variabile dipendente: tasso di risposta ad una offerta promozionale di abbonamento ad una rivista Esempio di impiego del metodo chaid

34 Variabili indipendenti

35 genere - 2 categorie -monotonica - (GENDER) presenza di bambini - 2 categorie - monotonica (KIDS) reddito familiare - 8 categorie - monotonica (INCOME) età del capofamiglia - 5 categorie -fluttuante (AGE)

36 carta di credito - 2 categorie - monotonica (BANKCARD) numero di componenti - 6 categorie - fluttuante - (HHSIZE) tipo di occupazione -4 categorie - libera (OCCUP)

37 Rappresentazione del processo di partizione tramite il dendrogramma

38 Total ,040 HHSIZE OCCUP GENDER , ,198 ? ,326 W ,758 BO? ,374 F ,795 M , ,384

39 Interpretazione dei risultati Comparazione dei tassi di risposta secondo la variabile ampiezza familiare prima e dopo la fusione

40 % di risposte HHSIZE Frequenza prima della fusione dopo la fusione dato mancante ,09 1,49 1,59 1,79 2,06 0,87 1,09 1,52 1,92 0,87

41 Ordinamento dei segmenti secondo il tasso di risposta

42 Rango Numero Descrizione Tasso di risposta Segmento 2 Segmento 4 Famiglie con due o tre componenti, capofamiglia impiegato 2,39 1,92 Famiglie con quattro componenti e più

43 Rango Numero Descrizione Tasso di risposta Segmento 3 Segmento 1 Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato 1,42 1,09 Famiglie con un componente

44 Rango Numero Descrizione Tasso di risposta Segmento 6 Segmento 5 Famiglie di cui non si conosce il numero di componenti, capofamiglia donna 1,08 0,81 Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo


Scaricare ppt "ALBERI DECISIONALI terza parte. Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore."

Presentazioni simili


Annunci Google