ALBERI DECISIONALI terza parte

Slides:



Advertisements
Presentazioni simili
Una calcolatrice del XV° secolo
Advertisements

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Come organizzare i dati per un'analisi statistica al computer?
____________________
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Sistemi di numerazione
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
“Teoria e metodi della ricerca sociale e organizzativa”
Variabili casuali a più dimensioni
CORSO DI ISTITUZIONI DI ECONOMIA AZIENDALE
ANALISI DELLA COVARIANZA
Elementi di STATISTICA DESCRITTIVA
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
L’elasticità della domanda rispetto al “proprio prezzo”
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
ANALISI DEI GRUPPI seconda parte
ALBERI DECISIONALI prima parte
Le funzioni di Engel Presentazione a cura di : Giulia Bravo
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID
La regressione logistica binomiale
Analisi della varianza (a una via)
Canale A. Prof.Ciapetti AA2003/04
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a VARIABILITA’ BIOLOGICA E CASO
Esercizi x1=m-ts x2=m+ts
Le carriere universitarie degli studenti in matematica
Applicazioni del foglio elettronico
Applicazioni del foglio elettronico
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Misurazione Le osservazioni si esprimono in forma di misurazioni
Num / 36 Lezione 9 Numerosità del campione.
Nobodys Unpredictable Presentazione dei risultati Il PD, il Nord e il federalismo Giugno 2010.
“Teoria e metodi della ricerca sociale”
Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
I principali tipi di grafici
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
STATISTICA PER LE DECISIONI DI MARKETING
Estratto per la relazione del Dott. Trevisanato 30 maggio 2008.
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
Classificazione (aka Cluster Analysis)
I mutamenti delle strutture familiari a Bologna Aprile 2008 Comune di Bologna Settore Programmazione, Controlli e Statistica.
PRESTITI OBBLIGAZIONARI
Analisi Bivariata: Test Statistici
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
I mercati dei beni e i mercati finanziari: il modello IS-LM
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
IL CAMPIONE.
Marta Pinto Stefania Serra Valentina Paravidino
La segmentazione a priori: CHAID
Esercizio 1. Quesiti esercizio 1 Distribuzione congiunta: dalla definizione di distribuzione condizionale.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
UNIVERSITA’ DEGLI STUDI DI PERUGIA
ANALISI E INTERPRETAZIONE DATI
Misurazione Raccolta sistematica e organizzata di elementi per classificarequantificare.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

ALBERI DECISIONALI terza parte

Argomenti della lezione Il metodo CHAID: Chi-Squared Automatic Interaction Detection Il test del chi-quadrato Il fattore di Bonferroni Esempio di impiego degli alberi decisionali

Caratteristiche principali del metodo CHAID

CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente, ma mantiene distinte tutte le categorie che sono eterogenee

CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni per compiere gli aggiustamenti necessari per compiere inferenze statistiche simultanee

CHAID, a differenza di altri metodi di partizione iterativa, è limitato a caratteri di tipo ordinale e nominale

Utilizza il test del chi-quadrato per saggiare l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica della partizione

Il test chi-quadrato di indipendenza   i j ( n ij - nij )2 * nij x2 =

dove nij è la frequenza empirica che corrisponde alla combinazione della modalità i del primo carattere con la modalità j del secondo carattere

nij = ninj * è la corrispondente frequenza teorica calcolata in accordo all'ipotesi di indipendenza tra i due caratteri considerati

ESEMPIO Famiglie secondo la zona di residenza e il possesso di personal computer (frequenze empiriche)

Zona geografica Possesso di personal computer Nord-Centro Mezzogiorno In complesso SI NO 150 500 650 100 250 350 750 1000

Famiglie secondo la zona di residenza e il possesso di personal computer (frequenze teoriche)

Zona geografica Possesso di personal computer Nord-Centro Mezzogiorno In complesso SI NO 162,5 487,5 650,0 87,5 262,5 350,0 250,0 750,0 1000,0

Calcolo del test: (500-487,5)2/487,5+ (87,5-100)2/87,5+ (162,5-150)2/162,5+ (250-262,5)2/262,5=

Il fattore di aggiustamento di Bonferroni Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)

Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile B Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe pari a: 1-(1-a)15 > a

Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni Se a è piccolo 1 - (1-a)M = Ma Per il predittore A la probabilità di commettere un errore del primo tipo è semplicemente a

Nel metodo CHAID si confronta il valore di a associato con il test di indipendenza per la variabile A con il valore di a per la variabile B corretto con il fattore di Bonferroni

Componenti di base del metodo CHAID:

1 2 3 Una variabile dipendente categorica Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni 3 Un insieme di parametri per l'esecuzione dell'analisi

In ogni passo dell'analisi, ciascun sottogruppo è analizzato e si identifica il miglior predittore, definito come quello che ha il valore di a corretto con il fattore di Bonferroni più piccolo

Tipi di variabili predittive in CHAID Monotoniche 1 Libere 2 Fluttuanti 3

L'algoritmo CHAID: Passo 1: Fusione Passo 2: Divisione Passo 3: Arresto

Fusione

Per ciascun predittore

Forma la tabella a doppia entrata completa 1

Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4 2

Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2 3

Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto 4 Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione 5

Divisione Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

Arresto Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati analizzati o contengono troppo poche osservazioni

Esempio di impiego del metodo chaid Variabile dipendente: tasso di risposta ad una offerta promozionale di abbonamento ad una rivista

Variabili indipendenti

età del capofamiglia - 5 categorie -fluttuante (AGE) genere - 2 categorie -monotonica - (GENDER) presenza di bambini - 2 categorie - monotonica (KIDS) reddito familiare - 8 categorie - monotonica (INCOME)

carta di credito - 2 categorie - monotonica (BANKCARD) numero di componenti - 6 categorie - fluttuante - (HHSIZE) tipo di occupazione -4 categorie - libera (OCCUP)

Rappresentazione del processo di partizione tramite il dendrogramma

Total 0.02 81,040 HHSIZE 1 0.03 25,384 23 0.13 16,132 45 0.00 6,198 ? - 0.04 33,326 OCCUP GENDER -1- -4- W 0.36 1,758 BO? 0.10 14,374 M - 0.04 25,531 F - 0.05 7,795 -2- -3- -5- -6-

Interpretazione dei risultati Comparazione dei tassi di risposta secondo la variabile ampiezza familiare prima e dopo la fusione

% di risposte HHSIZE Frequenza prima della fusione dopo la fusione 1 2 3 4 5 dato mancante 25384 11240 4892 3187 3011 33326 1,09 1,49 1,59 1,79 2,06 0,87 1,52 1,92

Ordinamento dei segmenti secondo il tasso di risposta

Rango Numero Descrizione Tasso di risposta 1 2 Segmento 2 Segmento 4 Famiglie con due o tre componenti, capofamiglia impiegato 2,39 1,92 Famiglie con quattro componenti e più

Famiglie con un componente Rango Numero Descrizione Tasso di risposta 3 4 Segmento 3 Segmento 1 Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato 1,42 1,09 Famiglie con un componente

Rango Numero Descrizione Tasso di risposta 5 6 Segmento 6 Segmento 5 Famiglie di cui non si conosce il numero di componenti, capofamiglia donna 1,08 0,81 Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo