Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione –Esempio: differenza fra due medie Condizioni di validità dei test parametrici Condizioni di validità dei test parametrici –Variabili numeriche –Distribuzione normale della popolazione –Varianza omogenea
Test non-parametrici I test non-parametrici consentono la verifica di ipotesi relative a: I test non-parametrici consentono la verifica di ipotesi relative a: –Variabili non-numeriche Variabili ordinali Variabili ordinali Variabili categoriche Variabili categoriche –Distribuzioni diverse dal normale oppure ignote
Test non-parametrici I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica Numero ministri donna vs. numero ministri uomo Numero ministri donna vs. numero ministri uomo Volume di vendita di due (o più) prodotti concorrenti Volume di vendita di due (o più) prodotti concorrenti Numero di morti per tumore in due diverse popolazioni Numero di morti per tumore in due diverse popolazioni
Il test χ 2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza Verifica di ipotesi relative a distribuzioni di frequenza Organizzazione dei dati per Il test χ 2
Goodness of fit I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione) I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione) H 0 : distribuzione attesa H 0 : distribuzione attesa H 1 : distribuzione diversa da quella attesa H 1 : distribuzione diversa da quella attesa
Esercitazione Ipotesi: le automobili sportive hanno più incidenti rispetto alle automobili di altro tipo Ipotesi: le automobili sportive hanno più incidenti rispetto alle automobili di altro tipo
Esercitazione Si rifiuta lipotesi nulla
Il χ2 come test di indipendenza Il test di indipendenza è utilizzato per verificare la presenza di una relazione fra due variabili Il test di indipendenza è utilizzato per verificare la presenza di una relazione fra due variabili –Assenza di relazione: le due variabili sono indipendenti Due variabili sono indipendenti quando la distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda variabile Due variabili sono indipendenti quando la distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda variabile –La distribuzione di frequenza per la prima variabile è la stessa per tutte le categorie della seconda variabile
Personalità e preferenza per i colori H 0 : la preferenza per i colori è indipendente rispetto alla personalità del soggetto H 0 : la preferenza per i colori è indipendente rispetto alla personalità del soggetto –La distribuzione delle preferenze è uguale per i due gruppi H 1 : la preferenza per i colori non è indipendente rispetto alla personalità H 1 : la preferenza per i colori non è indipendente rispetto alla personalità –Le distribuzioni sono diverse Come nel caso del goodness of fit la logica del test di indipendenza dipende dal confronto fra frequenze osservate e frequenze attese (se H 0 è vero)
Calcolo delle frequenze attese
Confronto frequenze osservate / frequenze attese Frequenze osservate Frequenze attese Scarti 2 Scarti 2 /Fa
Calcolo dei gradi di libertà
Verifica dellipotesi Si rifiuta lipotesi nulla
Condizioni di validità del test χ2 Campioni casuali Campioni casuali Osservazioni indipendenti Osservazioni indipendenti Per ogni cella il valore di f a deve essere superiore a 4 Per ogni cella il valore di f a deve essere superiore a 4
Tecniche e applicazioni avanzate Dati e informazione Dati e informazione Il data mining Il data mining Cluster analysis Cluster analysis Modelli predittivi Modelli predittivi –Estrazione di regole –Reti neurali –Limiti del data mining