Cap. 10 Indipendenza, connessione e associazione Cioè l’analisi statistica congiunta di una coppia di fenomeni qualitativi.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

1 Consorzio interuniversitario per le Applicazioni del Supercalcolo Per Università e Ricerca Stelline 2008 Sala Volta, venerdì 7 marzo 2008 Seminario:
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Corsi Abilitanti Speciali Classe 59A III semestre - 3
Variabili casuali a più dimensioni
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Il concetto di misura.
Definizioni Chiamiamo esperimento aleatorio ogni fenomeno del mondo reale alle cui manifestazioni può essere associata una situazione di incertezza. Esempi:
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Popolazione, campione, parametri e stimatori
Analisi della varianza (a una via)
Processi Aleatori : Introduzione – Parte I
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Lezione 4 Probabilità.
La rivoluzione scientifica
La ricerca quantitativa
Ricerca quantitativa e ricerca qualitativa. Contenuti della lezione Lapproccio quantitativo Lapproccio quantitativo Lapproccio qualitativo Lapproccio.
Analisi della varianza
Regressione Logistica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
Le distribuzioni campionarie
La ricerca delle relazioni tra fenomeni
1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
PROBABILITA’.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
La regressione come strumento di sintesi delle relazioni tra variabili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Analisi Bivariata: Test Statistici
IMMANUEL KANT Critica della ragion pura
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Appunti conclusioni simulazione lancio dadi
Probabilità. Un percorso didattico esperimenti e simulazioni L. Cappello 9 Maggio Didattica probabilità e statistica PAS 2014.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
2) PROBABILITA’ La quantificazione della ‘possibilità’ del verificarsi di un evento casuale E è detta probabilità P(E) Definizione classica: P(E) è il.
“Teoria e metodi della ricerca sociale e organizzativa”
PROBABILITÀ Corsi Abilitanti Speciali Classe 59A III semestre - 2.
Esercizio 1. Quesiti esercizio 1 Distribuzione congiunta: dalla definizione di distribuzione condizionale.
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
Corso di Laurea in Scienze e tecniche psicologiche
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
analisi bidimensionale #2
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
La dipendenza e indipendenza statistica Prof. Daniela Bertozzi Itis Fauser - Novara Gli appunti sono stati tratti dal testo L. Sasso – Matematica a colori.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Un evento è un fatto che può accadere o non accadere. Se esso avviene con certezza si dice evento certo, mentre se non può mai accadere si dice evento.
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Cap. 10 Indipendenza, connessione e associazione Cioè l’analisi statistica congiunta di una coppia di fenomeni qualitativi

Cosa significa che due fenomeni “sono in relazione”? Quando osserviamo due variabili X,Y sorge naturale chiedersi se queste siano tra loro “in relazione” Cosa significa che due fenomeni “sono in relazione”? Significa che quando varia uno anche l’altro varia in conseguenza Le ragioni possono essere molteplici, tra queste: X è causa di Y (o viceversa): quando X varia fa variare anche Y X e Y variano contemporaneamente perché un terzo fenomeno li fa variare

Causalità Aristotele Una prima trattazione estesa del concetto di causa è stata quella di Aristotele il quale considera che il sapere sia legato alla conoscenza delle cause (verum scire est scire per causas). Secondo Aristotele, le cause sono di quattro tipi: causa materiale, indica la materia di cui è fatta una cosa (ad esempio il marmo nel caso si tratti di una statua); causa formale, la forma, il modello o l'essenza di una cosa (nel caso citato la forma che rappresenta la statua); causa efficiente, ciò che ha prodotto la cosa (lo scultore); causa finale, il fine che quella cosa deve realizzare con la sua esistenza (la statua cioè deve essere utilizzata come statua, ad esempio per ornare un ambiente). La scuola aristotelica ampliò la trattazione concentrandosi sulla definizione di causa prima che  veniva identificata con Dio.

La filosofia dell'età moderna approfondì il concetto di causa efficiente facendolo coincidere con quello di legge o connessione causale dove il rapporto causa-effetto è rappresentato da grandezze misurabili matematicamente (Keplero, Galilei, Cartesio). Da questo punto nasce la fisica classica che da Isaac Newton a Pierre Simon Laplace assume il determinismo e il meccanicismo come ineliminabili dalla trattazione dei fenomeni naturali. La validità della concezione moderna della fisica venne messa in dubbio da David Hume il quale, riprendendo le teorie di Sesto Empirico e degli scettici, contestò che il rapporto causa-effetto fosse caratterizzato dalla necessità ma solamente da una connessione di fatto. Non vi è nessuna necessità che ad una precisa causa debba necessariamente corrispondere un preciso effetto. In realtà … constatando che ad una causa solitamente corrisponde un effetto, ci si aspetta che ad una causa simile corrisponda l'effetto simile previsto, ma ciò non è detto che accada. Quindi il rapporto causa-effetto si traduce in uno stato d'animo soggettivo di attesa per cui al ripetersi di un determinato effetto si ritiene, senza alcuna assoluta certezza, che se ne debba verificare un altro simile. La tesi di Hume, individuando la relazione causale in un' abitudine associativa di carattere psicologico, comportava l'impossibilità di arrivare a leggi universali naturali

Assenza di relazione “statistica” tra due variabili Il concetto di relazione tra variabili in Statistica è (in parte) una formalizzazione del concetto Hume-iano di abitudine associativa  La formalizzazione parte dalla definizione del concetto di: Assenza di relazione tra variabili Se due fenomeni “sono in relazione, quando, al variare dell’uno varia anche l’altro” allora: due fenomeni non sono in relazione se al variare dell’uno l’altro non varia ma in che senso “non varia”? (le variabili statistiche …variano per definizione) Assenza di relazione “statistica” tra due variabili Quando le distribuzioni condizionate sono tutte uguali tra loro

GENERE e INCIDENTI non sono in relazione SI INCIDENTI Distribuzioni di frequenza CONDIZIONATE relative 0.83 Tra i Maschi ben l’83% ha incidenti Tra le Femmine solo il 50% 0.50 0.50 0.17 NO SI INCIDENTI 0.83 0.83 0.50 0.50 0.50 0.50 GENERE e INCIDENTI non sono in relazione 0.17 0.17

le distribuzioni di Y condizionate ad X non variano al variare di X Assenza di relazione “statistica” tra due variabili Y e’ statisticamente indipendente da X quando le distribuzioni di Y condizionate ad X non variano al variare di X

Indipendenza statistica

Se le distribuzioni relative di Y condizionate ad X sono tutte uguali allora sono uguali alla distribuzione marginale

Se le distribuzioni relative di Y condizionate ad X sono tutte uguali Allora anche le distribuzioni relative di X condizionate ad Y sono tutte uguali

Indipendenza statistica tra due variabili X e Y Una qualunque di queste tre condizioni implica le altre Queste condizioni implicano che le distribuzioni condizionate sono uguali alle marginali, e viceversa

Indipendenza statistica e frequenze assolute

Se tra X e Y ci fosse I.S. le frequenze che si dovrebbero osservare sono * Freq. osservate Freq. Teoriche I.S. differenze Necessaria una sintesi

Tutte le freq. osservate coincidono con quelle teoriche Se tra X e Y ci fosse I.S. le frequenze che si dovrebbero osservare sono * Freq. osservate Freq. Teoriche I.S. Se e solo se Tutte le freq. osservate coincidono con quelle teoriche Indice di connessione

Frequenze teoriche di indipendenza NB: Per stabilire l’indipendenza statistica si utilizzano solo frequenze (condizionate, marginali relative, congiunte osservate e teoriche): ecco perché questo tipo di analisi è possibile per fenomeni di qualunque natura, sia qualitativi che quantitativi. NB: Se si conclude che sono statisticamente indipendenti, l’analisi statistica bivariata è terminata: che senso avrebbe analizzare una relazione che non esiste?

Connessione Se X e Y non sono indipendenti, allora esiste una qualche relazione che li lega. Si indica con il termine connessione una generica relazione statisticamente rilevabile in una coppia di fenomeni osservati La connessione è tanto più debole (forte) quanto più la tabella osservata si avvicina (allontana) a quella teorica di independenza. Per misurare l’intensità della connessione possiamo allora guardare alle differenze tra frequenze osservate e frequenze teoriche di indipendenza:

Indice di connessione: formula alternativa Non vi è I.S. tra GENERE e INCIDENTI

Tanto o poco?

Quanto può essere grande? Indice di connessione normalizzato Quanto può essere grande? La dimostrazione nel libro non è corretta Perfetta connessione 1 Indipendenza Statistica (I.S.)

X \ Y Tot. Tot.

? X Y X Y Z X Y Casi di perfetta connessione tra X e Y (biunivoca o bilaterale) Tutti i fumatori sono anche bevitori Tutti i non fumatori sono anche astemi Questo indice ci dice che esiste una connessione Ma non fornisce una spiegazione delle ragioni della relazione (ad esempio CAUSA-EFFETTO) (esula dalla statistica) X Y Tabagismo “genera” Alcolismo Segnala la presenza di una relazione da spiegare ? X Y Z ANSIA X Y Alcolismo porta al Tabagismo

Casi di perfetta connessione tra X e Y (biunivoca o bilaterale) Tutti i fumatori sono anche bevitori Tutti i non fumatori sono anche astemi Questo indice ci dice che esiste una connessione Ma non fornisce una spiegazione delle ragioni della relazione (ad esempio CAUSA-EFFETTO) (esula dalla statistica) Tutti i fumatori sono astemi Tutti i non fumatori sono bevitori Segnala la presenza di una relazione da spiegare Anche in questo caso

Casi di perfetta connessione tra X e Y (unilaterale) Ad ogni modalità di Y corrisponde una sola modalità di X Ad ogni modalità di X corrisponde una sola modalità di Y 100 60 40 100 60 40 60 25 25 30 10 40 40 35 60 30 10 35 per una sola per una sola

24

Indice di connessione normalizzato Molto debole Vi è necessità di studiare ulteriormente la relazione tra X e Y Molto forte Non vi è necessità di studiare ulteriormente la relazione tra X e Y 1 0.1 0.9 Perfetta connessione Indipendenza Statistica (I.S.)

Associazione tra coppie di modalità Si parla di associazione tra coppie di modalità, quando in una tabella 2 x 2, fissate le frequenze marginali, le frequenze congiunte tendono a concentrarsi su una delle due diagonali X \ Y Tot. Associazione positiva Associazione negativa “Repulsione”

Associazione tra coppie di modalità Tutti i fumatori sono anche bevitori Tutti i non fumatori sono anche astemi Tutti i fumatori sono astemi Tutti i non fumatori sono bevitori Tutti i bevitori sono fumatori Tutti i non fumatori sono bevitori Y X Consuma alcool Astemio Totale Fumatore 98 62 160 Non 80 142 240 Y X Consuma alcool Astemio Totale Fumatore 18 142 160 Non 80 98 240

Associazione tra coppie di modalità Tutti i fumatori sono anche bevitori Tutti i non fumatori sono anche astemi Tutti i fumatori sono astemi Tutti i non fumatori sono bevitori Tutti i bevitori sono fumatori Tutti i non fumatori sono bevitori Y X Consuma alcool Astemio Totale Fumatore 98 62 160 Non 80 142 240 Y X Consuma alcool Astemio Totale Fumatore 18 142 160 Non 80 98 240

Associazione tra coppie di modalità +0.25 -0.25 Scarsa o nessuna associazione Discreta associazione Discreta repulsione Forte repulsione -0.75 Forte associazione +0.75 Massima repulsione Massima associazione -1 +1 Yule = 0.79 Forte associazione Discreta repulsione Yule = -0.41 72

Connessione ed associazione NO!!!!

Connessione ed associazione Mecatti: pag. 190 Quindi le distribuzioni di Y condizionate ad X sono uguali

Connessione ed associazione Tutti i fumatori sono anche bevitori Tutti i non fumatori sono anche astemi Tutti i bevitori sono fumatori Y X Consuma alcool Astemio Totale Fumatore 98 62 160 Non 80 142 240 Non implica

Odds

Fenomeno condizionante SUCCESSO INSUCCESSO Fenomeno di interesse Coronaropatia No Coronaropatia Grecia Default Grecia No Default Fenomeno condizionante Quanto è probabile (frequente) Y = y1 rispetto a Y = y2 MASCHIO Fumatore Broker USA Odds condizionati FEMMINA Non Fumatore Broker EU Odds marginale

Odds e OR Yule = 0.79 Forte associazione 72

Odds e odds ratio odds: Richiedono l’identificazione di un evento di interesse (outcome dicotomico) Sono sempre positivi Nell’esempio fumo/alcool: Informano sul rischio di successo (che l’evento si verifichi) relativamente al rischio di insuccesso, nella sotto-popolazione considerata (rischio relativo) Il rischio relativo di essere consumatore di alcool per un fumatore è 8.6 volte quello di un non fumatore 36

Odds e odds ratio odds: Attenzione: l’odds ratio non è un rapporto tra probabilità (che l’evento si verifichi) nelle due sotto-popolazioni E’ un rapporto tra rischi, che sono a loro volta il rapporto tra la probabilità che l’evento si verifichi e la probabilità che l’evento non si verifichi in ciascuna sotto-popolazione L’odds ratio è anche interpretabile come misura di associazione: (dimostrare per esercizio)

Sintesi Due variabili X e Y sono tra loro statisticamente indipendenti se le distribuzioni di Y condizionate ad X non variano al variare di X. Vale il viceversa e vale anche che le frequenze relative congiunte sono il prodotto delle frequenze relative marginali. Si possono definire allora delle frequenze teoriche in caso di indipendenza: tanto più le frequenze effettive si discostano da quelle teoriche, maggiore è il grado di connessione tra X e Y che si misura attraverso l’indice di connessione assoluto e normalizzato al suo massimo L’indice di connessione assume il valore massimo nel caso di perfetta connessione bilaterale o unilaterale: le distribuzioni condizionate tendono a concentrarsi su una modalità. Ad ogni x (y) corrisponde una e una sola y (x) (e viceversa nel caso bilaterale): in questo caso l’indice normalizzato vale 1. Se vale 0 significa che siamo in situazione di I.S. Se non vi è I.S. vale la pena approfondire lo studio della relazione tra X e Y: attraverso l’indice di Yule si misura quanto la modalità x1 di una variabile dicotomica tenda ad associarsi o respingersi rispetto alla modalità y1 di una variabile Y pure dicotomica. Data una variabile dicotomica Y, l’Odds misura quanto è probabile osservare y1 rispetto ad y2: il confronto di Odds condizionati mostra quanto gli Odds sono differenti nelle diverse modalità di condizionamento (X)