Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoGilberto Salvatori Modificato 7 anni fa
1
Farmacia Applicata Parte Matematica--Statistica Antonio Siconolfi Note compilate da Flavia Mascioli ´
2
Organizzazione del corso Il corso consta di due parti distinte, una di contenuto statistico-matematico e l’altra informatico. La parte informatica sara’ tenuta dal prof. Adolfo Piperno. Le lezioni della parte statistica saranno lunedi’ e quelle informatiche giovedi’.
3
Obiettivi della parte statistica Far capire l’importanza della statistica nel trattamento dei dati medico- biologici Far capire la logica del ragionamento statistico Introdurre i principali elementi di: disegno del metodo di raccolta dei dati analisi esplorativa dei dati Familiarizzare lo studente con il particolare vocabolario della statistica
4
Materiale didattico 1) Diapositive delle lezioni. 2) Testo consigliato: Moore D. S. (2005), Statistica di base, Apogeo, Milano
5
Cos’è la statistica? La statistica La statistica: è intesa ad esplorare il mondo reale attraverso la raccolta, l’analisi e l’interpretazione di dati. I dati sono numeri inseriti in un contesto, che descrivono la variabilità presente in natura.
6
Cos’è la statistica? La statistica La statistica: è una disciplina che consente l’analisi dei dati numerici in cui è presente una grande variabilità. La vicinanza di reti ad alta tensione provoca la leucemia nei bambini ? Approccio aneddotico o statistico ?
7
La statistica e la matematica I principi base della scienza statistica sono semplici e distinti rispetto ai concetti matematici. Nonostante il nome, questo non è un corso di matematica. Per questo corso le conoscenze matematiche richieste sono a un livello di scuola secondaria.
8
Perché la statistica in scienze farmaceutiche? A causa della grande variabilità intrinseca al materiale medico-biologico: variabilità genetica tra gli individui, variabilità dovuta alla crescita e allo sviluppo degli individui, variabilità delle reazioni di uno stesso individuo in momenti diversi, o delle misurazioni eseguite sullo stesso individuo in tempi diversi.
9
La variabilità Il concetto di variabilità è fondamentale nella sperimentazione scientifica. La statistica aiuta nello studio quantitativo della variabilità, permettendo di capire, gestire e ridurre la variabilità.
10
La variabilità Si studia la variabilità del fenomeno effettuando delle misure Si può ipotizzare la legge del fenomeno, cioe’ il rapporto matematico tra dati di cui si cerca un collegamento, ad es. Altezza di un individuo e lunghezza della spina dorsale. Inferenza Statistica basata sulla Probabilita’.
11
La necessità dei metodi statistici L’esempio che segue illustra la necessità dei metodi statistici per l’analisi di dati quantitativi. Nella tabella appaiono i risultati di un esperimento per studiare gli effetti dell’irrigazione sulla crescita di piante di cavolo piantate a quattro diverse distanze. I valori che appaiono sono i pesi dei cavoli in kg.
12
irrigazionedistanzaCampo ACampo BCampo C frequente 1 (45cm)1.111.030.94 frequente 2 (40cm)1.000.821.00 frequente 3 (35cm)0.890.800.95 frequente 4 (25cm)0.870.650.85 rara 1 (45cm)0.970.860.92 rara 2 (40cm)0.800.910.68 rara 3 (35cm)0.570.720.77 rara 4 (25cm)0.600.690.51 Peso (kg) del raccolto di cavoli in 24 appezzamenti di terreno
13
Sono state provate tutte le 8 combinazioni di irrigazione e distanza fra piante, perché l’effetto dell’irrigazione può essere diverso per differenti distanze. Inoltre le 8 combinazioni sono state provate su 3 campi diversi. In questo modo si avranno informazioni sulla variabilità del materiale sperimentale, e si otterranno stime più precise sugli effetti dovuti ai trattamenti. Alcuni effetti importanti possono essere determinati osservando la tabella: l’irrigazione frequente produce cavoli più grandi e una distanza minore ne riduce la dimensione.
14
Tuttavia, rimangono diverse domande a cui si vorrebbe rispondere e che necessitano di un’analisi statistica più elaborata. Di quanto aumenta il peso con irrigazioni frequenti e con distanze maggiori? C’è un relazione tra peso e distanza? E’ possibile prevedere il peso per una distanza diversa da quelle considerate nell’esperimento? A parità di irrigazione e distanza c’è differenza tra i raccolti dei 3 campi?
15
Passi principali del disegno di una ricerca biologica Identificare gli scopi della ricerca. Pianificare la ricerca al fine di studiare il problema per il quale si cerca una risposta. Come ottenere i dati di cui si ha bisogno? Quale metodo statistico usare per analizzarli? Come interpretare i risultati? Come presentare i risultati?
16
Nelle prime lezioni cercheremo di dare qualche idea su: che cosa è la statisticache cosa è la statistica raccolta e interpretazione dei dati per rispondere a domande sul mondo che ci circonda i principali tipi di studio usati per rispondere a tali domandei principali tipi di studio usati per rispondere a tali domande indagini campionarie, esperimenti, studi di osservazione alcune considerazioni pratichealcune considerazioni pratiche da ricordare quando si effettuano tali studi randomizzazioneil ruolo della randomizzazione in tali studi
17
Il ciclo di una ricerca statistica Disegno del metodo di raccolta dei dati Raccolta dei dati Problemi reali Questione d’interesse Si pone la domanda Riassunto e analisi dei dati Interpretazione dei risultati Qual è il loro significato? Risposta alla domanda originale
18
Quale metodo di raccolta dei dati? Studi di osservazione Studi sul campo Esperimenti Indagini campionarie Sondaggi
19
Indagini campionarie, Sondaggi un campioneIn un’indagine campionaria, o in un sondaggio si studiano i dati di un campione dalla popolazione per ottenere informazioni sull’intera popolazione. La popolazioneLa popolazione è l’intero gruppo di unità sul quale vogliamo ottenere informazioni. Un campioneUn campione è il sottoinsieme della popolazione che viene esaminato per ottenere le informazioni che interessano.
20
Perché un campione? Meno costoso Più rapido Più pratico da gestire Il nostro scopo è di ottenere un campione che rifletta la variabilità presente nell’intera popolazione. Chiameremo un tale campione “rappresentativo”.
21
Disegno campionario disegno campionario o piano di campionamentoIl disegno campionario o piano di campionamento è il metodo usato per selezionare il campione. in modo casualeOccorre che il campione venga scelto in modo casuale in modo da non favorire l’inserimento di alcuni elementi rispetto ad altri, o l’autoselezione tra chi deve rispondere. N. B. Scegliere in modo “casuale” non vuol dire “a casaccio”
22
La randomizzazione nelle indagini campionarie Scegliendo un campione in modo casuale (random) viene data, a tutti gli elementi, la stessa probabilità di essere scelti. campionamento casuale sempliceNel campionamento casuale semplice (CCS) si estrae un campione in cui ogni unità della popolazione ha la stessa probabilità di essere selezionata. Inoltre, campioni della stessa dimensione hanno tutti la stessa probabilità di essere selezionati.
23
Come si sceglie un campione casuale semplice? a) etichettare le unità b) usare il computer c) oppure, usare le tavole di numeri casuali
24
Ci sono altri disegni campionari che costruiscono campioni probabilistici come il CCS. Attenzione agli errori di copertura, alle mancate risposte, alle distorsioni nelle risposte. Si noti che più è grande il campione, più è efficace la randomizzazione nel produrre un campione rappresentativo. Il campionamento
25
DistorsioneDistorsione Un disegno campionario è distorto se favorisce, in modo sistematico, alcuni individui rispetto ad altri. Ad esempio, se si vuole misurare la biomassa media dei topi campagnoli, in una certa zona, si attirano i topi in trappole tramite esche. Ma, è probabile la cattura di animali affamati e sottopeso. Errore di coperturaErrore di copertura Esempio. Si vuole stimare il numero medio di uova nei nidi di una specie di uccello in una grande foresta. Se si esaminano, a caso, solo i nidi di una piccola area della foresta, si ha un errore di copertura.
26
Distorsione e variabilità E’ possibile ridurre la distorsione? Tutti gli elementi della popolazione devono avere la stessa probabilità di essere scelti. Disegno campionario probabilistico. E’ possibile ridurre la variabilità? Aumentare la dimensione del campione.
27
Gli esperimenti un esperimento soggetti risposte)In un esperimento si sottopongono le unità sperimentali (soggetti) ad alcuni trattamenti per osservarne le reazioni (risposte). Un trattamentoUn trattamento è una condizione sperimentale applicata ai soggetti.
28
Gli esperimenti Esperimento Unità sperimentale Trattamento Risposta pomodori fertilizzante raccolto topo radiazioni mortalità paziente farmaco pressione
29
Studi di osservazione uno studio di osservazioneIn uno studio di osservazione si studiano e si confrontano le unità a cui è capitato di “ricevere un trattamento”. Il trattamento non viene imposto e non si cerca di influenzare le risposte.
30
Studi di osservazione Studio di osservazione Unità Trattamento Risposta patate condizioni meteo raccolto individuo radiazioni mortalità paziente fumo tumore( polmone)
31
Studi sul campo Anche lo studio sul campo è uno studio di osservazione. In questo caso, si osserva direttamente il comportamento che interessa studiare, in genere in un ambito naturale. Molte delle conoscenze sul comportamento animale sono state ottenute con questo tipo di studi. Questo vale per tutte quelle aree di ricerca dove indagini campionarie e esperimenti sono impossibili.
32
Studi di osservazione e Esperimenti Gli studi di osservazione non possono essere usati per valutare gli effetti di un qualche intervento sulle unità sottoposte a studio, possono solo identificare possibili cause di effetti. Solo un esperimento ben disegnato e ben eseguito può stabilire un rapporto di causa ed effetto (tra il trattamento e la risposta).
33
Studi di osservazione Un esempio Uno studio di osservazione, durato 11 anni, su un gruppo di fumatori e non fumatori, ha mostrato che ci sono state 7 morti per tumore al polmone su 100000, nel campione di non fumatori, mentre ce ne sono state 166 su 100000, nel campione di fumatori. Tuttavia questo non prova che fumare causa il tumore ai polmoni, perché i fumatori, ad esempio, potrebbero fumare a causa dello stress e questo stress potrebbe provocare il tumore polmonare.
34
Disegno degli esperimenti--Disegni completamente randomizzati Asse gnazio ne casua le I gruppo 20 soggetti II gruppo (controllo) 20 soggetti I trattamento Nuovo farmaco II trattamento Placebo Si osservano gli effetti del farmaco 1) numerare i soggetti 2) usare le tavole dei numeri casuali per assegnare i soggetti ai trattamenti 11369 23569 26339 42564 3962 3 9 2280 17246…….!
35
12 individui. Si osservano le righe 115 e 116 di una tabella di numeri casuali: 61041 77684 94222 24709 73698 14526 318933 259 26056 31424 80371 65103 62253 50490 Si dividono in coppie Le prime 6 coppie di numeri sono il gruppo trattato. 61 04 17 76 84 94 22 22 47 09 73 69 81 45 26 31 89 33 25 92 60 56 31 42 48 03 71 65 10 36 22 53 50 49 06 11 81 Trattamento: 03, 04, 06, 09, 10, 11 Non trattamento (controllo): gli altri 6 gruppi. Tavole di numeri casuali
36
In un disegno completamente randomizzato tutti i soggetti sono assegnati in modo casuale ai trattamenti.In un disegno completamente randomizzato tutti i soggetti sono assegnati in modo casuale ai trattamenti. Il confrontoIl confronto con un gruppo di controllo permette di ridurre il più possibile l’influenza di altri fattori che potrebbero confondere l’effetto vero del trattamento.
37
Ad esempio, supponiamo che l’esperimento descritto sopra voglia verificare l’efficacia di un farmaco (causa) per ridurre la pressione (effetto). Soggetti con caratteristiche simili vengono assegnati a caso ai due gruppi (trattati e controllo). Se, invece, un gruppo di soggetti fosse semplicemente osservato (studio di osservazione), l’effetto dell’assunzione del farmaco potrebbe confondersi con le caratteristiche dei soggetti quali, ad esempio, peso, tipo di dieta, attività fisica svolta…… Perciò non sarebbe possibile stabilire una relazione di causa-effetto.
38
Un esperimento Torniamo all’esempio dello studio di osservazione sul fumo. Per controllare il fattore (stress) che si confonde col fattore fumo, si possono dividere i due campioni in diverse categorie di stress. Quindi si confrontano i fumatori e non fumatori che sono nella stessa categoria di stress. Solo così si può stabilire una relazione di causa (fumo) – effetto (tumore).
39
Riassunto Gli studi di osservazione e gli esperimenti producono dati che servono a rispondere a domande specifiche. Le indagini campionarie, che selezionano una parte della popolazione d’interesse per studiarne tutto l’insieme, sono un esempio di studio di osservazione. Negli esperimenti, a differenza degli studi di osservazione, i soggetti vengono sottoposti a trattamenti. Gli studi di osservazione spesso non riescono a mostrare l’influenza di una variabile su un’altra, perché possono esserci effetti di confondimento.
40
Il disegno campionario è il metodo usato per scegliere il campione. (Attenzione alla distorsione e variabilità) Il campione probabilistico più importante è il campione casuale semplice. Per scegliere un CCS si possono usare le tavole dei numeri casuali o un software statistico. In un esperimento si somministrano uno o più trattamenti ai soggetti. Il disegno di un esperimento descrive la scelta dei trattamenti e il modo in cui i soggetti sono assegnati ai trattamenti. Con gli esperimenti è possibile provare l’esistenza di relazioni causa-effetto. Controllo e randomizzazione
41
Quali domande sui dati per un’indagine statistica? Perché? _ Qual è lo scopo dell’indagine Chi? _ Quali unità statistiche, quante Quali variabili? _ Quali variabili, quante, quali unità di misura
42
L’analisi esplorativa dei dati Nelle prossime lezioni studieremo i metodi per a) esplorare e b) descrivere i dati. A tale scopo faremo uso di grafici a) grafici istogrammi, grafici ramo-foglia, box-plot,... istogrammi, grafici ramo-foglia, box-plot,... b) riassunti numerici b) riassunti numerici centro, dispersione, percentili,... centro, dispersione, percentili,... ’analisi esplorativa dei datiAttraverso l’analisi esplorativa dei dati cerchiamo di capire cosa i dati “vogliono dire”.
43
Popolazione, unità statistiche, caratteri popolazione elementiunità statisticheIn statistica, il termine popolazione indica qualunque insieme di elementi o unità statistiche che sono l’oggetto della ricerca. variabilecarattere o caratteristica misurabileosservabileUna variabile è un qualunque carattere o caratteristica misurabile o osservabile su un’unità statistica. caratterimodalità valoriI caratteri possono assumere modalità o valori differenti sulle diverse unità statistiche.
44
Popolazione Campione Variabile o carattere statistico (es. altezza, colore del vestito ) Unità statistica Valore o Modalità (es. altezza = 1.65, colore vestito = rosso)
45
Popolazione statistica e popolazione biologica Attenzione a non confondere la popolazione statistica con la popolazione biologica. La popolazione biologica si riferisce a tutti gli individui di una determinata specie che si trovano in un’area specifica ad un determinato tempo.
46
Le variabili possono essere qualitativequantitative qualitative o quantitative. Una variabile qualitativa definisce il gruppo di appartenenza. Ad es. il gruppo sanguigno, il sesso Una variabile quantitativa misura o conta qualcosa. Ad es. l’altezza di un individuo, il numero di figli in una famiglia Tipi di variabili
47
Variabili qualitative Variabili categoricheVariabili categoriche (con scala nominale) che non possono essere ordinate Ad es. la specie, il sesso, il tipo di habitat Variabili ordinateVariabili ordinate (con scala ordinale) che possono essere ordinate Ad es. la scala di abbondanza per la classificazione dell’abbondanza di diverse specie di piante (dominante, abbondante, frequente, non comune, rara)
48
discreteVariabili quantitative discrete Ad es. il numero di uova deposte da un uccello continueVariabili quantitative continue Ad es. la temperatura, il peso di un individuo Variabili quantitative
49
Tipi di variabile Quantitativa DiscretaContinua Qualitativa CategoricaOrdinata E’ importante precisare il livello di misura dei dati osservati per determinare la procedura statistica da usare per analizzarli.
50
La precisione delle osservazioni Cifre significative--Arrotondamenti I dati sperimentali sono, generalmente, misurati con approssimazione a causa degli errori di misura e di osservazione. Supponiamo che 38.257 m sia la misura di una data grandezza. Se ne indichiamo la misura con 38 m, implicitamente ci riferiamo all’intervallo 37.5---38.5 ossia, la grandezza è stata misurata con una incertezza dell’ordine del decimetro.
51
Se ne indichiamo la misura con 38.3 m, ci riferiamo all’intervallo 38.25—38.35 ossia, la grandezza è stata misurata con una incertezza dell’ordine del centimetro. Se ne indichiamo la misura con 38.26 m, ci riferiamo all’intervallo 38.255—38.265 ossia, la grandezza è stata misurata con una incertezza dell’ordine del millimetro. L’accuratezza della misura aumenta al crescere delle cifre significative riportate.
52
Se si vuole ridurre il numero delle cifre significative è possibile procedere con l’arrotondamento. Ad esempio: numero cifre significative desiderate risposta 234,7891 5 234,79 56,34 3 56,3 56,34 2 56 78.887 3 78.900 0,06791 3 0,0679 Si noti che in questo esempio si usa la virgola per indicare i decimali, mentre dopo useremo il punto.
53
Errori di misura Gli errori di misura sono di due tipi: sistematici e casuali. Esempio di errore sistematico Si consideri un metro a nastro, in cui le divisioni siano state erroneamente tracciate più ravvicinate del dovuto, ad es. siano più vicine del 3%. Come conseguenza le misure risulteranno maggiori di quanto dovrebbero, lo strumento sovrastima le lunghezze.
54
Errori di misura Un errore sistematico è dovuto all’azione di una sola causa che agisce costantemente in un verso. Un errore casuale è invece il risultato dell’azione contemporanea di un numero molto grande di cause diverse, ciascuna di piccola entità, che si sommano e si sottraggono differentemente ogni volta che eseguiamo una misura.
55
Proporzioni, percentuali, rapporti, tassi A volte, in alcuni modelli, si opera sui dati osservati per ottenere dei numeri derivati. Esempi importanti di variabili derivate sono le proporzioni, le percentuali, i rapporti e i tassi.
56
Proporzione-- Percentuale Una proporzione è il rapporto di una parte sul tutto. ► Ad es. se la lunghezza totale del corpo (testa+torace+addome) di un insetto è 7.2mm e se la testa è lunga 2.7mm, la proporzione della testa rispetto al corpo è 2.7/7.2=0.37. ► Ad es. Mortalità = N° morti/ N° abitanti Una percentuale è una proporzione moltiplicata per 100. ► Ad es. 2.7/7.2=0.37, se si moltiplica per 100 37%
57
Un rapporto è una parte divisa per un’altra parte (il numeratore non è compreso nel denominatore). ►Se la larghezza della capsula della testa di un insetto è 1.31mm e la lunghezza è 2.7mm il rapporto larghezza/lunghezza è pari a 1.31/2.7. ►Se in un campione ci sono 25 femmine e 32 maschi, il rapporto femmine/maschi è pari a 25/32=0.78 o 1:32/25 = 1/1.28, ossia, il rapporto femmine/maschi è 1/1.28. Rapporti
58
Spesso si fa riferimento ai tassi considerati come rapporti tra un’osservazione e un periodo di tempo. I tassi sono utili per esprimere variabili quali la crescita e i cambiamenti di una popolazione. ►Ad es. un germoglio cresce 15cm in 5 giorni Il rapporto è 15:5 = 3:1 Il tasso di crescita è 3 cm/giorno Tassi
59
Analisi esplorativa dei dati StrategiaStrategia _ Esaminare ogni variabile separatamente; poi studiare le relazioni tra le variabili _ Cominciare con i grafici _ Poi usare i riassunti numerici _ A volte si usa un modello per la distribuzione dei dati Per costruire il grafico di una variabile occorre conoscere la sua distribuzione, ossia i valori (o modalità) che assume la variabile e quante volte li assume (frequenza).
60
Rappresentazione grafica delle distribuzioni Cosa ci rivela il grafico sulle caratteristiche principali dei dati esaminati? I l grafico aiuta a interpretare i dati. Attenzione alla scelta del grafico. Le rappresentazioni grafiche sono numerose e devono essere scelte in rapporto ai tipi di variabile e alle scale utilizzate.
61
Sunto Popolazione, unita’ statistiche, variabili, variabili quantitative e qualitative, quantitative discrete e continue, qualitative categoriche e ordinate. Dati Approssimazioni di dati. Troncature ed arrotondamenti. Proporzioni, percentuali, rapporti e tassi. Distribuzione di una variabile
62
Grafici per variabili quantitative Grafici ramo-foglia (stem and leaf) Istogrammi Diagrammi a segmenti
63
Grafici ramo-foglia Ogni numero è diviso in due parti: a I b ramofoglia Esempio: lunghezza dell’ala di 10 passeri (mm) 59 64 68 71 73 75 75 77 80 80 (dati ordinati) ramofoglie 5678 9 4 8 1 3 5 5 7 0 0
64
Grafici ramo-foglia 5678 9 4 8 1 3 5 5 7 0 0 Questo grafico si può espandere dividendo ogni ramo a metà. 566778948 1 3 5 5 7 0 0 Comprende le foglie 0, 1, 2, 3, 4 Comprende le foglie 5, 6, 7, 8, 9
65
Grafici ramo-foglia Suggerimenti: Un grafico appropriato dovrebbe avere tra 5 – 20 gambi. Usare foglie di una sola unità. Se necessario, arrotondare i numeri. Specificare sempre l’unità di misura. Ad es. per i dati (in kg): 53190, 54280, 54730 si arrotonda al centinaio di Kg più vicino: 53 | 2 = 532 Kg, 54 | 3, 54 | 7. Nel grafico le prime 2 cifre (migliaia) saranno i rami e la 3 a cifra (centinaia) le foglie.
66
Grafici ramo-foglia Questi grafici si usano quando la dimensione n del campione 15 ≤n ≤ 150 15 ≤ n ≤ 150 Questi grafici mostrano la forma della distribuzione, conservano il valore effettivo di ogni osservazione, mostrano outlier (osservazioni anomale o estreme), interruzioni nei valori, valori raggruppati.
67
Istogrammi Come si costruisce un istogramma? Variabili continue 1) Si divide il campo di variazione delle osservazioni in classi di uguale ampiezza 2) Si conta il numero di osservazioni in ogni classe 3) Si disegna l’istogramma NOTA: date n osservazioni ordinate in senso crescente, il campo di variazione è la differenza tra la più grande e la più piccola delle osservazioni
68
Gli istogrammi Esempio 1. Le lunghezze (cm) dei coyote Femmine 93.0 97.0 92.0 101.5 93.0 84.5 102.5 97.8 91.0 98.0 93.5 91.7 90.2 91.5 80.0 86.4 91.4 83.5 88.0 71.0 81.3 88.5 86.5 90.0 84.0 89.5 84.0 85.0 87.0 88.0 86.5 96.0 87.0 93.5 93.5 90.0 85.0 97.0 86.0 73.7 Maschi 97.0 95.0 96.0 91.0 95.0 84.5 88.0 96.0 96.0 87.0 95.0 100.0 101.0 96.0 93.0 92.5 95.0 98.5 88.0 81.3 91.4 88.9 86.4 101.6 104.1 88.9 92.0 91.0 90.0 85.0 93.5 78.0 91.0 83.8 103.0 100.5 105.0 86.0 95.5 86.5 90.5 80.0 80.0
69
Istogrammi Distribuzione delle frequenze e delle frequenze relative delle lunghezze dei coyote femmina Classi Frequenza Frequenza relativa (n j /n) 70- 75 2 0.05 75- 80 0 0 80- 85 6 0.15 85- 90 12 0.3 90- 95 13 0.325 95-100 5 0.125 100-105 2 0.05 Totale 40 1.00
70
Stem-and-leaf of C1 N = 40 Leaf Unit = 1,0 ordinati in maniera crescente e poi decrescente rispetto alla mediana 2 7 13 2 7 8 8 013444 20 8 556666778889 20 9 0001111233333 7 9 67778 2 10 12 Lunghezze (cm) dei coyote femmina
71
Istogrammi Attenzione alla scelta delle classi Scelte diverse delle classi possono portare a istogrammi di aspetto diverso.
72
A volte può essere opportuno considerare classi di ampiezze diverse. Si supponga di voler ripartire le lunghezze dei coyote in 5 classi raggruppando le lunghezze delle prime due classi e delle ultime due. Classi Frequenza Frequenza relativa (nj/n) 70- 80 2 0.05 80- 85 6 0.15 85- 90 12 0.3 90- 95 13 0.325 95-105 7 0.175 Totale 40 1.00 ISTOGRAMMI
73
Quando le ampiezze delle classi sono diverse, per evitare distorsioni visive, saranno le aree e non più le altezze delle barre ad essere proporzionali alle corrispondenti frequenze. In tal caso l’altezza del rettangolo corrispondente a una classe viene chiamata densità. Densità = frequenza ampiezza classe Istogrammi
75
Suggerimenti : Suggerimenti : Un istogramma appropriato dovrebbe avere tra 5 – 20 classi Gli istogrammi si usano quando la dimensione n del campione è abbastanza numerosa Gli istogrammi mostrano: la forma della distribuzione, outlier, valori raggruppati, interruzioni nei valori.
76
Diagrammi a segmento Variabili discrete Esempio 2. Numero di protozoi contati in 33 unità campionarie prelevate da uno stagno. 163 165 165 165 166 166 166 166 168 168 168 168 169 169 169 169 169 169 169 169 171 171 171 171 171 171 172 172 172 174 174 175 175
77
Numero di protozoi Frequenza 163 1 165 3 166 4 168 4 169 8 171 6 172 3 174 2 175 2 Diagrammi a segmento
78
2 163 00 2 164 5 165 000 9 166 0000 9 167 13 168 0000 (8) 169 00000000 13 170 13 171 000000 7 172 000 4 173 4 174 00 2 175 00 Diagramma a segmenti Diagramma ramo-foglia
79
Variabile discreta: numero di orchidee in 50 quadrati collocati a caso (Esempio 3) n° orchideefrequenza assoluta frequenza relativa frequenza rel.cumulata 0210.42 1150.300.72 2 60.120.84 3 30.060.90 4 20.040.94 5 10.020.96 8 10.020.98 12 10.021.00 totali501.00
82
diagramma a segmenti del n° di orchidee interruzioni nei valori
83
Esempio 4 Studio delle specie di batteri in un contenitore di crema dermatologica conservata per un mese in un contenitore cilindrico a secondo della profondita’ dalla superficie.
85
4247.372.4 Come interpretare questi valori? 24 delle 330 specie sono state trovate in 4 degli strati 24/330x100%=7.3% delle specie sono state trovate in 4 degli strati 72.4% delle specie vivono in un numero di strati ≤ 4 n = 330
87
Come si interpretano i grafici ramo-foglia, gli istogrammi e i diagrammi a segmento? Cercare di individuare un andamento generale per i dati osservati Individuare eventuali scostamenti da tale andamento Individuare le caratteristiche più significative della distribuzione dei dati quali la forma, il centro, e la dispersione Individuare eventuali outlier. Possono essere errori o osservazioni interessanti/inusuali
88
Variabili quantitative-Le caratteristiche principali di una distribuzione Forma unimodale bimodale multimodale simmetrica coda a destra coda a sinistra 2.Centro 3.Dispersione
89
Di solito le distribuzioni sono unimodali, ma, se per esempio, la distribuzione del numero di piccoli sopravvissuti per nido fosse di tipo bimodale, potremmo pensare che il campione analizzato si riferisca a due gruppi ben distinti di genitori che si differenziano per il numero medio di uova deposte o per l'abilità di allevare i piccoli. Tali gruppi potrebbero corrispondere a due specie diverse difficilmente distinguibili, oppure a due classi di età.
90
Saper descrivere i dati basandosi su un dato grafico Ci sono outlier o interruzioni nei valori (gaps)? I dati sono simmetrici? La distribuzione dei dati è unimodale? Dov’è il centro della distribuzione? I dati sono molto variabili?
91
Grafici per variabili qualitative Grafici a barre Grafici a torta
92
Grafici a barre Esempio 3. In un laboratorio sono state eseguite 200 analisi e sono stati osservati i gruppi sanguigni Gruppo Frequenza Frequenza relativa % 0 96 48% A 62 31% B 30 15% AB 12 6%
93
grafici a barre e a torta per l’esempio
94
Grafici a barre e grafici a torta Nei grafici a barre ogni frequenza è rappresentata da una barra (rettangolo). I rettangoli hanno la stessa base e l’altezza è proporzionale alla frequenza. I grafici a barre sono diversi dagli istogrammi. Nel grafico a torta si visualizzano le diverse parti in cui è stato diviso un tutto. Le ampiezze dei settori circolari sono proporzionali alle corrispondenti frequenze percentuali.
95
Riassunto Un insieme di dati contiene informazioni su un certo numero di unità. Per ogni unità i dati riportano valori riferiti a una o più variabili. Variabili qualitative o quantitative. L’analisi esplorativa dei dati si serve di grafici e indici numerici per descrivere il comportamento delle variabili in un insieme di dati. La distribuzione di una variabile descrive i valori che questa assume e la frequenza con cui li assume.
96
Distribuzione delle frequenze, delle frequenze relative e delle frequenze relative cumulate. Per descrivere una distribuzione è utile cominciare con un grafico. Nell’analisi di un grafico o distribuzione cercare l’andamento generale (forma, centro, dispersione) e le eventuali deviazioni degne di nota. Gli outlier sono osservazioni che si discostano molto dal modello generale della distribuzione.
97
Tipi di grafico Variabile quantitativa Discreta grafico a segmenti grafico ramo foglia Continua Istogramma grafico ramo foglia Variabile qualitativa Categorica grafico a barre grafico a torta Ordinata grafico a barre grafico a torta
98
Come rappresentare numericamente una distribuzione? Indici riassuntivi Indici di posizione media, mediana, moda, quartili, percentili Indici di variabilità o dispersione intervallo di variazione, varianza, coefficiente di variazione, box-plot coefficiente di variazione, box-plot Indici di forma curtosi, indice di simmetria
99
La media (aritmetica) Esempio 1 I diametri delle cappelle di un fungo commestibile in un campione di 6 sono: 9.3 cm 7.8 cm 6.2 cm 7.0 cm 8.3 cm 9.9 cm media (aritmetica) la media (aritmetica) dei diametri, ossia il diametro medio, pari a 8.08 cm, è dato da Indici di posizione centrale
100
Perciò la formula per calcolare la media è data dalla dove media aritmetica campionaria = i-ma osservazione = somma di tutte le osservazioni del campione n = numerosità o dimensione del campione
101
La media Se i dati sono rappresentati con una distribuzione di frequenze, cioè la modalità (il valore) x j compare con la frequenza f j (j = 1, 2,..., k) si può usare la formula:
102
La media Esempio 2. Il numero di formiche del legno catturate in 7 trappole, poste di notte in un bosco, è: 25 4 12 9 15 8 202 Qual è il numero medio di formiche per ogni trappola? = 39.3.Tale valore è più grande di 6 delle 7 osservazioni ed è molto più piccolo dell’ultima. La media utilizza il valore effettivo di ogni osservazione, perciò potrà essere distorta da un singolo valore eccezionale (non è robusta).
103
La mediana Nell’esempio precedente la mediana può essere un indice di centralità più appropriato. La mediana è il valore di mezzo in un insieme di osservazioni che sono state ordinate in ordine crescente. Quindi metà delle osservazioni sono più piccole e metà più grandi della mediana.
104
La mediana Ordiniamo i dati sulle formiche (esempio 2): 4 8 9 12 15 25 202 La mediana è più robusta della media, ossia non è influenzata da singoli valori estremi. Nell’esempio la mediana vale 12 qualunque sia il valore della settima osservazione (20, 202 o 2002). 12 mediana
105
Come si calcola la mediana? Esempio 3 1 4 7 9 10 12 14 11 13 15 16 19 21 22 25 Se le osservazioni sono in numero dispari, diciamo n la mediana è l’elemento che occupa il posto centrale, cioe’ il posto (n+1)/2 Se le osservazioni sono in numero pari la mediana è la semisomma dei due elementi di posto centrale cioe’ di posto n/2, n/2 +1. 9 med = 9 med = 17.5
106
A A Media contro mediana Mediana = media (a) Dati simmetrici MedianaMedia (b) Le due osservazioni con il valore più grande si sono spostate a destra (dati asimmetrici)
107
La moda In una distribuzione di dati la moda o (classe modale) è il valore che si verifica con maggior frequenza o (la classe che contiene il maggior numero di osservazioni). Se due (più di due) valori si verificano con la stessa maggior frequenza la distribuzione è detta bimodale (multimodale). La moda è l’unica misura di centralità che può essere usata con dati qualitativi.
108
Relazioni tra media mediana e moda
109
Le misure di posizione centrale Tra moda, mediana, e media quale scegliere per rappresentare la nostra distribuzione? Moda: è sempre calcolabile, ma è poco potente dal punto di vista informativo Mediana: è calcolabile soltanto per caratteri almeno ordinabili e trascura l’informazione relativa alla grandezza quantitativa dei dati. Ha però il vantaggio di non essere influenzata dai dati estremi. Media: è calcolabile soltanto per caratteri quantitativi, è la più informativa, ma è influenzata dai dati estremi.
110
Misure di posizione “non centrale” Quartili, Percentili I quartili, rispettivamente, primo quartile Q 1, mediana Q 2 e terzo quartile Q 3 dividono la distribuzione dei dati ordinati in 4 parti uguali. Il primo quartile è la mediana di tutte le osservazioni la cui posizione è inferiore alla posizione della mediana. Il terzo quartile è la mediana delle osservazioni con posizione superiore. Nota: nella letteratura vengono date diverse definizioni di quartili, ma l’idea è sempre la stessa.
111
I quartili 11 13 15 16 19 21 22 25 Med = Q 2 = 17.5 Q 1 = 14 Q 3 = 21.5 Esempio 4 Q 1 lascia alla propria destra il 75% dell’intera distribuzione.Q 3 lascia alla propria destra il 25% della distribuzione.
112
I percentili I percentili sono quei valori che dividono la distribuzione dei dati ordinati in 100 gruppi di uguale numerosità, dove ogni gruppo contiene circa l’1% di tutti i valori. Il p-percentile è quel valore tale che il p percento delle osservazioni cade fino a quel valore compreso. Frequenza relativa dei valori minori o uguali a x moltiplicato 100 n° dei valori ≤ x n° totale dei valori percentile di x = 100*
113
71,0 73,7 80,0 81,3 83,5 84,0 84,5 85,0 86,0 86,4 86,5 87,0 88,0 88,5 89,5 90,0 90,2 91,0 91,4 91,5 91,7 92,0 93,0 93,5 96,0 97,0 97,8 98,0 101,5 102,5 Lunghezza (cm) di 40 coyote femmina (v. esempio 1) Vogliamo trovare il percentile corrispondente alla lunghezza 91cm. 24 : 40 * 100 = x x = 60 La lunghezza 91cm è il 60-mo percentile, ossia il 60% dei valori cade alla sua sinistra.
114
Percentili Esempio: un bambino che superi il 90° percentile avrà un valore (es. di altezza) superiore al 90% di tutti i bambini considerati. Esempio: la più piccola osservazione in un insieme di 20 è il quinto percentile (5%), l’osservazione successiva è il 10-mo percentile (10%). 1 : 20 = x : 100 La procedura inversa: ci sono diversi metodi che, dato un percentile, calcolano il corrispondente valore campionario.
115
Sunto Grafici per variabili qualitative: a barra e a torta. Indici di posizione: media, mediana, moda. Quartili e percentili. Distribuzioni unimodali, bimodali, multimodali.
116
Funzione di ripartizione empirica Associa ad ogni classe di valori della variabile statistica la frequenza relativa cumulata. Se le classi sono determinate da piccoli intervalli si ottiene una curva continua crescente sino al valore 1
117
Quantili Il quantile di ordine a e’ il valore q per cui la frequenza relativa cumulata di tutte le classi in cui la variabile e’ minore o uguale di q, risulta uguale ad a.
118
I quantili si determinano dalla funzione di ripartizione empirica Basta prendere la retta parallela all’asse delle ascisse con ordinata q e proiettare verticalmente sull’asse delle ascisse i punti di intersezione di tale retta con le funzioni di ripartizione. Le ascisse delle proiezioni sono i q quantili.
119
Confronto grafico sintetico P-P plot Possiamo confrontare graficamente le due funzioni di ripartizione (fumatrici e non) riportando su un piano cartesiano, per ogni quantile fissato, in ascissa l’ordinata di una delle due funzioni (per esempio quella delle non fumatrici) e in ordinata l’altra. Quanto più le due distribuzioni sono simili, tanto più la curva rappresentata sarà vicina alla diagonale del primo quadrante.
120
Indici di variabilità Se non ci fosse variabilità all’interno di una popolazione non ci sarebbe bisogno della statistica. Una singola unità campionaria sarebbe sufficiente a descrivere l’intera popolazione. Come si misura la variabilità o dispersione di una distribuzione di dati?
121
Dispersione Variazione rispetto ad un valore centrale (media o mediana).
122
Misure di variabilità: Intervallo di variazione Intervallo di variazione (range) = osservazione più grande – osservazione più piccola E’ influenzato dalle osservazioni estreme.
123
Misure di variabilità: Differenza (range) interquartile Differenza interquartile = terzo quartile Q 3 - primo quartile Q 1 Misura la dispersione del 50% dei valori centrali della distribuzione dei dati. Esempio 5 Per i dati dell’esempio 3 la differenza interquartile è data da 11 13 15 16 19 21 22 25 Q 1 = 14 Q 3 = 21.5 Diff. interq. = 21.5 – 14 = 7.5
124
Gli indici di posizione centrale dicono attorno a quale valore le osservazioni sono centrate e sono tanto più significativi quanto più i dati sono concentrati vicino ad essi. Per ottenere un’informazione più accurata, è quindi necessario misurare il grado di dispersione dei dati intorno a tali indici. Ciò può farsi, soltanto per i caratteri quantitativi, associando alle misure di tendenza centrale delle misure di variabilità. Misure di variabilità
125
Misure di variabilità: la varianza e la deviazione standard La varianza e la deviazione standard misurano la variabilità di una distribuzione sintetizzando la dispersione delle osservazioni intorno alla loro media. Varianza Deviazione standard (radice quadrata della varianza)
126
La varianza Vediamo perché nella formula usuale della varianza si usano i quadrati degli scarti e perché si divide per n-1. Innanzitutto la somma degli scarti è sempre nulla. Perché non usare la media dei valori assoluti degli scarti? ESEMPIO. Sia data una popolazione costituita dai valori 1, 2, 3. La varianza della popolazione è pari a La media della popolazione è pari a µ = 2
127
Si estraggono tutti i campioni (9) di dimensione 2 con reinserimento. Per ogni campione si calcola la varianza campionaria s 2 Si calcola poi la media delle 9 varianze campionarie: 0, 0,707, 1,41, 0,707, 0, 0,707, 1,41, 0,707, 0 tale media è pari a 0.6 = 2/3. Si può quindi dire che s 2 è uno stimatore non distorto della varianza incognita della popolazione. Nota: anche la media campionaria è uno stimatore non distorto della media incognita della popolazione
128
Per i precedenti 9 campioni calcoliamo le varianze campionarie dividendo per n=3 e non per n-1=2. La media di tali varianze campionarie è 1/3. Si ha perciò una sottostima della varianza della popolazione. Analogamente, si può vedere che se usiamo come varianza campionaria si ottiene uno stimatore distorto che sottostima la varianza della popolazione.
129
La varianza campionaria La varianza campionaria s 2 è uno stimatore non distorto della varianza della popolazione σ 2 Questo vuol dire che i valori di s 2 tendono a centrare il valore di σ 2 e non a sovrastimarlo o sottostimarlo in modo sistematico.
130
La deviazione standard Esempio 6 Calcolate la deviazione standard per i dati dell’esempio 4. s = 4.80 (controllate !!!!) s misura la dispersione intorno alla media e si dovrebbe usare quando si usa la media come misura del centro. s è sempre maggiore di 0, s = 0 quando non c’è dispersione. s ha la stessa unità di misura dei dati iniziali
131
Variazioni di scala I dati della tabella rappresentano i valori della temperatura corporea rilevati su 65 soggetti sani e misurati in gradi Fahrenheit. La loro media è m f = 98.10
132
Come cambia la media se cambia l’unità di misura? I dati della tabella rappresentano i valori della temperatura corporea degli stessi 65 soggetti sani in gradi Celsius. La loro media è m c = 36.73
133
Trasformazione delle scale di misura Le due scale di misura sono legate dalla seguente trasformazione: che applicata alle medie si scrive: e fornisce lo stesso valore del calcolo diretto di m c a partire dai dati trasformati, ossia 36.73 = 5/9 x (98.10 – 32) Con lo stesso insieme dei dati si può verificare che anche la mediana gode della stessa proprietà (per questi dati, inoltre, coincide con la media).
134
Cosa succede alla deviazione standard? La dev. standard delle temperature in gradi Fahrenheit è pari a 0.62, mentre per le temperature in gradi Celsius è pari a 0.35. Se si applica la trasformazione precedente alla dev. standard: ATTENZIONE!! perchè 0.35 = 5/9 x 0.62 Variazioni di scala
135
Proprietà della media e della deviazione standard 1.Se a tutti gli elementi di una serie di dati viene sommato un numero, la media risulterà aumentata dello stesso numero, mentre la deviazione standard non cambia. 2.Se tutti gli elementi di una serie di dati vengono moltiplicati per una costante, sia la media sia la deviazione standard risulteranno moltiplicati per la stessa costante.
137
Lo scarto standard: una regola empirica per dati con una distribuzione approssimativamente normale Lo scarto (deviazione) standard, insieme con la media, fornisce una indicazione utile circa l’intera distribuzione dei dati. Vedremo che se la distribuzione è approssimativamente normale, l’intervallo ± s comprende circa il 68% di tutti i valori.
138
Distribuzione normale Il grafico che si ottiene mettendo ad acissa i valori assunti dalla variabile e a ordinata le frequenze relativa ha la forma di una campana simmetrica. Media=Mediana= Moda
139
Quali misure di centralità e dispersione? La mediana e i quartili sono misure resistenti, ai valori estremi, la media e la deviazione standard non lo sono. La media e la deviazione standard sono ottimi indici per le distribuzioni simmetriche. I cinque numeri di sintesi e il boxplot non sono sensibili ai valori estremi e quindi sono più adatti per le distribuzioni asimmetriche.
140
Campione e popolazione Attenzione Generalmente si osserva un campione estratto da una popolazione e e s sono misure del centro e della dispersione dei dati del campione. Se ci si riferisce ad una popolazione la media e la deviazione standard sono indicate con µ e σ.
141
Due distribuzioni con deviazioni standard s molto vicine non hanno necessariamente un’analoga dispersione; infatti s è “grande” o “piccolo” rispetto all’ordine di grandezza delle misure a cui si riferisce, ovvero ad un indice di posizione come. Per confrontare le dispersioni di due diverse distribuzioni occorre confrontare indici indipendenti dall’unità di misura. L’indice più utilizzato è il Coefficiente di Variazione Il coefficiente di variazione
142
Misure di variabilità: Il coefficiente di variazione La deviazione standard risente dell’unità di misura e dell’ordine di grandezza dei dati. Esempio 7 2 campioni di maschi Campione 1 Campione 2 Età 25 anni 11 anni Peso medio 66 kg 36 kg Dev.st. 4,5 kg I due campioni hanno la stessa variabilità?
143
Calcoliamo il coefficiente di variazione dato da Campione 1: C. V. = 4,5/66 (100) = 6.8% Campione 2: C. V. = 4,5/36 (100) = 12.5% Il coefficiente di variazione esprime s come percentuale di ed è indipendente dall’unità di misura.
144
I cinque numeri di sintesi e il boxplot I cinque numeri di sintesi di una distribuzione sono: il valore min. Q 1 mediana Q 3 il valore max. Questi cinque numeri danno una descrizione sintetica della distribuzione. Il boxplot fornisce una rappresentazione grafica dei dati sulla base dei cinque numeri.
145
I cinque numeri di sintesi Esempio 8 Date le osservazioni ordinate: 24 25 25 25 26 26 27 28 29 30 mediana 1° quartile2° quartile Q 1 = 25 Q 2 = (26 + 26)/2 = 26 Q 3 = 28
146
Boxplot
148
Sunto Funzione di ripartizione empirica Dispersione Differenza interquartile Varianza Deviazione standard Coefficiente di variazione Distribuzioni normali
149
Come individuare gli outlier sospetti? Per individuare eventuali outlier la regola più comune è calcolare: 1.5 x Δ dove Δ è la distanza interquartile data da Q 3 – Q 1 Un punto viene considerato un possibile outlier se si trova più di 1.5 x Δ al di sotto del primo quartile o al di sopra del terzo quartile.
150
Indici di forma e di simmetria Nelle applicazioni medico– biologiche si confronta un istogramma di frequenze osservate (monomodale ) con una distribuzione normale con medesima media e deviazione standard. Un indice di “forma” utile, in tal caso, è l’indice di curtosi dato dalla.
151
Indice di curtosi Leptocurtica, piu’ appuntita di una normale Platicurtica, piu’ piatta di una normale Ipernormale γ > 0 Iponormale γ < 0
153
Indice di Curtosi L’indice di curtosi vale 0 se la popolazione è normale. γ < 0 γ > 0
154
Indice di asimmetria L’indice di asimmetria (skewness) di Pearson è dato da S = ( media – moda) / dev. standard Se S = 0 si ha simmetria Se S ≥ 1.00 si ha una asimmetria a destra Se S ≤ -1.00 si ha una asimmetria a sinistra.
155
Riassunto Un riassunto numerico di una distribuzione deve riportare il centro e la dispersione. La media, la mediana e la moda descrivono il centro di una distribuzione in modi diversi. Se si usa la mediana per indicare il centro è opportuno rappresentare la dispersione con i quartili. I quartili e i percentili sono misure di posizione non centrale che dividono la distribuzione, rispettivamente, in 4 e 100 parti di uguale numerosità.
156
La varianza e la sua radice quadrata, la deviazione standard, misurano la dispersione rispetto alla media come centro. Il coefficiente di variazione è una misura di dispersione che non risente dell’unità di misura e dell’ordine di grandezza dei dati. Il sommario a cinque numeri (mediana, quartili, minimo e massimo) fornisce una descrizione generale della distribuzione. Il box-plot è un grafico del sommario a cinque numeri. La mediana e i quartili sono misure resistenti.
157
L’indice di curtosi e di asimmetria. Attenzione ai cambiamenti di scala e alle trasformazioni dei dati.
158
Distribuzioni di probabilità – Modelli probabilistici Distribuzioni di frequenze Distribuzioni di probabilità Esempio. Distribuzione del numero di uova per nido di una particolare specie di uccello in una foresta. N° uovaFrequenzeFrequenze relative 0 900.12 11650.23 22090.29 31870.26 4 670.09 5 120.01 Totale7301.00
159
grafico a segmenti
160
Distribuzioni di probabilità discrete Diagramma a segmenti delle frequenze relative Diagramma a segmenti delle probabilità: raffigura la distribuzione di probabilità della variabile aleatoria discreta: “n° di uova per nido”. Distribuzioni discrete utili nelle applicazioni biologiche: Distribuzione binomiale, Distribuzione di Poisson.
161
Distribuzioni di probabilità continue Molte distribuzioni di variabili continue possono essere definite matematicamente, alcune descrivono adeguatamente la distribuzione di variabili biologiche. La distribuzione normale La distribuzione esponenziale
162
popolazione di 730 nidi in una determinata zona popolazione ipotetica popolazione di 3000 pesci
163
La distribuzione normale: un esempio Esempio 1. lunghezza (in decimi di mm) delle ali di 100 mosche (Sokal e Rohlf 1995, Biometry). La “lunghezza di un’ala” è una variabile continua
164
Poiché le misure di lunghezza sono su di una scala continua, è possibile aumentare il grado di precisione delle misurazioni in modo che le classi di frequenza siano a intervalli di 0.01 mm invece che di 0.1 mm. Se si considera un numero di osservazioni molto grande a un grado di precisione infinitamente elevato, i gradini dell’istogramma si trasformano in una curva continua simile a quella della distribuzione normale (con un andamento a campana). Distribuzione normale: le ali delle mosche
165
L’ISTOGRAMMA Peso di 150 studenti tra i 12-18 anni
166
L’ISTOGRAMMA Peso di 150.000 studenti tra i 12-18 anni
167
Distribuzione normale Se la scala del grafico è tale che l’area totale sotto la curva è pari a 1, allora l’area rappresenta tutte le osservazioni e la curva è una curva di densità. L’area che sta sotto la curva e sopra un determinato intervallo di valori rappresenta la proporzione di tutte le osservazioni che cadono in quell’intervallo. Si può, anche, dire che tale area rappresenta la probabilità che un individuo scelto a caso appartenga a quell’intervallo.
168
Istogramma e distribuzione normale: un altro esempio Esempio 2. Nella tabella che segue sono riportate le lunghezze (al mm più vicino) di 100 germogli nati da semi piantati allo stesso tempo. Ad esempio, tutti i germogli di lunghezza tra 73.5mm e 74.5mm sono inseriti nella classe 74mm. Nella tabella sono, anche, riportate la distribuzione delle frequenze, delle frequenze relative e delle frequenze cumulate dei valori della variabile “lunghezza dei germogli”.
169
Tabella delle frequenze Intervallo classe Lunghezza (mm) Frequenza relativa Frequenza rel. cumulata 67.5-68.568 10.01 68.5-69.569 20.020.03 69.5-70.570 40.040.07 70.5-71.571 70.070.14 71.5-72.572110.110.25 72.5-73.573150.150.40 73.5-74.574200.200.60 74.5-75.575160.160.76 75.5-76.576100.100.86 76.5-77.577 60.060.92 77.5-78.578 40.040.96 78.5-79.579 20.020.98 79.5-80.580 20.021.00
170
Distribuzione delle frequenze relative cumulate La frequenza relativa cumulata per una data classe è ottenuta come somma della corrispondente frequenza relativa e di tutte quelle relative alle classi precedenti. In modo analogo si definisce la frequenza cumulata. Spesso si considera la frequenza percentuale cumulata pari alla frequenza relativa cumulata moltiplicata per 100.
171
E’ unimodale (classe modale 73.5-74.5 mm)
172
L’area della barra sull’intervallo a=70.5 e b=71.5 è pari a 0.07. Corrisponde al 7% di tutte le osservazioni. Ossia, nel campione di 100 germogli, il 7% ha lunghezza tra 70.5 e 71.5. a b 0.07
173
b L’area tratteggiata in rosso rappresenta la frequenza relativa cumulata che fino al punto b è pari a 0.14 (14%). 0.14 l’osservazione b a quale percentile corrisponde?
174
Se si aumenta il numero di osservazioni e si diminuisce l’ampiezza delle classi, l’istogramma si avvicina a una curva normale e l’area sotto la curva tra a=70.5 e b=71.5 è pari a 0.075 ed è molto vicina alla percentuale (proporzione) di germogli di lunghezza tra 70.5 e 71.5.
175
Istogrammi e distribuzioni normali Entrambi gli istogrammi delle lunghezze delle ali di mosche e dei germogli suggeriscono per i dati osservati un andamento simile a quello di una distribuzione normale. Possiamo, pertanto, costruire un modello normale per descrivere entrambi i fenomeni. La curva di densità normale rappresenta il modello complessivo delle due distribuzioni.
176
Non tutte le distribuzioni sono normali Esempio 3 produzione annuale di latte di 100 vacche Jersey(libbre x100) p104 sokal L’andamento non è simmetrico
178
La distribuzione normale Tutte le distribuzioni normali hanno la stessa forma generale. La curva di densità per una particolare distribuzione normale si ottiene specificando la sua media µ e la sua deviazione standard σ (o la sua varianza σ 2 ).
180
Distribuzione normale N (µ, σ)
181
Perché le distribuzioni normali sono importanti? rappresentano ragionevolmente bene molte distribuzioni di dati reali permettono di rappresentare in modo compatto i dati. Un gran numero di valori distribuiti normalmente possono essere riassunti da 2 soli numeri: media e varianza sono molto importanti nell’inferenza statistica
182
La regola 68-95-99.7 Nella distribuzione Normale con media µ e deviazione standard σ: il 68% delle osservazioni è compreso nell’intervallo [µ − σ, µ + σ] il 95% delle osservazioni è compreso nell’intervallo [µ − 2 σ, µ + 2σ] il 99.7% delle osservazioni è compreso nell’intervallo [µ−3 σ, µ+3σ] La distribuzione normale: una proprietà importante
183
Area colorata= =0.683 Area colorata= =0.954 Area colorata= =0.997 C’è una probabilità pari al 68% di essere compresi tra µσ e µ+σ C’è una probabilità pari al 95% di essere compresi tra µ2σ e µ+2σ C’è una probabilità pari al 99.7% di essere compresi tra µ3σ e µ+3σ
184
Distribuzione Normale Questa regola è esattamente vera per una distribuzione normale. E’ vera, con buona approssimazione, per le lunghezze dei germogli che sono approx. normali.
185
La distribuzione normale I software statistici calcolano l’area sotto la curva fino al punto x, ossia la proporzione di osservazioni che assumono valori ≤ x. Occorre precisare media e deviazione standard della normale considerata. Area = = probabilità che un’unità scelta a caso abbia un valore ≤ x
186
Standardizzazione e valori z Se x è un’osservazione da una distribuzione che ha media µ e deviazione standard σ, il valore standardizzato di x è Un valore standardizzato viene spesso chiamato valore z. La standardizzazione
187
La stardardizzazione trasforma la distribuzione iniziale in una con media nulla e deviazione standard unitaria. Se x > µ z è positivo Se x < µ z è negativo
188
Le unità standard Ad esempio se X ~ N (µ = 20, σ = 4) Trovare il valore z corrispondente a 1) x = 28 z = 2 ( 28 è di 2 dev. st. maggiore della media 20 ) 2) x = 16 z = -1 ( 16 è di 1 dev. st minore della media 20 ) 3) x = 30 z = 2.5 4) x = 13 z = ?
189
Supponiamo che X ~ N (µ = 10, σ = 4) Trovare il valore z corrispondente a x = 28 z = 4.5 ( 28 è di 4.5 dev. st. maggiore della media 10 ) Supponiamo che X ~ N (µ = 20, σ = 2) Trovare il valore z corrispondente a x = 28 z = 4 ( 28 è di 4 dev. st. maggiore della media 20 )
190
Le unità standard 1) X ~ N ( µ = 100, σ = 12 ) Trovare il valore z corrispondente a x = 128 z = (128-100)/12 = 2.333 (128 è maggiore della media di 2.3 dev. st.) Se si standardizza una variabile normale si ottiene una nuova variabile con distribuzione N (0,1).
191
La distribuzione normale standard Z ~ N ( 0,1)
192
Le unità standard Ad esempio se X ~ N (µ = 20, σ = 4) Trovare il valore x corrispondente a z 1) z = 2.3 x è maggiore della media di 2.3 dev st. x = 20 + (2.3 x 4) = 29.2 2) z = - 1.4 x è minore della media di 1.4 dev. st. x = 20 – (1.4 x 4) = 14.4
193
La tavola della Normale standard Le Tavole sono tabelle che riportano le aree sotto la curva Normale standard. In corrispondenza di ogni valore z viene riportata l’area sotto la curva alla sinistra di z.
194
La tavola della Normale standard L’area sotto la curva alla sinistra di z corrisponde alla frequenza relativa (proporzione) cumulata nel punto z.
195
Quale proporzione di osservazioni di una variabile Z assume un valore minore di 2.33? Ossia qual è la frequenza relativa di Z < 2.33? proporzione di osservazioni minori di 2.33
196
Se si conosce z, si può trovare l’area Se si conosce l’area, si può trovare z
197
Tabelle Nella prossima slide una tabella per la distribuzione normale standard, cioe’ a media nulla e deviazione standard unitaria. Per vari valori di z la frequenza cumulata in z. Si parte da z=0 dove, per la simmetria, tale frequenza e’ 0.5
199
Area a sinistra di z = 1.47 Tabelle on line: http://econ.lse.ac.uk/ie/iecourse/ ec220course_statstables0203.pdf
200
-z+z Quali sono gli estremi dell’intervallo che contiene il 95% dei valori centrali? Cosa si può dire in tal caso delle code della distribuzione?
201
La distribuzione normale Esempio. La distribuzione del livello di colesterolo in un’ampia fascia di popolazione della stessa età e dello stesso sesso è approssimativamente normale. Per i ragazzi di 14 anni la media è µ = 170mg di colesterolo per decilitro di sangue (mg/dl) e la dev. st. è σ = 30mg/dl. I livelli sopra 240mg/dl richiedono attenzione medica. Quale percentuale di ragazzi di 14 anni ha più di 240mg/dl di colesterolo?
202
1) Scriviamo il problema. Sia x il livello di colesterolo nel sangue. x ~ N(170,30). Bisogna trovare la percentuale di ragazzi con x>240. 2) Standardizziamo. x > 240 x-170 > 240-170 30 30 z > 2.33 3) Usiamo le tavole. P(z < 2.33)= 0.9901. Poichè 1-0.9901=0.0099 diciamo che circa l’1% dei ragazzi ha un livello di colesterolo superiore a 240mg/dl
203
Come si valuta la “normalità” di una distribuzione di dati? Come possiamo giudicare se i dati provengono da una distribuzione che può essere approssimata con una normale? Gli istogrammi, i diagrammi ramo-foglia e alcuni indici possono rivelare caratteristiche tipicamente non normali: outlier, asimmetria, interruzioni dei valori (gap), clusters. Se i grafici appaiono abbastanza simmetrici e unimodali occorre un metodo più sensibile, che possa rivelare l’adeguatezza del modello normale (simmetria, outlier, peso delle code).
204
Plot dei quantili normali: metodo grafico di controllo della normalità dei dati Ordinare i dati osservati in ordine crescente, e calcolare i percentili campionari. Esempio: la più piccola osservazione in un insieme di 20 è il quinto percentile (5%), l’osservazione successiva è il 10-mo percentile (10%), …. Trovare i valori z corrispondenti (che corrispondono agli stessi percentili): z = -1.645 è il quinto percentile della distribuzione normale standard, z = -1.282 è il 10-mo percentile, ….
205
Tracciare un grafico riportando l’osservazione x sull’asse orizzontale e il valore z corrispondente sull’asse verticale. Se i punti del grafico si dispongono vicino a una retta, la distribuzione dei dati è vicina a una distribuzione normale. Usare un computer Plot dei quantili normali
206
Lunghezze dei germogli in un campione di 20 Valori ordinati
207
5°percentile
208
Produzione annuale di latte (libbre x 100) di 100 vacche Jersey di 2 anni (Sokal, Rohlf p.104)
209
53 54 55 56 57 58 61 65 69 70 74 82 89 98
210
z1z1 z2z2 z3z3 z4z4 z5z5 L’area sotto la curva normale standard è stata divisa in 5 parti uguali ciascuna con area uguale a 1/5. I punti z i dividono a metà ciascuna delle 5 parti. z 1 corrisponde al 10mo percentile, z 2 corrisponde al 30mo percentile ecc. Sia n=5 la prima osservazione corrisponde al 20mo percentile 20 406010080
211
Per un insieme di n = 5 dati normalmente distribuiti ci aspettiamo che corrispondano al 10mo, 30mo, 50mo, 70mo, 90mo percentile, ossia percentile di x i = (i - 0.5)/n Alcuni autori hanno scelto formule leggermente diverse per calcolare il percentile di x i ottenendo risultati leggermente diversi. Ma si ottengono plot essenzialmente uguali.
212
La variabilità naturale dei dati causa le fluttuazioni dei dati intorno alla retta
213
I dati presentano una lunga coda a sinistra I dati presentano una lunga coda a destra
214
Code lunghe rispetto alla normale, ossia varianza maggiore rispetto a una normale Code corte rispetto alla normale, ossia varianza minore rispetto a una normale
215
Modelli matematici Le distribuzioni di probabilità (con le loro formule) sono modelli matematici adatti a descrivere molti fenomeni naturali. Sono distribuzioni di frequenze teoriche per le popolazioni che forniscono una rappresentazione idealizzata dei fenomeni stessi. Riportano un’immagina compatta del modello complessivo dei dati, prescindendo da irregolarità minori. E’ possibile incontrare distribuzioni di probabilità, generate empiricamente, che non possono essere descritte dai modelli noti.
216
L’analisi dei dati con una variabile
217
Riassunto Le distribuzioni normali sono rappresentate da una famiglia speciale di curve di densità simmetriche a forma di campana, chiamate curve normali. La media µ e la deviazione standard σ specificano completamente una distribuzione normale N (µ, σ). La standardizzazione trasforma un valore x nel corrispondente valore z = (x- µ)/ σ.
218
Tutte le distribuzioni normali sono identiche quando le osservazioni sono trasformate in scala standardizzata. Tutte le distribuzioni normali soddisfano la formula 68-95-99.7. I plot dei quantili normali permettono di valutare “la normalità” di una distribuzione di dati.
219
Relazioni tra 2 variabili quantitative Esempio: un modello di comportamento studiato dagli ecologi mette in relazione la taglia delle specie carnivore ( massa corporea in kg) con il numero di carnivori della stessa specie che vivono in una data area (abbondanza della specie). Più precisamente occorre calcolare quanti carnivori della stessa specie sono presenti ogni 10000 Kg di prede nell’area. La tabella riporta i dati relativi a 25 specie di carnivori. Il modello prevede che l’abbondanza della specie (variabile di risposta) vari in funzione della massa corporea (variabile esplicativa). E’ stata effettuata una trasformazione logaritmica su entrambe le variabili.
220
SpecieMassa x corporea Abbondanza y SpecieMassa x corporea Abbon danza y donnola 0.14 Kg 1656.49 lupo etiope 14.5 Kg 2.70 ermellino 0.16406.66 Lince asiatica 20.00.46 mangusta 0.55514.84 cane selvaggio 25.01.61 martora 1.331.84 dhole 25.00.81 volpino 2.0215.96 lupo 46.00.62 volpe ( Manica) 2.16145.94 leopardo 46.56.17 volpe artica 3.1921.63 ghepardo 50.02.29 volpe rossa 4.632.21 puma 51.90.94 lince rossa 10.09.75 iena 58.60.68 lince canadese 11.24.79 leone 142.03.40 tasso 13.07.35 tigre 181.00.33 coyote 13.011.65 orso polare 310.00.60
221
Come si esplora una relazione tra due o più variabili quantitative? Rappresentare graficamente i dati Descrivere gli andamenti generali e le eventuali deviazioni da tali andamenti Se l’andamento generale è piuttosto regolare, utilizzare un modello (matematico, statistico) per descrivere tale andamento
222
Diagramma di dispersione
223
Come si interpreta un diagramma di dispersione Cercare l’andamento generale (trend) L’andamento generale si descrive attraverso la forma, la direzione e la forza della relazione Attenzione agli outlier
224
I carnivori più grandi sono meno abbondanti. Associazione negativa moderatamente forte (r = -0.9124) La forma dell’associazione è lineare. Animali che vivono in parti del mondo diverse tendono a seguire un modello comportamentale analogo e piuttosto semplice. Potremmo usare questo modello lineare (a linea retta) per predire l’abbondanza di altre specie carnivore conoscendo la massa corporea.
225
A occhio non è possibile giudicare quanto una relazione lineare sia forte. necessario un indice numerico
226
Correlazione La correlazione misura la direzione e la forza della relazione lineare fra due variabili quantitative. La correlazione è solitamente indicata con r. Supponiamo di essere in possesso di n osservazioni riguardanti le variabili x e y. I valori per la prima unità sono x1 e y1, i valori per la seconda unità sono x2 e y2 e così via. Le medie e le deviazioni standard delle due variabili sono ¯x e sx per i valori x e ¯y e sy per i valori y. Il coefficiente di correlazione r fra x e y è dato da -1≤ r ≤ 1
229
Attenzione all’uso della correlazione 1) La relazione tra le 2 variabili deve essere rettilinea (lineare) non curvilinea 2) Non si può concludere che poiché 2 variabili sono correlate in modo significativo, una è necessariamente la causa dell’altra. Un fattore nascosto può essere la causa della variabilità delle 2 variabili. 3) Se r=0 (correlazione lineare non significativa) può esistere una relazione non lineare tra le variabili. 4) La correlazione non è una misura robusta.
230
Trend lineare con una dispersione moderata e costante lungo la linea di tendenza Cosa rivela un diagramma di dispersione?
231
Trend non lineare con poca dispersione dei dati intorno alla curva Relazione forte Cosa rivela un diagramma di dispersione?
232
Trend non lineare con dispersione non costante intorno alla curva Relazione debole
233
A e B sono outlier Dopo un controllo B si è rivelato un errore mentre A è sembrato un valore possibile
234
Regressione lineare Retta di regressione. Modello statistico che descrive la relazione lineare tra due variabili quantitative Una retta di regressione: descrive come cambia (linearmente) una variabile di risposta y quando cambia la variabile esplicativa x, spesso viene usata per prevedere nuovi valori di y da nuovi valori di x, determina quanta parte della variabilità (incertezza) di y può essere spiegata dalla relazione lineare con x, e quanta di questa variabilità resta non spiegata.
235
Esempio: le colonie degli uccelli. Alcuni biologi hanno osservato per 2 anni consecutivi 13 colonie di sparvieri. Nel secondo anno in ogni colonia è stata rilevata sia la percentuale di esemplari ritornati (v. esplicativa), sia il numero di nuovi esemplari (v. di risposta). Percentuale che ritorna x Nuovi adulti yPercentuale che ritorna x Nuovi adulti y 7454517 6666218 8184618 52116019 73124620 62153820 5216
236
Le colonie degli uccelli Per gli uccelli che hanno vita breve, generalmente l’associazione tra queste variabili è positiva: le variazioni climatiche e le provviste di cibo alternano l’arrivo e la partenza delle popolazioni di uccelli nuovi e vecchi. Diverso è il rapporto per gli uccelli che vivono a lungo: l’associazione è negativa dato che gli uccelli che ritornano pretendono i loro territori nella colonia e non lasciano spazio ai nuovi arrivati.
237
r=- 0.7485
238
residuo
239
La retta di regressione dei minimi quadrati La retta di regressione di y su x trovata con il metodo dei minimi quadrati è la linea retta che rende minima la somma dei quadrati delle distanze verticali tra i punti osservati e la retta stessa. Tali distanze sono dette anche residui o errori di previsione.
240
Retta di regressione dei minimi quadrati: formule Supponiamo di avere dei dati su una variabile esplicativa x e su una variabile di risposta y per n unità. In base ai dati, ricaviamo le medie ¯x e ¯y e le deviazioni standard sx e sy delle due variabili e la loro correlazione r. La retta di regressione dei minimi quadrati è la linea con coefficiente angolare e intercetta L’espressione del coefficiente angolare suggerisce che lungo la retta, una variazione di una deviazione standard in x cor- risponde ad una variazione di r deviazioni standard in y.
241
La retta di regressione La retta di regressione per l’esempio è: = 31.9 – 0.3040x ad es. per x = 60 =13.69
242
Il coefficiente angolare misura quanto cambia quando x aumenta di 1 e dipende dalle unità di misura di x e y. Nell’esempio, b=-0.3040 ci dice che per ogni punto percentuale in più di “rientri” è possibile prevedere circa 0.3 nuovi esemplari in meno. L’intercetta è il valore di quando x=0. Nell’esempio, x=0 equivale alla scomparsa della colonia, perché nessun esemplare ritorna, perciò il valore =31.9 non ha significato. Si possono fare previsioni con la retta. Nell’esempio, si può prevedere il numero di nuovi esemplari quando si ha il 60% di “rientri”. Si avrà = 13.69 che è un valore “in media” quando si considerano più colonie con il 60% dei rientri.
243
Residui Il residuo è la differenza fra un valore osservato della variabile di risposta e il valore previsto dalla retta di regressione. Vale a dire residuo = y osservato-y previsto = y - La somma dei residui dei minimi quadrati è pari a zero e perciò la loro media è sempre zero Grafico dei residui Un grafico dei residui è un diagramma a dispersione in cui i residui della regressione vengono rappresentati rispetto alla variabile esplicativa. I grafici dei residui aiutano a valutare l’adattamento ai dati della retta di regressione.
244
Grafico dei residui Posizionando la retta di regressione orizzontalmente, il grafico permette di valutare meglio le deviazioni dei punti dalla retta. Sarà più facile notare osservazioni anomale o comportamenti sistematici
245
Devianza spiegata e totale ESS= Varianza dei dati acquisiti dalla retta di regressione rispetto alla media TSS= vera varianza dei dati
246
media di y retta di regressione deviazio ne tot. y - y¯ deviazione non spiegata y - y^ x,y x,y^ x,y¯ deviazione spiegata y^ - y¯ Variabilità della y spiegata e non spiegata dal modello
247
Come si valuta la bontà del modello? Per valutare la bontà del modello si può considerare r 2 r 2 è la proporzione di variabilità dei valori di y spiegata dal modello di regressione di y su x. variabilità spiegata r 2 = ------------------------- = coefficiente di determinazione variabilità totale Nell’esempio, r 2 = 0.5603, ossia circa il 56% della variabilità dei nuovi esemplari è spiegata tramite la relazione lineare con la percentuale dei rientri. Osservando la figura, si vede che il numero di nuovi esemplari che si aggiungono alla colonia varia da 5 a 20. Parte di questa variabilità di y è spiegata dal fatto che la percentuale x dei “rientri” varia dal 38% all’81%.
248
r 2 r 2 varia tra 0 e 1. r 2 r 2 prossimo a 1 buon adattamento della retta di regressione ai dati osservati. r 2 r 2 prossimo a 0 cattivo adattamento della retta di regressione ai dati osservati.
249
Ma esiste anche una certa variabilità al di sopra e al di sotto della retta che non può essere spiegata dalla relazione lineare tra x e y. Nell’esempio: r = - 0.7485 e r 2 = 0.5603. 44% della variabilità totale è la variabilità interna delle colonie che non è spiegabile dalla relazione lineare. Nell’esempio dei carnivori ( r = -0.9124, r 2 = 0.8325). Più dell’83% della variabilità nell’abbondanza dei carnivori è spiegata dal modello lineare. Solo il 17% è la variabilità fra le specie con la stessa massa. r 2 non è il fattore più importante per valutare la bontà del modello. Si possono osservare valori di r 2 vicini a 1 in regressioni in cui l’analisi dei residui mostra l’inadeguatezza del modello.
250
Osservazioni influenti Outlier e osservazioni influenti nella regressione Un outlier è un’osservazione che non segue il modello generale assunto dalla maggior parte delle osservazioni. I punti che, guardando un diagramma di dispersione, possiamo considerare outlier in direzione di y, hanno residui elevati. Un’osservazione è influente se, eliminandola, cambierebbe profondamente il risultato. I punti che, in un diagramma di dispersione, possiamo considerare outlier in direzione della x sono spesso punti influenti nella determinazione della retta di regressione dei minimi quadrati.
251
Attenzione all’estrapolazione Estrapolazione L’estrapolazione è l’utilizzo della retta di regressione per fare previsioni al di fuori dell’intervallo di valori, della variabile esplicativa x, utilizzati per ottenere la linea. Previsioni di questo tipo sono spesso piuttosto imprecise.
252
Attenzione alla variabile nascosta Variabile nascosta Una variabile nascosta è una variabile che ha un effetto importante sulla relazione fra le variabili analizzate, ma che non è stata presa in considerazione nello studio. La correlazione e la regressione possono essere ingannevoli se si ignorano variabili nascoste significative.
253
Le associazioni non implicano rapporti di causa ed effetto Le associazioni non implicano causa/effetto Un’associazione fra una variabile esplicativa x e una di risposta y, anche se molto forte, non comporta necessariamente che y venga modificata ad opera di x. Esempio: esiste un’alta correlazione positiva tra il numero di televisori per persona x e la vita media y per diverse nazioni del mondo: nelle nazioni con molti televisori si vive più a lungo (la ricchezza di una nazione può essere una variabile nascosta). Correlazione spuria. Non c’è rapporto causa/effetto.
254
In generale è consigliabile essere cauti nell’affermare che esiste una relazione causa-effetto fra 2 variabili, solo perché sono associate fortemente. Una forte correlazione non implica necessariamente un rapporto di causalità. Il modo migliore per valutare gli effetti di x su y è attraverso un esperimento controllato in cui modificando x si mantengono le variabili nascoste sotto controllo.
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.