La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La Statistica esiste in quanto in natura i fenomeni tendono a manifestarsi con diverse modalità ad essere cioè variabili. Senza la statistica non esiste.

Presentazioni simili


Presentazione sul tema: "La Statistica esiste in quanto in natura i fenomeni tendono a manifestarsi con diverse modalità ad essere cioè variabili. Senza la statistica non esiste."— Transcript della presentazione:

1 La Statistica esiste in quanto in natura i fenomeni tendono a manifestarsi con diverse modalità ad essere cioè variabili. Senza la statistica non esiste metodo sperimentale. Il tentativo della statistica è di separare - VARIABILITA SISTEMATICA insieme di differenze dovute a fattori che agiscono sulla grandezza in esame e dei quali è possibile accertare leffetto - VARIABILITA CASUALE insieme di differenze dovute a fattori incontrollabili Un singolo individuo è una entità inestricabile, un insieme di individui è un sistema facilmente prevedibile A. Conan-Doyle

2 Definizione di Statistica 1.rappresentare e sintetizzare i fenomeni di interesse (Statistica descrittiva) 2.interpretare la natura della relazione esistente tra i fenomeni (Statistica inferenziale) 3.prendere delle decisioni in merito ad ipotesi di interesse (Statistica inferenziale) Disciplina che si occupa della trattazione dei dati rilevati su fenomeni misurabili allo scopo di

3 POPOLAZIONE E CAMPIONE POPOLAZIONE: Insieme di enti che condividono una o più caratteristiche comuni Popolazioni finite : bambini di V C di una certa scuola Popolazioni infinite: tutti i multipli di 13 CAMPIONE: Piccola frazione di una popolazione le cui caratteristiche si avvicinano a quelle della popolazione. Lapprossimazione migliore si ha quando il campione è casuale cioè quando la probabilità che un elemento venga scelto è uguale per tutti gli elementi della popolazione Lapprossimazione è tanto maggiore quanto maggiore è la dimensione del campione

4

5 Tipi di variabili –Nominali: la proprietà assume stati discreti non ordinabili. Un tipo particolare sono le variabili dicotomiche (o binarie) (p.e. il genere) –Ordinali: la proprietà assume stati discreti ordinabili (p.s. il livello di istruzione) –Cardinali: i numeri che identificano le modalità (i valori della variabile) non sono semplici etichette, ma hanno un pieno significato numerico. La variabile cardinale può assumere stati discreti (p.e. il numero di figli) o stati continui (p.e. letà, il peso). Se lo zero corrisponde allassenza della caratteristica, la variabile è detta razionale (p.e. scala Kelvin della temperatura),

6 Misure di tendenza centrale: media, mediana e moda Media (aritmetica): somma dei valori delle osservazioni diviso il numero di osservazioni Mediana: il valore che divide a metà le osservazioni (50% sono più basse, 50% sono maggiori) Moda: il (i) valore(i) più frequenti in una serie di osservazioni

7 MISURE DI POSIZIONE Analogamente alla mediana si definiscono e si calcolano: quartili decili percentili 1° quartile: superiore o uguale al 25% delle osservazioni inferiore al restante 75% 2° quartile coincide con la mediana 3° quartile : inferiore o uguale al 25% delle osservazioni e superiore al 75% 1° decile: superiore o uguale al 10% e inferiore al 90% delle osservazioni 1° percentile inferiore o uguale al 99% e superiore all1% delle osservazioni, ecc.

8 MISURE DI DISPERSIONE Le misure di dispersione danno unidea di quanto i dati si scostano dal valore centrale. - RANGE o intervallo di variazione: differenza fra valore massimo e minimo. -DEVIANZA o somma dei quadrati degli scarti dalla media. -VARIANZA è la devianza divisa per il numero di osservazioni.

9 MISURE DI DISPERSIONE DEVIAZIONE STANDARD è la radice quadrata della varianza: In questo modo ds ha le stesse dimensioni fisiche delle osservazioni. In genere si scrive la media di un campione seguita dalla sua deviazione standard, es

10 DISTRIBUZIONE NORMALE

11 La distribuzione Normale La distribuzione normale è importante in statistica per tre motivi fondamentali: 1.Diversi fenomeni continui sembrano seguire, almeno approssimativamente, una distribuzione normale. 2.La distribuzione normale può essere utilizzata per approssimare numerose distribuzioni di probabilità discrete. 3.La distribuzione normale è alla base dellinferenza statistica classica in virtù del teorema del limite centrale. Le fondamentali proprietà teoriche della distribuzione normale sono 1.La distribuzione normale ha una forma campanulare e simmetrica. 2.Le sue misure di posizione centrale (media, mediana, moda) coincidono. 3.La variabile aleatoria con distribuzione normale assume valori compresi tra - e +.

12 DISTRIBUZIONE NORMALE Una proprietà fondamentale della gaussiana è la seguente: –La probabilità che uno scarto dalla media sia maggiore di un certo valore è inversamente proporzionale al rapporto fra questo valore e la deviazione standard. Quindi esiste una probabilità definita e uguale per tutte le curve normali che un certo scarto sia inferiore a una (2, 3) deviazione standard.

13

14 I TEST STATISTICI

15 Si può definire test statistico una procedura che - sulla base di dati campionari - e con un certo grado di probabilità, consente di decidere se è ragionevole o meno respingere lipotesi nulla H0 (ed accettare implicitamente lipotesi alternativa H1)

16 Lipotesi nulla è, in generale, lipotesi che si vorrebbe rifiutare. Essa afferma che gli effetti osservati nei campioni sono dovuti a fluttuazioni casuali ovvero che il valore del parametro (media, varianza, simmetria, curtosi, correlazione, ecc., …) nel campione estratto dalla popolazione studiata è uguale a quella di controllo. Lipotesi nulla H0 deve essere rifiutata solamente se esiste levidenza che la contraddice. E importante comprendere che lipotesi nulla non è necessariamente vera, quando i dati campionari (eventualmente pochi) non sono tali da contraddirla. Lipotesi nulla H0 non è mai provata o verificata; è solo possibile negarla o disapprovarla, sulla base di dati sperimentali. Per consolidata convenzione internazionale, i livelli di soglia delle probabilità α ai quali di norma si ricorre sono tre: 0.05 (5%); 0.01 (1%); (0.1%).

17 La statistica è la scienza che permette di scegliere e prendere decisioni non perché immune da errori, ma perché fornisce la probabilità di errare, associata ad ogni scelta. Quindi di valutare il rischio che si corre, se la scelta si dimostrasse errata.

18 Nel controllo di unipotesi statistica è possibile commettere due tipi di errore: - l'errore di primo tipo o errore α (alfa), se si rifiuta l'ipotesi nulla quando in realtà essa è vera; -l'errore di secondo tipo o errore β (beta), se si accetta l'ipotesi nulla, quando in realtà essa è falsa. La probabilità di commettere lerrore di I tipo è chiamata livello di significatività ed è indicata convenzionalmente con α (alfa). La probabilità di commettere lerrore di II tipo è indicato convenzionalmente con β (beta). Il complemento di β (quindi 1- β) è detto potenza di un test.

19 La condizione migliore sarebbe di ridurre contemporaneamente sia lerrore di I tipo sia lerrore di II. Tuttavia le probabilità α e β sono legate da una relazione inversa: se una cresce, laltra cala. Lunico modo per ridurli entrambi è quello di aumentare il numero dei dati. Tuttavia non sempre è possibile ampliare le dimensioni del campione, perché già raccolto oppure perché i costi ed il tempo necessari diventano eccessivi, per le disponibilità reali del ricercatore.

20 La scelta di α e di β sono soggettive. Ma alcuni esperti di statistica applicata hanno fornito indicazioni operative. Il criterio di Cohen - è una indicazione che ha il solo pregio di apparire ragionevole; - è basata sul buon senso pratico, ma che non ha nessuna base teorica. Secondo tale proposta, - il valore di β è legato alla scelta di α, secondo la relazione: β = 4α - che, tradotto in rapporto alla potenza, diventa 1 - β = 1 - 4α

21 GoalMeasurement (from Gaussian Population) Rank, Score, or Measurement (from Non- Gaussian Population) Binomial (Two Possible Outcomes) Compare one group to a hypothetical value One-sample t testWilcoxon testChi-square or Binomial test Compare two unpaired groups Unpaired t testMann-Whitney testFisher's test (chi-square for large samples) Compare two paired groups Paired t testWilcoxon testMcNemar's test Compare three or more unmatched groups One-way ANOVAKruskal-Wallis testChi-square test Compare three or more matched groups Repeated-measures ANOVAFriedman testCochrane Q Quantify association between two variables Pearson correlationSpearman correlationContingency coefficients Predict value from another measured variable Simple linear regression or Nonlinear regression Nonparametric regressionSimple logistic regression Predict value from several measured or binomial variables Multiple linear regression or Multiple nonlinear regression Multiple logistic regression

22 Alcuni errori statistici 1) Non esecuzione dei test per valutare la normalità del campione. Distrib. Normale: Statistica parametrica Distrib. Non normale : Statistica non parametrica

23 Come si valuta la normalità di una curva 1) Visivamente: costruendo un istogramma di frequenza; 2) Con il test di Kolmogorov-Smirnov nella variante ad un campione (significatività=non normalità); 3) Dividendo la kurtosis e la skewness per i relativi S.E. (significatività=non normalità);

24 2) Usare la statistica parametrica quando il numero di dati è scarso. Quando i dati sono pochi? <=5 : sicuramente sì 6-10 : probabilmente sì

25 3) Usare la statistica parametrica in presenza di variabili di tipo ordinale (ad es. gravità di una malattia)

26 4) Utilizzare confronti multipli senza correzioni Se si cercano differenze fra più di 2 gruppi è indispendabile usare lANOVA (e non tanti t di Student). Se lANOVA è significativa si può procedere alle procedure per confronti multipli: test di Bonferroni, test di Student-Neuman-Keuls (SNK), MODLSD, test di Scheffe, ecc.

27 5) Errori nel Chi quadrato Considerare le percentuali e non i numeri reali dei casi Usare tale test quando uno dei gruppi è <5 (o peggio uguale a 0) o per essere più precisi: il chi quadro va usato quando non più del 20 % delle frequenze attese può essere < 5 e nessuna cella deve avere una frequenza attesa < 1. ° In tali casi va usato il test esatto di Fisher.


Scaricare ppt "La Statistica esiste in quanto in natura i fenomeni tendono a manifestarsi con diverse modalità ad essere cioè variabili. Senza la statistica non esiste."

Presentazioni simili


Annunci Google