La statistica è difficile ! Ci vuole ‘un esperto’ !

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Il chi quadro indica la misura in cui le
Analisi dei dati per i disegni ad un fattore
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
STATISTICA a.a LA STATISTICA INFERENZIALE
Studente Claudia Puzzo
Analisi della varianza
Quale valore dobbiamo assumere come misura di una grandezza?
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
COVARIANZA e CORRELAZIONE.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Il residuo nella predizione
Corso di Laurea in Scienze e tecniche psicologiche
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
“Teoria e metodi della ricerca sociale e organizzativa”
Elaborazione statistica di dati
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
ANALISI DELLA VARIANZA (ANOVA)
Correlazione e regressione lineare
Problemi analitici quantitativi I metodi chimico-analitici strumentali hanno lo scopo di quantificare o di determinare proprietà chimico-fisiche di uno.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Statistica con Excel Corso di Fisica ed Elementi di Laboratorio ed Informatica CdL Scienze Biologiche AA 2015/2016.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Introduzione all’inferenza
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

La statistica è difficile ! Ci vuole ‘un esperto’ !

Una p veramente significativa !

Perec G. Experimental Demonstration of the Lycopodium organization in the Cantatrix sopranica L. Am. J. Mus. Deficiency, 1999 : 7: 3-6. Statistical evaluation of the data was made using an iterative tennis-like algorithm (Wimbledon 1974), that is, every time a target was unbiasely centered, an inverse YR/2 correction factor was added to the regression analysis, including the dosage effect (Throw Strenght) as a continuous covariate correction.

Lycopodium persicum = Pummarola Stimulation !

Ma che cosa è veramente questa ‘p’ ? Probabilità della Ipotesi Nulla p di H o ove H o dice che : -casi = controlli -placebo = farmaco -test = non test opposto di H 1 che dice che c’è una differenza Ma se abbiamo che le probabilità sono p H o = 0.5 p H 1 = 0.5 p H o = 0.3 p H 1 = 0.7 p H o = 0.2 p H 1 = 0.8 p H o = 0.1 p H 1 = 0.9 p H o = 0.07 p H 1 = 0.93 p H o = 0.05 p H 1 = 0.95

PERCHE’ NON MI BASTA LA ‘p’ Il Disegno di uno studio NON parte da una applicazione formale di statistica, bensì dal Giudizio Clinico. Si definisce, in primis, un risultato, un punto d'arrivo, un esito (end point) In secundis si definisce quale e quanta differenza vogliamo essere capaci d'osservare tra i due gruppi d'intervento (Differenza nell'esito tra trattati e controlli), ancora Giudizio Sperimentale o Clinico  Infine si chiede allo Statistico di calcolare il numero di casi e di controlli necessari per rispondere ai quesiti di cui sopra

Ma quale pppp ci vuole ??

SCIENZA O CARTA STRACCIA ? Il doppio cieco ‘non è etico’ Proporre terapie senza un trial controllato Piccoli numeri Fare sottogruppi Errore di II tipo Valutare solo ‘p’

La statistica comincia qui ! NOME___________________________________ Visita del: |_|_|_|_|_____| Sesso M/F  Nato di |_|_|_|_|grammi a |_|_| sett. Al seno per |_|_|_| giorni. Svezzato a |_|mesi PESA |_|_|_|_|_| gr. cent |_|_| Alt. |_|_|_|, |_| cm cent |_|_| Peso/Alt. C. |_______| Cranio |_____| c.|_____| In un anno è cresciuto di |____| cm c.|_____| e |______| gr. c.|____| Archie Cochrane : Doctors sit on a mine of data !

Dimensione del Campione Potenza 1-β Significatività α Frequenza nei controlli N > 20/gruppo Sample Size on-line

Quattro tipologie di variabili o dati Variabili continue : da 0 a XXX –Età, altezza, distanza, glicemia, pressione ecc –Variabili categoriche o scalari : Livello di istruzione, intensità del dolore, stadio –Variabili Qualitative : Colore, lavoro, malattia, sintomi, provenienza –Variabili Binomiali : Sesso, Positivo si/no, Vero/Falso 1-2

Variabili Continue : età, altezza, glicemia, ratio, distanza Controlliamo che la distribuzione sia ‘accettabilmente ‘ Normale’ e via : –Media, Deviazione Standard, Errore Standard della Media –Differenza tra medie –t di Student –Analisi della Varianza –Regressione e Correlazione r di Pearson –Analisi multivariata

Variabili qualitative, binomiali, scalari sesso, si/no, dolore, grado di , Differenza tra Percentuali Chi Quadrato – test esatto di Fisher Rank Test : test di posizione su scala (Wilcoxon – Mann-Whitney ) Scalari : Correlazione di Spearman –Chi Quadrato per il trend

Il dato più importante: quello che non c’è !!! Per avere "dati puliti“ bisogna avere una spiegazione certa sui dati mancanti, (omessi, lasciati in bianco) La risposta può essere in bianco perché la domanda non è stata fatta, o non si è avuta una risposta o la risposta è negativa (nessuna malattia ad es.) o per altre ragioni legate (domanda non applicabile al bimbo)…. Dare un valore ai "casi mancanti". Potremo assegnare al mancante il valore di 0, perchè il dato è assente, 9 perchè "non si sa" e bianco per "domanda non posta". Dal momento che i calcolatori non distinguono lo 0 dal bianco, MAI MAI impiegare 0 e Bianco per i codici dei dati mancanti (preferire 9,8 99, a seconda della larghezza della casella dati, o -1 ecc.). Data nascita 99/99/9999 Sesso 9 Altezza 999,9 ecc

Strategia pratica in funzione della grandezza del campione : per ‘n’ in ciascun gruppo < 10: descrivere ‘con enfasi’ no ‘p’ : test non parametrici rank sum Chi Quadro, Wilcox, Mann-Whitney, Spearman > 20 : valutare la ‘normalità’ –Non accettabile : Test Non Parametrici –Accettabile : e… via ! T-test, ANOVA, Regressione, Correlazione, Multivariata

VARIABILI CONTINUE ‘NORMALI’ I dati si disperdono intorno ad un valore centrale, mediano, più frequente (moda), media matematica

Il grafico delle frequenze cumulative permette una facile visione dei percentili !

Gli Scarti : Non tutti i piedi sono uguali ! Gli scarti : tanti positivi, tanti negativi : la somma = 0 Basta elevare I valori al quadrato e la somma stimerà gli scarti

Dagli scarti dalla media: una facile derivazione DEVIANZA = Σ (m-x) 2 Somma dei quadrati degli scarti dalla media VARIANZA= Σ(m-x) 2 n-l Somma dei quadrati degli scarti rispetto ai gradi di libertà Deviazione Standard = √ Σ (m-x) 2 n-l La stessa somma dei quadrati degli scarti sotto radice quadrata per riportarci alla unità di misura iniziale

Ma è molto importante controllare la distribuzione !

Lecco, 15 dic 2005Francesco Ronzon 21 Deviazione Standard suoi effetti  = 2  =3  =4

Media=Moda=Mediana ! Percentili ‘facili’ Percentili

ERRORE STANDARD DELLA MEDIA Più valori medi, di una stessa popolazione, si distribuiscono intorno ad un valore medio assoluto (e ignoto) con una distribuzione di tipo normale, è allora possibile avere una stima di quanto tendono a discostarsi dal valore medio assoluto. ERRORE STANDARD DELLA MEDIA = DEVIAZIONE STANDARD / √ n Nella pratica clinica (specie in chimica clinica) è spesso usato il coefficiente di variazione, che esprime il rapporto percentuale tra DS e media: COEFFICIENTE DI VARIAZIONE = (Deviazione Standard/media) x 100 Una delle caratteristiche fondamentali della distribuzione normale è che il 95% di tutta la popolazione è inclusa in un intervallo ottenuto sommando al valore medio 1.96 volte le DS e sottraendo al valore medio 1.96 volte la DS (circa 2 volte), cioè il 95% dei valori ricade tra x± 1.96 DS. L'intera popolazione può dunque essere descritta mediante la media e l'intervallo che contiene i valori della media meno o più 1.96 volte la DS. I limiti di confidenza della media (quei limiti che comprenderanno il 95% dei possibili valori medi di quella popolazione) saranno ottenuti dal valore medio più o meno 1.96 volte l'ESM. LIMITI DI CONFIDENZA (al 95%)= m ± 1,96 ESM

Ma è molto importante controllare la distribuzione ! Errore Standard della Media DS= VARIABILITA TRA INDIVIDUI ESM= PRECISIONE DELLA MEDIA DI UN CAMPIONE

Z-Score = m-x DS Altezza 124cm, media per l’età e sesso = 132cm, DS 4,5 Z-Alt = ( )/4,5 = - 1,77

La formulazione delle ipotesi La statistica non dice che “la popolazione A è certamente diversa da B" bensì "quanto è improbabile" che la popolazione A sia identica a quella B. Si tratta di rifiutare l'ipotesi nulla (detta anche Hypotesis Zero: H0) che sostiene che "non vi è alcuna differenza tra le due popolazioni": IPOTESI NULLA H0: A=B se l'ipotesi nulla ha meno del 5% di probabilità di essere vera, possiamo rifiutarla. L'abbiamo rifiutata con una probabilità (il famoso "p") inferiore al 5% (= 0.05). L'errore alfa o errore di primo tipo è l'area dei possibili risultati che ci inducono a respingere l'ipotesi nulla, anche quando essa possa essere vera L'errore beta o errore di secondo tipo è l'inverso: è l'errore di non respingere l'ipotesi nulla H0 quando infatti essa sia falsa, cioè l'incapacità a documentare la reale differenza che esiste tra A e B per problemi legati al metodo utilizzato

La differenza tra due medie: il t di Student Per dati non appaiati, due medie diverse A e B t = (mA-mB) S S= √( Devianza A+Devianza B) nA+nB-2 Per dati Appaiati abbiamo solo la Media delle Differenze ‘d’ t=d ∙ √ DS diff. 2 n

Genotipo del gene c-REL * Esito in celiaco CELIACOTotale potenzialeAtrofico AAOsservato91899 %5640 AGOsservato %3550 GGOsservato14216 %910 TotaleOsservato %100 Vediamo se un polimorfismo del gene c-REL del tipo AA è più frequente nei 20 soggetti /182 che sviluppano una atrofia della mucosa intestinale TABELLA DEI VALORI OSSERVATI

Genotipo del gene c-REL * Esito in celiaco CELIACOTotal potenzialeAtrofico AAOsservato91899 Atteso % AGOsservato Atteso60767 % GGOsservato14216 Atteso14216 %9109 TotalOsservato Atteso %100 Moltiplicando i totali di riga per quelli di colonna e dividendo per il gran totale abbiamo le frequenze attese in base al caso La differenza tra atteso- osservato è importante !

La statistica χ 2 Quando i valori osservati sono lontani da quelli attesi il valore di χ2 è elevato Quando i valori osservati sono vicini a quelli attesi il valore è basso

La distribuzione χ2 La tabella della distribuzione χ2 consente di identificare la zona critica per qualsiasi valore di gradi di libertà e per qualsiasi alfa (p) (Gdl= n. categorie – 1)

Il test più comune ma … SE avete piccoli numeri e solo 2x2 caselle usate il Test di Fisher p esatta Se avete più caselle (n x n es. 3 x 5 ) attenti che in nessuna vi sia un numero < 5 Se accade : accorpate caselle vicine

European Laboratory for Food Induced Research Federico II Non vi siete ancora annoiati ???

La correlazione: rappresentazione grafica Le due variabili si rappresentano come X e Y –Ascisse: X –Ordinate: Y Le osservazioni si rappresentano come punti sul piano cartesiano Eta e velocità di reazione

La correlazione: caratteristiche /1 Correlazione Negativa Correlazione Positiva

Forma della relazione Lineare (v. lucido precedente)(v. lucido precedente) Forme non-lineari –a flessione –logistiche Durata del sonno Effetto di un farmaco anti-depressivo

Grado di correlazione Le relazioni si distinguono a secondo del grado di correlazione –Elevato grado di correlazione (punti vicini alla “linea di regressione”) –Basso grado di correlazione (punti lontani dalla “linea di regressione”) Elevato grado di correlazione Basso grado di correlazione

Utilizzo della correlazione Previsione: previsione del valore di una variabile target in base al valore di una variabile predittore Validazione: confronto fra i risultati di un test nuovo e i test già noti Affidabilità: replicabilità degli esperimenti/test Verifica di previsioni teoriche: verifica di un rapporto previsto fra due variabili

La correlazione di Pearson

Correlazione e verifica di ipotesi Obiettivo: determinare se esiste o non esiste una correlazione nella popolazione –H 0 : non esiste una correlazione fra la variabile X e la variabile Y –H 1 : esiste una correlazione statisticamente significativa fra la variabile X e la variabile Y –Quanto è ‘intensa ‘ la Correlazione ?

Correlazione e verifica di ipotesi /2 Il valore critico del coefficiente di correlazione per un determinato valore di alfa e un determinato valore di GdL si determina in base ad un’apposita tabella Se il valore di r è inferiore al valore critico si accetta H 0 Nel caso contrario si accetta H 1

La regressione /1 Tecnica per l’individuazione di un’equazione che descrive una relazione lineare fra due variabili Tale equazione è rappresentabile come retta (linea di regressione) Retta di regressione y= a+bx

La regressione /2 L’analisi di regressione consente di: –Visualizzare (facilitare la comprensione) della relazione fra due variabili –Individuare la tendenza centrale della relazione (così come la media) individua la tendenza centrale per un insieme di osservazioni –Prevedere il valore di Y per un X ignoto (interpolazione/estrapolazione) Interpolazione Estrapolazione (pericoloso!!)

Le equazioni lineari /1 “Inclinazione” della linea di regressione, coefficiente b Intercetta: Valore di Y per X=0

…permettete ???? Se avete una idea sperimentale :…. Scrivete il lavoro, Con le tabelle in bianco !!! considerate, con modestia : - il campione necessario - cosa volete misurare - la tipologia di variabili + missing - la precisione delle misure/dati - Il tipo di risultati attesi - i metodi descrittivi - qualche analisi sheet&pencil - Se volete lo statistico interpellatelo PRIMA dell’inizio C in  C out Statistica Legge di Cochrane