La statistica è difficile ! Ci vuole ‘un esperto’ !
Una p veramente significativa !
Perec G. Experimental Demonstration of the Lycopodium organization in the Cantatrix sopranica L. Am. J. Mus. Deficiency, 1999 : 7: 3-6. Statistical evaluation of the data was made using an iterative tennis-like algorithm (Wimbledon 1974), that is, every time a target was unbiasely centered, an inverse YR/2 correction factor was added to the regression analysis, including the dosage effect (Throw Strenght) as a continuous covariate correction.
Lycopodium persicum = Pummarola Stimulation !
Ma che cosa è veramente questa ‘p’ ? Probabilità della Ipotesi Nulla p di H o ove H o dice che : -casi = controlli -placebo = farmaco -test = non test opposto di H 1 che dice che c’è una differenza Ma se abbiamo che le probabilità sono p H o = 0.5 p H 1 = 0.5 p H o = 0.3 p H 1 = 0.7 p H o = 0.2 p H 1 = 0.8 p H o = 0.1 p H 1 = 0.9 p H o = 0.07 p H 1 = 0.93 p H o = 0.05 p H 1 = 0.95
PERCHE’ NON MI BASTA LA ‘p’ Il Disegno di uno studio NON parte da una applicazione formale di statistica, bensì dal Giudizio Clinico. Si definisce, in primis, un risultato, un punto d'arrivo, un esito (end point) In secundis si definisce quale e quanta differenza vogliamo essere capaci d'osservare tra i due gruppi d'intervento (Differenza nell'esito tra trattati e controlli), ancora Giudizio Sperimentale o Clinico Infine si chiede allo Statistico di calcolare il numero di casi e di controlli necessari per rispondere ai quesiti di cui sopra
Ma quale pppp ci vuole ??
SCIENZA O CARTA STRACCIA ? Il doppio cieco ‘non è etico’ Proporre terapie senza un trial controllato Piccoli numeri Fare sottogruppi Errore di II tipo Valutare solo ‘p’
La statistica comincia qui ! NOME___________________________________ Visita del: |_|_|_|_|_____| Sesso M/F Nato di |_|_|_|_|grammi a |_|_| sett. Al seno per |_|_|_| giorni. Svezzato a |_|mesi PESA |_|_|_|_|_| gr. cent |_|_| Alt. |_|_|_|, |_| cm cent |_|_| Peso/Alt. C. |_______| Cranio |_____| c.|_____| In un anno è cresciuto di |____| cm c.|_____| e |______| gr. c.|____| Archie Cochrane : Doctors sit on a mine of data !
Dimensione del Campione Potenza 1-β Significatività α Frequenza nei controlli N > 20/gruppo Sample Size on-line
Quattro tipologie di variabili o dati Variabili continue : da 0 a XXX –Età, altezza, distanza, glicemia, pressione ecc –Variabili categoriche o scalari : Livello di istruzione, intensità del dolore, stadio –Variabili Qualitative : Colore, lavoro, malattia, sintomi, provenienza –Variabili Binomiali : Sesso, Positivo si/no, Vero/Falso 1-2
Variabili Continue : età, altezza, glicemia, ratio, distanza Controlliamo che la distribuzione sia ‘accettabilmente ‘ Normale’ e via : –Media, Deviazione Standard, Errore Standard della Media –Differenza tra medie –t di Student –Analisi della Varianza –Regressione e Correlazione r di Pearson –Analisi multivariata
Variabili qualitative, binomiali, scalari sesso, si/no, dolore, grado di , Differenza tra Percentuali Chi Quadrato – test esatto di Fisher Rank Test : test di posizione su scala (Wilcoxon – Mann-Whitney ) Scalari : Correlazione di Spearman –Chi Quadrato per il trend
Il dato più importante: quello che non c’è !!! Per avere "dati puliti“ bisogna avere una spiegazione certa sui dati mancanti, (omessi, lasciati in bianco) La risposta può essere in bianco perché la domanda non è stata fatta, o non si è avuta una risposta o la risposta è negativa (nessuna malattia ad es.) o per altre ragioni legate (domanda non applicabile al bimbo)…. Dare un valore ai "casi mancanti". Potremo assegnare al mancante il valore di 0, perchè il dato è assente, 9 perchè "non si sa" e bianco per "domanda non posta". Dal momento che i calcolatori non distinguono lo 0 dal bianco, MAI MAI impiegare 0 e Bianco per i codici dei dati mancanti (preferire 9,8 99, a seconda della larghezza della casella dati, o -1 ecc.). Data nascita 99/99/9999 Sesso 9 Altezza 999,9 ecc
Strategia pratica in funzione della grandezza del campione : per ‘n’ in ciascun gruppo < 10: descrivere ‘con enfasi’ no ‘p’ : test non parametrici rank sum Chi Quadro, Wilcox, Mann-Whitney, Spearman > 20 : valutare la ‘normalità’ –Non accettabile : Test Non Parametrici –Accettabile : e… via ! T-test, ANOVA, Regressione, Correlazione, Multivariata
VARIABILI CONTINUE ‘NORMALI’ I dati si disperdono intorno ad un valore centrale, mediano, più frequente (moda), media matematica
Il grafico delle frequenze cumulative permette una facile visione dei percentili !
Gli Scarti : Non tutti i piedi sono uguali ! Gli scarti : tanti positivi, tanti negativi : la somma = 0 Basta elevare I valori al quadrato e la somma stimerà gli scarti
Dagli scarti dalla media: una facile derivazione DEVIANZA = Σ (m-x) 2 Somma dei quadrati degli scarti dalla media VARIANZA= Σ(m-x) 2 n-l Somma dei quadrati degli scarti rispetto ai gradi di libertà Deviazione Standard = √ Σ (m-x) 2 n-l La stessa somma dei quadrati degli scarti sotto radice quadrata per riportarci alla unità di misura iniziale
Ma è molto importante controllare la distribuzione !
Lecco, 15 dic 2005Francesco Ronzon 21 Deviazione Standard suoi effetti = 2 =3 =4
Media=Moda=Mediana ! Percentili ‘facili’ Percentili
ERRORE STANDARD DELLA MEDIA Più valori medi, di una stessa popolazione, si distribuiscono intorno ad un valore medio assoluto (e ignoto) con una distribuzione di tipo normale, è allora possibile avere una stima di quanto tendono a discostarsi dal valore medio assoluto. ERRORE STANDARD DELLA MEDIA = DEVIAZIONE STANDARD / √ n Nella pratica clinica (specie in chimica clinica) è spesso usato il coefficiente di variazione, che esprime il rapporto percentuale tra DS e media: COEFFICIENTE DI VARIAZIONE = (Deviazione Standard/media) x 100 Una delle caratteristiche fondamentali della distribuzione normale è che il 95% di tutta la popolazione è inclusa in un intervallo ottenuto sommando al valore medio 1.96 volte le DS e sottraendo al valore medio 1.96 volte la DS (circa 2 volte), cioè il 95% dei valori ricade tra x± 1.96 DS. L'intera popolazione può dunque essere descritta mediante la media e l'intervallo che contiene i valori della media meno o più 1.96 volte la DS. I limiti di confidenza della media (quei limiti che comprenderanno il 95% dei possibili valori medi di quella popolazione) saranno ottenuti dal valore medio più o meno 1.96 volte l'ESM. LIMITI DI CONFIDENZA (al 95%)= m ± 1,96 ESM
Ma è molto importante controllare la distribuzione ! Errore Standard della Media DS= VARIABILITA TRA INDIVIDUI ESM= PRECISIONE DELLA MEDIA DI UN CAMPIONE
Z-Score = m-x DS Altezza 124cm, media per l’età e sesso = 132cm, DS 4,5 Z-Alt = ( )/4,5 = - 1,77
La formulazione delle ipotesi La statistica non dice che “la popolazione A è certamente diversa da B" bensì "quanto è improbabile" che la popolazione A sia identica a quella B. Si tratta di rifiutare l'ipotesi nulla (detta anche Hypotesis Zero: H0) che sostiene che "non vi è alcuna differenza tra le due popolazioni": IPOTESI NULLA H0: A=B se l'ipotesi nulla ha meno del 5% di probabilità di essere vera, possiamo rifiutarla. L'abbiamo rifiutata con una probabilità (il famoso "p") inferiore al 5% (= 0.05). L'errore alfa o errore di primo tipo è l'area dei possibili risultati che ci inducono a respingere l'ipotesi nulla, anche quando essa possa essere vera L'errore beta o errore di secondo tipo è l'inverso: è l'errore di non respingere l'ipotesi nulla H0 quando infatti essa sia falsa, cioè l'incapacità a documentare la reale differenza che esiste tra A e B per problemi legati al metodo utilizzato
La differenza tra due medie: il t di Student Per dati non appaiati, due medie diverse A e B t = (mA-mB) S S= √( Devianza A+Devianza B) nA+nB-2 Per dati Appaiati abbiamo solo la Media delle Differenze ‘d’ t=d ∙ √ DS diff. 2 n
Genotipo del gene c-REL * Esito in celiaco CELIACOTotale potenzialeAtrofico AAOsservato91899 %5640 AGOsservato %3550 GGOsservato14216 %910 TotaleOsservato %100 Vediamo se un polimorfismo del gene c-REL del tipo AA è più frequente nei 20 soggetti /182 che sviluppano una atrofia della mucosa intestinale TABELLA DEI VALORI OSSERVATI
Genotipo del gene c-REL * Esito in celiaco CELIACOTotal potenzialeAtrofico AAOsservato91899 Atteso % AGOsservato Atteso60767 % GGOsservato14216 Atteso14216 %9109 TotalOsservato Atteso %100 Moltiplicando i totali di riga per quelli di colonna e dividendo per il gran totale abbiamo le frequenze attese in base al caso La differenza tra atteso- osservato è importante !
La statistica χ 2 Quando i valori osservati sono lontani da quelli attesi il valore di χ2 è elevato Quando i valori osservati sono vicini a quelli attesi il valore è basso
La distribuzione χ2 La tabella della distribuzione χ2 consente di identificare la zona critica per qualsiasi valore di gradi di libertà e per qualsiasi alfa (p) (Gdl= n. categorie – 1)
Il test più comune ma … SE avete piccoli numeri e solo 2x2 caselle usate il Test di Fisher p esatta Se avete più caselle (n x n es. 3 x 5 ) attenti che in nessuna vi sia un numero < 5 Se accade : accorpate caselle vicine
European Laboratory for Food Induced Research Federico II Non vi siete ancora annoiati ???
La correlazione: rappresentazione grafica Le due variabili si rappresentano come X e Y –Ascisse: X –Ordinate: Y Le osservazioni si rappresentano come punti sul piano cartesiano Eta e velocità di reazione
La correlazione: caratteristiche /1 Correlazione Negativa Correlazione Positiva
Forma della relazione Lineare (v. lucido precedente)(v. lucido precedente) Forme non-lineari –a flessione –logistiche Durata del sonno Effetto di un farmaco anti-depressivo
Grado di correlazione Le relazioni si distinguono a secondo del grado di correlazione –Elevato grado di correlazione (punti vicini alla “linea di regressione”) –Basso grado di correlazione (punti lontani dalla “linea di regressione”) Elevato grado di correlazione Basso grado di correlazione
Utilizzo della correlazione Previsione: previsione del valore di una variabile target in base al valore di una variabile predittore Validazione: confronto fra i risultati di un test nuovo e i test già noti Affidabilità: replicabilità degli esperimenti/test Verifica di previsioni teoriche: verifica di un rapporto previsto fra due variabili
La correlazione di Pearson
Correlazione e verifica di ipotesi Obiettivo: determinare se esiste o non esiste una correlazione nella popolazione –H 0 : non esiste una correlazione fra la variabile X e la variabile Y –H 1 : esiste una correlazione statisticamente significativa fra la variabile X e la variabile Y –Quanto è ‘intensa ‘ la Correlazione ?
Correlazione e verifica di ipotesi /2 Il valore critico del coefficiente di correlazione per un determinato valore di alfa e un determinato valore di GdL si determina in base ad un’apposita tabella Se il valore di r è inferiore al valore critico si accetta H 0 Nel caso contrario si accetta H 1
La regressione /1 Tecnica per l’individuazione di un’equazione che descrive una relazione lineare fra due variabili Tale equazione è rappresentabile come retta (linea di regressione) Retta di regressione y= a+bx
La regressione /2 L’analisi di regressione consente di: –Visualizzare (facilitare la comprensione) della relazione fra due variabili –Individuare la tendenza centrale della relazione (così come la media) individua la tendenza centrale per un insieme di osservazioni –Prevedere il valore di Y per un X ignoto (interpolazione/estrapolazione) Interpolazione Estrapolazione (pericoloso!!)
Le equazioni lineari /1 “Inclinazione” della linea di regressione, coefficiente b Intercetta: Valore di Y per X=0
…permettete ???? Se avete una idea sperimentale :…. Scrivete il lavoro, Con le tabelle in bianco !!! considerate, con modestia : - il campione necessario - cosa volete misurare - la tipologia di variabili + missing - la precisione delle misure/dati - Il tipo di risultati attesi - i metodi descrittivi - qualche analisi sheet&pencil - Se volete lo statistico interpellatelo PRIMA dell’inizio C in C out Statistica Legge di Cochrane