La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa.

Presentazioni simili


Presentazione sul tema: "Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa."— Transcript della presentazione:

1 Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico

2 Biostatistica : Statistica applicata alla ricerca biologica •Testo di riferimento: Metodi Statistici per la Sperimentazione Biologica A.Camussi,F.Moller, E.Ottaviano,M.Sari Gorla Zanichelli Editore

3 Biostatistica : Statistica applicata alla ricerca biologica •Calcoli elementari possono esser svolti con normale foglio elettronico(p.e. excel) •Software di Calcolo(dedicato alla Statistica): The R Project for Statistical Computing

4 Biostatistica : Statistica applicata alla ricerca biologica Programma del corso •Statistica descrittiva (Cap.1) •Nozioni del calcolo delle probabilità(Cap. 2 ) •Campionamento •Stima di parametri di distribuzioni •Test delle ipotesi •Analisi della varianza •Il modello di regressione lineare •Dati Categoriali

5 Biostatistica : Statistica applicata alla ricerca biologica  Orari Lezioni: •Lunedi Aula D4 Polo Fibonacci(Lezione Frontale) •Giovedi Aula D4 Polo Fibonacci(Lezione Frontale) •Venerdi Aula H-Lab Polo Fibonacci(Esercitazione)  Ricevimento studenti: da definire

6 Progetto di ricerca :Varicella •Infezione causata dal virus “VZ”, famiglia degli herpes virus 3 (HHV-3). •Prevalentemente “dell’infanzia”. •Trasmissione per contatti diretti con soggetti infettivi. •Durata fase infettiva circa 7 giorni. •Immunità permanente dopo la guarigione. •Il virus resta però latente nel corpo e, quando il grado di immunocompetenza inizia a declinare con l’età, può riattivarsi “endogenamente” causando l'herpes zoster (“fuoco di Sant'Antonio”).

7 Progetto di ricerca : Dati sierologici •Dato più comune per infezioni con immunità permanente (es. morbillo, varicella, parotite). •Dato “current-status”: osserva lo stato immunologico corrente dell’individuo campionato (mediante esame della titolazione anticorpale IgG nel sangue) •VA dicotomica (0=suscettibile all’infezione,1=immune, come conseguenza di passata infezione). •Campione sierologico: campione cross-sezionale che stima la prevalenza di immuni per classi di età nella popolazione al tempo t. Varicella in Italia: •campione sierologico ESEN 2 (2004) •n=2446 individui, •stratificato per classi d’età annuali

8 Introduzione 1: Diagnosi Medica e Logica Statistica  Paziente = Unità di osservazione  Rilevamento dati  Temperatura corporea = dato quantitativo  Presenza/Assenza di una certa sintomatologia = dato qualitativo  Confronto con valori normali o patologici (parametri di popolazione)  Relazione con altre caratteristiche rilevate sullo stesso soggetto  Diagnosi sullo stato di salute del paziente (Decisione) •Altri esempi  Effetto del fumo sull’incidenza dei tumori polmonari  Efficacia di un certo dentifricio per la prevenzione della carie  Guarigione del raffreddore ottenuta con l’impiego di un certo prodotto farmaceutico

9 Introduzione 2:Considerazioni Analisi non rigorose → Affermazioni fuorvianti Affermazione 1: “Il prodotto X è particolarmente efficace contro il raffreddore: su 100 pazienti trattati,ben 95 hanno mostrato completa remissione della malattia dopo una settimana di cura” Osservazione: L’affermazione è poco v erificabile dato che,dopo una settimana il raffreddore passa comunemente anche senza nessun trattamento! Affermazione 2 : “Il 75% degli intervistati ha dichiarato di essere favorevole ad un certo partito politico” Osservazione: Il risultato non è attendibile se la numerosità del campione è piccola rispetto alla popolazione degli aventi diritto al voto ed inoltre non sappiamo nulla sulla composizione del campione (è rappresentativo dell’intera popolazione?)

10 Introduzione 3:Biometria - Metodologia Statistica •Definizione del problema •Formulazione ipotesi precisa •Organizzazione dell’esperimento adatto a verificarla  Il rilevamento deve essere basato su criteri precisi •Analisi dei dati ottenuti  I dati grezzi devono essere sintetizzati per poter essere interpretati •Valutazione Errore Sperimentale :insieme delle variazioni dovute a fattori non controllati  Gli effetti dell’errore sperimentale si sovrappongono a quello del fattore di studio Esempio - Studio dell’efficacia di un nuovo farmaco •L’effetto misurato sul singolo soggetto dipende non soltanto dalle caratteristiche del principio attivo impiegato,ma anche dalle condizioni del paziente in termini di età,stadio della malattia,malattie pregresse, modalità di somministrazione (fattori di disturbo). •Disegno sperimentale adeguato: valutazione dell’efficacia del farmaco,indipendentemente da tutti gli altri fattori.

11 Introduzione 4:Branche della statisitica •Statistica descrittiva : Insieme delle tecniche per:  la rappresentazione grafica dei dati,  la sintesi dei dati grezzi in pochi numeri-indice particolarmente informativi,per esempio una media aritmetica o una mediana (spesso è la base per condurre un’analisi inferenziale) •Statistica inferenziale : Insieme delle tecniche per definire le caratteristiche di una popolazione,della quale non si può avere una conoscenza esaustiva,attraverso lo studio di un campione da essa estratto. Esempio : Efficacia di un farmaco ipotensivo Il farmaco è somministrato ad un campione di soggetti ipertesi : viene misurato la variazione della pressione arteriosa dopo il trattamento. La descrizione accurata delle caratteristiche del campione porta a delle conclusioni che possono essere applicate ad altri soggetti (popolazione costituita da tutti i soggetti ipertesi),anche se essi non potranno essere singolarmente studiati Considerazioni : Il capionamento è necessario(elevato costo) Campione di controllo a cui è somministrato ‘Placebo’ (Disegno sperimentale Caso- Controllo)

12 Statistica Descrittiva 1:Insieme e Variabile •Descrizione dei fenomeni quantitativi e qualitativi osservati •Insieme (‘Popolazione’): collezione di qualsiasi tipo di oggetti,individui,animali,piante,fenomeni che presentano almeno una caratteristica comune  (Biologia): gli elementi di una categoria tassonomica,una specie,un genere.  (Medicina): gruppi di sintomi che costituiscono una sindrome o i pazienti ricoverati in un reparto ospedaliero.

13 Statistica Descrittiva 2:Insieme e Variabile •Variabile : entità logica,caratteristica che può assumere diversi valori,i quali costituiscono quindi un insieme •Variabile qualitativa: la caratteristica varia qualitativamente secondo le modalità con cui può presentarsi:  Colore del mantello di un animale,  Forma della foglia di una pianta •Variabile quantitativa : la caratteristica è misurabile in termini quantitativi.  Discreta se assume valori isolati;  numero di ammissioni giornaliere in un ospedale;  numero di colonie batteriche su una piastra  Continua se assume tutti i possibili valori reali in un certo intervallo ; –Peso, Taglia degli individui di una colonia di foche ; –Età degli individui di una popolazione. –Temperatura.

14 Un po’ di esempi •Gruppi sanguigni in un gruppo di individui di razza caucasica. •Valutazione della risposta all’applicazione di un farmaco ad n pazienti. •Indici di tendenza centrale e grafici per un campione di piante di mais di diverse varietà ed altezze. •Votazione riportata all’esame di genetica di un campione di studenti. •Peso di un campione di polli da da allevamento

15 •Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149 individui di una popolazione caucasica.

16 Dati Qualitativi (Scala di Misura Nominale) xixi ABAB0 n i p i * •Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149 individui di una popolazione caucasica. •Scala Nominale: i dati costituiscono delle “etichette” •Per descrivere i dati si raggrupano in classi, in ognuna delle quali sono raccolte tutte le osservazioni che presentano la stessa caratteristica. ottiene la proporzione (o la percentuale ) degli elementi che presentano l’attributo. •Altri esempi: il carattere “sesso” in una popolazione sessuata, etc.

17 Statistica Descrittiva: Frequenze assolute e relative •Si indica con X la variabile e con x 1, x 2, x 3,……,x n, i singoli valori assunti dalla variabile X, dove n è il numero di osservazioni : un generico membro del gruppo di osservazioni è indicato con x i, dove i=1…..n. •Frequenze Assolute:se in un campione sono presenti più elementi con lo stesso valore(misura),il loro numero è indicato con n i. •Frequenze relative(proporzioni) p i :valore compreso tra 0 e 1.

18 (Dati Qualitativi) Scale di Misura Ordinali •Scala ordinale: E’ possibile assegnare ad ogni osservazione un valore numerico,un punteggio arbitrario che dà ordine alla classificazione. Criterio di classificazione Punteggio o ‘SCORES’ x i Frequenze Ass. n i Freq. Relative. p i Freq. Perc. (%) Peggioramento Nessuna Var. Lieve Miglior. Miglioramento Guarigione % 4% 15% 52% 26% •Esempio: Valutazione della risposta all’applicazione di un farmaco ad n pazienti.

19 Dati Quantitativi. •Scala numeriche:Possono essere scale per intervalli oppure per rapporti.  La scala per intervalli è adatta a descrivere fenomeni in cui l’origine dell’unità di misura è scelta arbitrariamente (es: temperatura)  La scala per rapporti è invece riferita a fenomeni che presentano un’origine naturale. •Esempio (Scala numerica per intervalli):Temperatura corporea di un campione di 10 soggetti espressa in gradi centigradi e Fahrenheit. Soggetto° Celsius° F

20 Esempio scala numerica per intervalli (temp. °C e °F) •Per le 2 serie ha senso fare le differenze tra le misurazioni (consideriamo i soggetti 3,4,9 ) Differenze tra soggetti°C°F 9 e 3 3 e = = = =0.72 •La differenza di temperatura tra i soggetti 3 e 4 è il doppio di quella tra i soggetti 9 e 3 per entrambe le scale, mentre per i rapporti si nota che tale uguaglianza non sussiste ! Rapporto tra soggetti°C°F 9 e 3 3 e /36.8= /36.4= /98.24= /97.52=1.007

21 Scala numerica continua per rapporti  Esempio: Valori di glicemia in un campione di 10 soggetti sani,espressi in mg di glucosio per 100 ml di sangue. soggettomg/ml

22 Scala numerica discreta  Esempio: Numero delle aree di necrosi sulle foglie di 10 piante affette da virosi. piantan. aree=X

23 Distribuzioni di frequenza: tabelle e grafici di frequenza •La frequenza assoluta è il numero degli individui che presentano una certa misura (per un carattere quantitativo) o una certa modalità (per un carattere qualitativo).  Esempio, se su 500 insetti 100 sono eterotteri, 200 sono imenotteri e 150 sono ortotteri, possiamo concludere che la frequenza assoluta degli eterotteri è pari a 100. •Con variabili quantitative su scala continua, prima di calcolare le frequenze è necessario suddividere l’intervallo delle misure in una serie di classi di frequenza.  Esempio, se abbiamo considerato 3000 piante di mais ed abbiamo osservato che 115 hanno altezze comprese tra 150 e 155 cm, possiamo conclude che la frequenza degli individui della classe cm è pari a 115. •Le frequenze relative, che si calcolano dividendo le frequenze assolute per il numero totale degli individui del collettivo.  Esempio,la frequenza relativa degli eterotteri è pari a 100/500, cioè 0.2, mentre la frequenza relativa degli individui nella classe è pari a 115/3000, cioè

24 Distribuzioni di frequenza: tabelle e grafici di frequenza 2 •Con una variabile quantitativa o comunque una variabile nella quale le modalità o le classi di frequenza possono essere logicamente ordinate, oltre alle frequenze assolute e relative possiamo prendere in considerazione le cosiddette frequenze cumulate, che si ottengono cumulando i valori di tutte le classi di frequenza che precedono quella considerata.  Esempio se tra le 3000 piante di mais anzidette 224 hanno altezze comprese tra 155 e 160 cm, la frequenza cumulata della classe è pari a = 339, che si ottiene sommando alla frequenza assoluta di classe la frequenza assoluta della classe precedente. •Aggregare i dati in forma di distribuzioni di frequenza è estremamente conveniente, perché la lettura delle informazioni in essi contenute è molto più facile! Il prezzo da pagare è una lieve perdita di informazione, come sarà chiaro nell’esempio seguente.

25 Esempio (Distr. Freq.,Grafici e Tabelle di Freq.) •In un campo di mais sono state rilevate su 20 piante le altezze e la varietà di ciascuna pianta. Numero PianteVarietàAltezza(cm) 1N172 2S154 3V150 4V188 5C162 …….….….. ……..…… ……. …… 16C163 17V148 18S152 19C169 20C185

26 Esempio (Distr. Freq.)2 •1 - valutare la distribuzione delle frequenze assolute, relative e percentuali degli individui di ciascuna varietà; •2 - valutare la distribuzione delle frequenze assolute, relative, percentuali assolute cumulate dell'altezza di tutti gli individui; •3 - Disegnare la torta delle frequenze relative della varietà e l'istogramma delle frequenze assolute dell'altezza. VarietàCNSV Freq ass7634 Freq rel Freq perc Altezza(140,150](150,160](160,170](170,190](190,200] Freq ass45461 Freq rel Freq Perc Freq Cum

27 Output:Grafico a torta ed istogramma classi

28 Densità di frequenza • Le densità di frequenza rappresentano la frequenza associata a ciascun punto dell'intervallo della classe. Si cerca in questo modo di evitare che classi molto ampie abbiano frequenze più alte di classi più rappresentative, ma molto strette.  Esempio, se ho due classi di altezza, la prima da 160 a 165 cm e la seconda da 165 a 175 cm e ho 5 individui nella prima classe e 5 nella seconda, è chiaro che la seconda classe contiene lo stesso numero di individui della prima, ma è molto più ampia. Se usiamo le sole frequenze non riusciamo ad evidenziare questo fatto, ma se dividiamo la frequenza di classe per l'ampiezza dell'intervallo otteniamo appunto la densità di frequenza: d=n i /a i,dove a i è l’ampiezza della classe i Nota: In R il comando hist fa riferimento alle frequenze relative d=p i /a i

29 Esempio :Campo di Mais(Classi non equispaziate) •4 - Calcolare le densità di frequenza per l'altezza delle 20 piante e disegnarne i relativi istogrammi. Considerare le seguenti classi: ( ], ( ], ( ].

30 Distribuzioni o funzione di frequenza per variabili discrete Densità di frequenza(funzione di densità) per variabili continue

31 Distribuzioni Cumulative per variabili discrete •Si definisce funzione cumulativa delle frequenze o semplicemente funzione di distribuzione (o di ripartizione) la funzione : •Per variabili discrete la funzione di ripartizione si ottiene dalla funzione di frequenza come:

32 rappresenta la probabilità che la variabile statistica X cada nell’intervallo -∞,x ; quindi: Distribuzioni Cumulative per variabili discrete Graficamente F(x) rappresenta l’area sottesa alla curva dall’estremo di sinistra ( -∞ )della distribuzione delle frequenze relative,fino al valore x.

33 Esempio(funzione di frequenza e di ripartizione per varable discreta ) •Nel lancio di un dado i possibili valori di x sono: 1,2,3,4,5,6. La funzione di frequenza :

34 Misure di posizione (Indici di tendenza centrale). •Moda: valore della variabile cui corrisponde la massima frequenza per variabili discrete,la massima densità di frequenza per variabili continue.Se questo valore è unico la distribuzione è unimodale,bimodale se i picchi sono 2. •Mediana: il valore che permette di ripartire la distribuzione in 2 parti,in ciascuna delle quali cade il 50% delle osservazioni. Se il numero delle osservazioni è dispari ci sarà un unico valore mediano,ovvero il termine che occupa nella successione ordinata il posto di posizione (n+1)/2,se il numero di oss. è pari,per convenzione è la media delle 2 oss. centrali. •Medie: Le medie si calcolano sulle potenze k-esime delle osservazioni. Per k=1 si ha la Media Aritmetica.

35 Esempio (moda e mediana). Votazione riportata in una classe di 100 studenti all’esame di genetica xixi nini FiFi

36 •Moda=Mediana=26

37 La Media Aritmetica  Esempio E’ assegnato il peso (in Kg) rilevato su un campione di 10 polli di allevamento: [1.9, 2.2, 1.8, 2.5, 2.8, 3.0, 2.0, 2.6, 2.4, 2.0] insieme Definizioni:

38 Le Medie(3) •Se i dati sono raccolti in classi di frequenza la media può essere calcolata come (media aritmetica ponderata) :  Esempio: La variabile x i è il numero di colonie per piastra dopo inoculo con una sospensione batterica : xinixini Il numero medio di colonie per piastra è dato dalla media x=69/39=1.77

39 Le Medie(4) •Esempio: I valori relativi al peso di 38 polli vengono raggruppati in classi di frequenza : Classi Valore Centrale (x i ) Freq. Ass. (n i ) x i *n i •Il valore della media risulta approssimato rispetto ai valori ottenuti usando le misure originali •Per n abbastanza grande e distribuzioni tendenzialmente simmetriche,gli errori tendono a bilanciarsi •Se n è piccolo e la distribuzione non è simmetrica,è preferibile usare i dati originali per il calcolo del valor atteso


Scaricare ppt "Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa."

Presentazioni simili


Annunci Google