PROBABILITA : se un EVENTO si verifica in h modi diversi su n possibili (POPOLAZIONE) p = h/n Questa definizione è talvolta applicabile a priori (es. lancio.

Slides:



Advertisements
Presentazioni simili
Elementi di calcolo delle probabilità
Advertisements

ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
DISTRIBUZIONE BINOMIALE (cenni) DISTRIBUZIONE NORMALE
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
Variabili aleatorie discrete e continue
La probabilità.
Scale di misura delle variabili
LA DISTRIBUZIONE NORMALE
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Distribuzione degli Errori di Misura
Inferenza statistica per un singolo campione
Esercizi x1=m-ts x2=m+ts
Distribuzione degli Errori di Misura La distribuzione normale Johann Carl Friedrich Gauss ( )
DALL'INTERVALLO DI PROBABILITÀ
ISTOGRAMMI E DISTRIBUZIONI:
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Distribuzioni di probabilità
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 4: La funzione di Gauss
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
STATISTICA a.a DISTRIBUZIONE BINOMIALE (cenni)
Esercizi x1=m-ts x2=m+ts
Valutazione della stima: gli intervalli di confidenza
Concetti legati all’incertezza statistica
Lezione 4 Probabilità.
Popolazione campione Y - variabile casuale y - valori argomentali Frequenza relativa: Estrazione Densità della classe i-esima: Lezione 1.
Lezione 4 Probabilità.
PROBABILITÀ La probabilità è un giudizio che si assegna ad un evento e che si esprime mediante un numero compreso tra 0 e 1 1 Evento con molta probabilità.
Teorie e Tecniche di Psicometria
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simboli usati popolazione: media = μ deviazione standard = σ
STATISTICA CHEMIOMETRICA
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
è … lo studio delle caratteristiche di regolarità dei fenomeni casuali
Intervalli di fiducia.
PROBABILITA’ Scienza che studia i fenomeni retti dal caso EVENTO (E): avvenimento che può accadere oppure no 1.certo: se si verifica sempre (es. nel lancio.
Corso di Analisi Statistica per le Imprese
Esercizi Determinare la probabilità che, lanciando due dadi da gioco, si abbia: A: somma dei risultati maggiore di 10 B: differenza dei punteggi in valore.
“Teoria e metodi della ricerca sociale e organizzativa”
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Intervalli di confidenza
Distribuzioni di probabilità di uso frequente
La curva di Gauss Prof. Marco Lombardi.
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
La distribuzione campionaria della media
Elaborazione statistica di dati
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Elementi di teoria delle probabilità
PROBABILITA’ : se un EVENTO si verifica in h modi diversi su n possibili (POPOLAZIONE) p = h/n Questa definizione è talvolta applicabile ‘a priori’ (es.
1 Statistica Scienza dell’incertezza PROBABILITÀ ALLA BASE DELL’INFERENZA Ipotesi VERA o FALSA? Campionamento Analisi statistica Scelta di una delle due.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Elementi di statistica e probabilità Misure Meccaniche e Termiche - Università di Cassino 2 Eventi aleatori e deterministici Un evento aleatorio può.
Elementi di teoria della probabilità e distribuzioni di probabilità.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Introduzione alle distribuzioni di probabilità di Gauss o normale di Bernoulli o binomiale di Poisson o dei casi rari.
Probabilità Definizione di probabilità La definizione di probabilità si basa sul concetto di evento, ovvero sul fatto che un determinato esperimento può.
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

PROBABILITA : se un EVENTO si verifica in h modi diversi su n possibili (POPOLAZIONE) p = h/n Questa definizione è talvolta applicabile a priori (es. lancio della moneta), ma più spesso a posteriori, dopo un numero molto elevato di prove (è il caso della distribuzione normale,..)

DISTRIBUZIONI DISCRETE DI PROBABILITA : 1) lancio di moneta: p(testa) = p(croce) = 1/2 2) lancio di dado: p(1)=p(2)=…….=1/ /6

3) lancio di 2 dadi: in questo caso la distribuzione di probabilità NON E uniforme: /36

Oltre a definire la probabilità di un evento, è possibile definire la PROBABILITA CUMULATIVA di ottenere un valore della variabile casuale x minore od uguale ad k: es p(x<4) = F(4)= p(1)+….+p(4)= 1/36+2/36+3/36=7/36

DISTRIBUZIONI CONTINUE DI PROBABILITA In questo caso la variabile casuale assume valori con continuità in un certo range. E una situazione tipica di molti procedimenti di misura (in fisica, biologia,…) in cui le letture vengono eseguite con strumenti di sufficiente sensibilità. La funzione di probabilità si esprime in genere tramite lequazione di una curva, mentre la probabilità cumula- tiva rappresenta larea sotto la curva.

Caso 1: le curve di sopravvivenza….

….. vengono descritte con una distribuzione esponenziale P(x)=1/ exp(-x/ ) F(x)=1-exp (-x/ ) dove è la VITA MEDIA: Es: Se la vita media dei pazienti dopo linsorgere dei primi sintomi di una malattia è di 2 anni, qual è la probabilità che un certo paziente sopravviva 6 mesi? E 10 anni? P(t>0.5 anni) = 1-F(0.5) = exp(-0.5/2)= p(t>10 anni) = 1-F(10) = exp(-10/2)=0.07

Caso 2: le misure ripetute su una popolazione…...

Si tratta di una curva con due parametri: la media, che individua il massimo della curve, e la standard deviation che rappresenta la emilarghezza a metà altezza (o punto di flesso). Larea sottesa dalla curva vale 1 ( 100% di probabilità). Un dato che appartenga ad una popolazione gaussiana ha: il 95% di probabilità di trovarsi compreso tra: e il di probabilità di trovarsi compreso tra: e :

se scommetto che un certo dato appartenga alla popolazione e il dato rientra nell intervallo e ho il 95% di probabilità di azzeccarci e il 5% di probabilità di sbagliare, viceversa se scommetto su di un dato che non appartiene allintervallo ho il 5% di probabilità di azzeccare e il 95% di probabilità di sbagliare!.

variabile casuale ridotta o standardizzata: z=(x- ora la media è 0 e la standard deviation è 1, e la probabilità cumulativa è tabulata. p(-1<z<1) = p(-1.97<z<1.97) = 0.95 p(-2<z<2) = p(-2.58<z<2.58) = 0.99 p(-3<z<3) = z % 95% 99.7% E particolarmente conveniente fare un cambiamento di variabile:

Es: Sia y una variabile Normale con valor medio 1 e deviazione standard 3. Con quale probabilità sarà compresa tra -1 e 4? Z= (y-1)/3 p(-1<y<4) = p(-2/3<z<1)= p(0<z<2/3) + p(0<z<1)= = 0.5/ /2=0.59 Con quale probabilità sarà superiore a 4? P(y>4) = p( z>1)= 1-p(z<1)=1-p(-oo<z<0)-p(0<z<1)= = 1-1/2-0.68/2= = 1/2-0.34= 0.16 Con quale probabilità sarà superiore a 7? P(y>7)=p(z>2) =…..= 1/2-0.95/2=0.025 N.B: la probabilità del 2.5% è molto PICCOLA. Accetto un rischio di errore ( o LIVELLO DI CONFIDENZA)del 2.5% dicendo che y non è praticamente mai maggiore di 7.

ABBIAMO IMPARATO CHE: 1) ci sono variabili discrete e continue, 2) esistono distribuzioni di probabilità per queste variabili, 3) è possibile associare a intervalli di valori di queste variabili una probabilità, e viceversa, data una probabilità, determinare i limiti di variazione per le variabili.

Supponiamo ora di considerare una POPOLAZIONE, di cui sia nota la distribuzione di probabilità, e di estrarne un CAMPIONE. In che misura è rappresentativo della POPOLAZIONE? Per capirlo proviamo ad estrarre n campioni diversi costituiti ciascuno da k elementi. Per ciascun campione possiamo calcolare un certo numero di PARAMETRI che ci serviranno per il confronto con la POPOLAZIONE. I più usati sono: - la media - la varianza

Detti x 1, x 2,…..x k gli elementi del campione i-esimo definiamo la media campionaria : xm = (x 1 +x 2 + x k )/k e la varianza : s 2 = ((x 1 -xm) 2 +(x 2 -xm) 2 + (x k -xm) 2 )/(k-1) Dagli n campioni avremo: xm 1,xm 2,…….xm n e s 2 1, s 2 2,…….. s 2 n.

Soprattutto nel caso di distribuzioni non simmetriche vengono anche usate la mediana, o 50° percentile, e il 25° e 75° percentili, che corrispondono rispettivamente ai punti che dividono la popo- lazione in due parti uguali, in un quarto superiore e in un quarto inferiore. Nel caso della distribuzione gaussiana si usano talvolta i: 2.5 ° percentile 16 ° percentile 50 ° percentile (mediana) 84 ° percentile 97.5° percentile

Un teorema fondamentale della statistica afferma che: la media delle medie ottenute dai campioni xmm= (xm 1 +xm 2 +…..+xm n )/n coincide con la media della popolazione, e che la varianza stimata s 2 m= ((xm 1 -xmm) 2 +…..+(xm k -xmm) 2 )/(n-1) coincide con 2 /n

In altri termini, estratto un campione da una popolazione normale di media e varianza 2, la media del campione xm è distribuita normalmente, con media e varianza 2 /n ossia che la variabile ridotta z= (xm- )/( n è distribuita in modo normale con media 0 e varianza 1!

Si tratta di un teorema di enorme portata perché ci dice che - qualunque sia la distribuzione (nota) della popolazione -qualunque sia il campione che estraggo dalla popolazione mi basta calcolare il suo valore medio per conoscere la probabilità che il campione appartenga alla popolazione (dunque, in un certo senso, la sua rappresentati- vità! Di qui lidea di eseguire un TEST sul campione (test Z).

E diventato convenzionale eseguire il TEST z definendo: - lIPOTESI NULLA: IL CAMPIONE APPARTIENE ALLA POPOLAZIONE OVVERO la differenza tra campione e popolazione è dovuta al caso

- il LIVELLO DI CONFIDENZA p, normalmente assunto pari alla probabilità 0.05 o 0.01 con cui si ACCETTA lipotesi nulla (p(z) > p) ovvero si RIFIUTA (p(z) < p).

Sappiamo già che il valore trovato, se appartiene alla popolazione, ha il 95% di probabilità di trovarsi compreso tra e 1.96 : questi valori rappresentano lintervallo di confidenza al 95%. I valori che stanno fuori dellintervallo hanno una probabilità pari al 5% di appartenere alla popolazione: con questo livello di confidenza posso scommettere che il dato non appartiene alla popolazione.

Es : E noto che il tempo di sopravvivenza ad un tumore è descritto da una distribuzione esponenziale con =38.3 mesi e mesi Un gruppo di pazienti affetti da quel tipo di tumore viene sottoposto a terapia, e per essi la vita media è pari a 46.9 mesi. La terapia è efficace al livello di confidenza dell 1%? Z= (x m - )/( n p(z)= >0.01 la probabilità di ottenere PER CASO questo valore è maggiore di p, dunque accetto lipotesi nulla : il campione appartiene alla popolazione: la terapia NON E efficace.

Qual è il significato del livello di confidenza? Quanto è realmente AFFIDABILE il test? P è la probabilità di sbagliare affermando che il trattamento è efficace quando in realtà non lo è (un caso su 20 o un caso su 100, a seconda della scelta). Si dice che corrisponde allerrore di primo tipo, o. E però possibile anche lerrore opposto, ossia il considerare inefficace una terapia che lo è: errore di secondo tipo o Oltre a p, gli altri fattori importanti per la determinazione di sono: 1) la dimensione del campione 2) lentità delleffetto che si vuole rilevare e la variabilità della popolazione.

Il seguente esempio dimostra bene la dipendenza di, o alternativamente della POTENZA P=1- dai fattori prima visti. Si è somministrato un farmaco EFFICACE, che aumenta la diuresi in modo noto, ad una popolazione di 200 pazienti. Si sono estratti dei campioni e si è effettuato il test, valutandone la potenza, al variare di alcuni parametri.

Caso 1: aumento medio della diuresi di 200 ml/g, campioni di 10 pz prendendo p=0.05 it test ha affermato lefficacia del farmaco in 111 casi su 200: =( /200)=89/200=45%, P=0.55; prendendo p=0.01, soltanto più in 89 casi: =111/200=55%, P=0.45. DUNQUE SCEGLIERE UN LIVELLO DI CONFIDENZA P PIU GRANDE MIGLIORA LA POTENZA

Caso 2: p=0.05 campioni di 10 pz fornendo ai pazienti una dose di farmaco che induce un aumento di 200 ml/g di urina, lefficacia è risultata in 111 casi, ma fornendo una dose doppia, con un effetto doppio, lefficacia è risultata in 198 casi, P DUNQUE UN EFFETTO MAGGIORE DI PER SE PRODUCE UNA MAGGIOR POTENZA

Caso 3. Infine, scegliendo ancora p=0.05 e una singola dose, si è passato a considerare campioni di 20 pazienti. In questo caso il farmaco è risultato efficace in 174 casi su 200, dunque P=87%. INFINE, CAMPIONI PIU NUMEROSI AUMENTANO LA POTENZA DEL TEST.

Gli epidemiologi definiscono gli errori e nel contesto dei test diagnostici usando anche altri termini: Se la malattia cè, la probabilità che il test diagnostico sia positivo è detta SENSIBILITA del test. (coinciderebbe con la ns POTENZA) 1-sens = % di falsi negativi Se la malattia non cè, la probabilità che il test diagno- stico sia negativo è la SPECIFICITA del test. (coinciderebbe con la ns 1-p). 1-spec= % di falsi positivi

Abbiamo imparato: -il concetto di popolazione e di CAMPIONE - il concetto di IPOTESI NULLA - il concetto di LIVELLO DI CONFIDENZA -gli errori di primo e secondo tipo e la POTENZA di un test.

IL TEST DI STUDENT (t-test) Supponiamo di avere una variabile aleatoria QUANTITATIVA ( UN NUMERO!!) e di considerare un campione estratto da una popolazione GAUSSIANA di cui è noto il valore medio detto xm il valore medio del campione, n la sua dimensione e s la deviazione standard:

Si può dimostrare che la variabile Non segue una distribuzione gaussiana se non per n molto grande. Negli altri casi la forma della distribuzione dipende dal numero di gradi di libertà = n-1 ed è nota come curva di Student. Fissato un valore di p sarà pertanto possibile sottoporre a test lipotesi nulla.

Es: Si ritiene che il periodo di guarigione dopo un dato intervento sia 30 gg. Un test condotto su 16 pazienti sottoposti ad una nuova terapia fornisce xm=28 gg con s=3 gg. La nuova terapia è efficace al livello di confidenza del 5%? T= (28-30)/(3/4)=2.56 controllando le tabelle corrispondenti a =16 si ottiene un valore limite al 5% pari a t*=1.75<t Siamo pertanto autorizzati a rifiutare lipotesi nulla, affermando che la terapia è efficace.

IL TEST t PER IL CONFRONTO DI CAMPIONI Caso sperimentazione-controllo Siano dati due campioni provenienti da una popolazione gaussiana: C1=(n1,xm1,s1) C2=(n2,xm2,s2) se usiamo come parametro la DIFFERENZA, avremo che la media stimata sarà pari a xm1-xm2

Mentre, essendo lipotesi nulla quella che i campioni provengano dalla stessa popolazione, la differenza tra le medie delle popo- lazioni sarà 0. Quanto allerrore standard, si assume che sia pari a:

In definitiva dunque si studia la variabile: Usando la distribuzione di Student corrispondente a è possibile testare lipotesi nulla al livello di confidenza prescelto.

Es: Quale anestetico deprime meno la pressione arteriosa? Si confrontano due gruppi: 61 pz operati usando ALOTANO p=66.9±12.2 mmHg 61 pz MORFINA p= 73.2 ±14.4 La differenza è significativa al 5%? =2x61-2=120 s=sqrt((60x(12.2) 2 +60x(14.4) 2 )/120)=13.34 mmHg t=( )/(13.34sqrt(2/61))=2.61 Il valore limite corrispondente è pari a t*=1.98<t lipotesi nulla va rifiutata: la morfina è migliore.

Caso pre-post trattamento (paired t-test) Potrei procedere come prima, ma il test è più sensibile se si tiene conto delle variazioni del valore della variabile aleatoria nello stesso individuo (non cè il mascheramento dovuto alla variabilità tra individui) In questo caso conviene assumere come variabile stimata il valore medio delle differenze pre-post trattamento, come valore della popolazione si assume 0 (i due gruppi appartengono alla stessa popolazione, quindi non cè differenza!) e come errore standard quello calcolato sulle differenze:

Dunque: Il numero di gradi di libertà sarà =n-1.

Esempio: Si misura la resistenza polmonare di un gruppo di ipertesi polmonari prima e dopo trattamento con idralazina. Pzprepostdd-dm facendo i calcoli: dm=9.85; s=5.20 dunque t=9.85/2.6=3.79; =3 il valore limite con p=0.01 è pari a t*=5.841>t devo accettare lipotesi nulla. Con p=0.05 invece no (t*=3.182)

LIMITI DEL TEST: -NON VA BENE QUANDO SI CONFRONTANO PIU DI DUE CAMPIONI (occorre apportare correzioni: t di Bonferroni, t di Student-Neumann-Keuls) oppure USARE ANOVA -NON VA BENE SE LA POPOLAZIONE NON E GAUSSIANA Si usano metodi basati sui RANGHI

Quando non si è certi della distribuzione gaussiana della popolazione da cui si estrae il campione, si ricorre ai cosiddetti metodi NON PARAMETRICI. Tra i più usati vi sono quelli basati sui RANGHI, ossia sulla possibilità di attribuire un punteggio (rank) ai diversi valori assunti dalle variabile, nel confrontare il valore totale dei ranghi con tutte le possibilità e nel calcolare la probabilità che compete al totale effettivamente ottenuto. Lequivalente del t-test per dati non appaiati si chiama test di Mann-Whitney, quello per i dati appaiati si chiama test di Wilcoxon. Vediamoli con degli esempi:

Test di Mann-Whitney Consideriamo due gruppi: controllo (placebo) e trattamento (diuretico) e valutiamo lka diuresi giornaliera: CONTROLLO: DIURETICO: attribuiamo il rango a partire dal più basso:avrò una variabile rango variabile tra 1 e 7.

Consideriamo i totali dei ranghi: CONTROLLO: Tcon=9 TRATTAMENTO: Ttrat=19. Tcon è significativamente più basso (p=0.05)? Vediamo in quanti modi posso sommare 3 ranghi compresi tra 1 e 7: Il coefficiente binomiale di 7 su 3 vale 35: ho 35 modi diversi di combinarli: simmetrico

La probabilità di ottenere un valore estremo, ad es T=6 oppure T=18,è pari a 1/35, quindi la probabilità di ottenere T<=7 vale 2/35=5.7%. Ne deriva che T*=7. Poiché per noi Tcon=9>T* accetto lipotesi nulla. Non posso concludere che la differenza sia significativa. Se i campioni sono grandi esistono degli algoritmi più efficienti, ma basati sul medesimo principio.

Esempio di test di Wilcoxon. Supponiamo di considerare un caso pre-post trattamento sempre relativo alla diuresi giornaliera: soggettoprepostdiff R ATTRIBUIAMO I RANGHI CON SEGNO ALLE DIFFERENZE.

Poiché i ranghi vanno da -6 a +6,il loro totale può variare tra =21 a =-21, e il numero di possibilità è 64. Nel nostro caso abbiamo trovato W=-13. Poiché cè un unico modo di ottenere -21 e -20 e due modi di trovare -19, e dunque P(W<=19)=4/64=6.25%, possiamo assumere W*=-19. Poiché W<W* accettiamo lipotesi nulla: la differenza non è significativa. Per campioni numerosi si usano algoritmi più pratici, ma basati sulla medesima logica.

ABBIAMO IMPARATO CHE: 1) se vogliamo confrontare due campioni provenienti da una popolazione gaussiana usiamo il test di Student, mentre se non siamo sicuri che la popolazione di provenienza sia gaussiana usiamo i test non parametrici 2) usiamo test diversi a seconda che confrontiamo due campioni distinti oppure lo stesso campione prima e dopo un dato trattamento. Nel caso del test di Studenti distinguiamo tra dati appaiati e non, nel caso non parametrico tra test di Mann-Whitney e test di Wilcoxon.