Elaborazione statistica di dati

Slides:



Advertisements
Presentazioni simili
8) GLI INTERVALLI DI CONFIDENZA
Advertisements

Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
LA VARIABILITA’ IV lezione di Statistica Medica.
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
Variabili casuali a più dimensioni
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DIFFERENZA TRA LE MEDIE
Processi Aleatori : Introduzione – Parte I
Distribuzioni di probabilità
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 4: La funzione di Gauss
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
Corso di biomatematica lezione 6: la funzione c2
STATISTICA a.a PARAMETRO t DI STUDENT
Esercizi x1=m-ts x2=m+ts
Valutazione della stima: gli intervalli di confidenza
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Popolazione campione Y - variabile casuale y - valori argomentali Frequenza relativa: Estrazione Densità della classe i-esima: Lezione 1.
PROBABILITÀ La probabilità è un giudizio che si assegna ad un evento e che si esprime mediante un numero compreso tra 0 e 1 1 Evento con molta probabilità.
METODI E CONTROLLI STATISTICI DI PROCESSO
Quale valore dobbiamo assumere come misura di una grandezza?
Le distribuzioni campionarie
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Simone Mosca & Daniele Zucchini 4Bi.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Gli indici di dispersione
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Il residuo nella predizione
Martina Serafini Martina Prandi
IL CAMPIONE.
“Teoria e metodi della ricerca sociale e organizzativa”
Test basati su due campioni Test Chi - quadro
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
La variabile casuale (v.c.) è un modello matematico in grado di interpretare gli esperimenti casuali. Infatti gli eventi elementari  che compongono lo.
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
La distribuzione campionaria della media
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Elementi di statistica e probabilità Misure Meccaniche e Termiche - Università di Cassino 2 Eventi aleatori e deterministici Un evento aleatorio può.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
ANALISI DEI SEGNALI Si dice segnale la variazione di una qualsiasi grandezza fisica in funzione del tempo. Ad esempio: la pressione in un punto dello spazio.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
A partire da determinate condizioni iniziali, un esperimento e’ l’osservazione del verificarsi di qualche “accadimento” che, se si ripete l’esperimento.
Introduzione alle distribuzioni di probabilità di Gauss o normale di Bernoulli o binomiale di Poisson o dei casi rari.
Gli Indici di VARIABILITA’
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Elaborazione statistica di dati

CONCETTI DI BASE DI STATISTICA ELEMENTARE

Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Per la presenza di errori casuali, ripetendo più volte la misura di una stessa grandezza, si può ottenere una serie di valori diversi.

Collaudo sistemi di produzione IPOTESI: accuratezza strumento di misura migliore della variabilità dei manufatti Una serie di valori di misure casualmente diverse può essere ottenuta anche misurando diversi elementi, nominalmente uguali, di una produzione industriale.

Esempio di serie di dati: Lo spessore di 110 dadi estratti dalla produzione di una macchina

Ogni serie di valori estratta dalla totalità dei valori possibili può essere considerato un campione. Esistono vari metodi per estrarre un campione che sia rappresentativo dell'universo. Qui si considerano 11 campioni estratti casualmente. Ciascun campione contiene 10 misure di spessore

Al sottoinsieme di “n” valori estratti dall’insieme dei valori possibili viene dato il nome di campione; l’intero insieme di dati “N” viene definito popolazione (o universo).

CAMPIONE 1 n x i   media m= x 1 n-1  i (x n  -x)2 varianza s2

La media gode della proprietà di rendere minima la somma dei quadrati degli scarti. Inoltre la somma algebrica degli scarti rispetto al valore medio è nulla.

La radice quadrata della varianza s, costituisce una stima della dispersione delle misure intorno al valore medio, al pari di s2, ma ha il pregio di avere le stesse dimensioni delle misure x.

I due parametri precedenti nel caso della popolazione, o universo composto di N elementi, si indicano con i simboli: 1 N    x i 2 (  2 )

I dati possono essere raggruppati in diversi modi I dati possono essere raggruppati in diversi modi. Una prima forma di raggruppamento si può osservare nella tabella.

Una forma di raggruppamento molto più usata e significativa è quella delle classi di intervalli di appartenenza, che non è necessario abbiano tutti la stessa ampiezza.

Raggruppando per intervalli: Frequenza Valore Frequenza Frequenza Densità di Limiti delle cumulata centrale assoluta percentuale frequenza classi percentuale della classe f fp j f j k  > di < di x ( mm ) f f = 100 100 (%) j j p n  x n m m m m k=1 (%) 6,160 6,170 6,165 3 2,73 0,273 2,73 6,170 6,180 6,175 6 5,45 0,545 8,18 6,180 6,190 6,185 12 10,91 1,091 19,09 6,190 6,200 6,195 23 20,91 2,091 40,00 6,200 6,210 6,205 26 23,64 2,364 63,64 6,210 6,220 6,215 21 19,09 1,909 82,73 6,220 6,230 6,225 11 10,00 1,000 92,73 6,230 6,240 6,235 6 5,45 0,545 98,18 6,240 6,250 6,245 2 1,82 0,182 100,00

Il numero dei dati che appartengono a una determinata classe j si chiama frequenza della classe e viene indicato con fj.

Il raggruppamento in k classi o sottogruppi, G1. Gj Il raggruppamento in k classi o sottogruppi, G1...Gj...Gk, avviene secondo il valore, ad esempio se a è il minimo degli xi e b il massimo: x G i j  a + -  < ( ) 1  b k = se

fp,i è compreso nell'intervallo [0-100]% Ad ogni classe Gi è associato il numero di elementi che vi appartengono, fi . Si definisce frequenza relativa percentuale della classe il parametro: compreso nell'intervallo [0,1], che chiameremo frequenza dell'evento E, relativa alle N prove o frequenza relativa. f è la frequenza con cui accade l’enento nelle N prove f n p i ,  100 fp,i è compreso nell'intervallo [0-100]%

Raggruppando per intervalli: Frequenza Valore Frequenza Frequenza Densità di Limiti delle cumulata centrale assoluta percentuale frequenza classi percentuale della classe f fp j f j k  > di < di x ( mm ) f f = 100 100 (%) j j p n  x n m m m m k=1 (%) 6,160 6,170 6,165 3 2,73 0,273 2,73 6,170 6,180 6,175 6 5,45 0,545 8,18 6,180 6,190 6,185 12 10,91 1,091 19,09 6,190 6,200 6,195 23 20,91 2,091 40,00 6,200 6,210 6,205 26 23,64 2,364 63,64 6,210 6,220 6,215 21 19,09 1,909 82,73 6,220 6,230 6,225 11 10,00 1,000 92,73 6,230 6,240 6,235 6 5,45 0,545 98,18 6,240 6,250 6,245 2 1,82 0,182 100,00

Rappresentazione della DENSITA’ DI PROBABILITA’

Nell’esempio precedente per ognuna delle classi Gi è possibile definire la probabilità pi che una misura qualsiasi ricada nell’intervallo della classe i-esima vale: In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza. p f n i    lim NOTA: il limite può andare ad infinito oppure N nel caso di popolazioni con numero limitato di possibili elementi

La densità di probabilità viene espressa con l’andamento delle probabilità pi in funzione delle k classi. La rappresentazione della densità di probabilità può essere fatta o con l’istogramma delle frequenze o con il poligono delle frequenze, cioè mediante k punti discreti. In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

Per variabili discrete valgono le seguenti relazioni: x i K s t k    1 2 ; ( ) ,   ps,t rappresenta la probabilità cumulata delle classi da s a t ovvero del verificarsi che : x s t 

10% = Percentuale di dati con valore compreso in questa classe 24 22 20 18 16 Frequenza_relativa [%] 14 12 10 8 6 4 2 6.165 6.245 valore centrale della classe

Poligono delle frequenze 24 22 20 18 16 14 Frequenza relativa [%] 12 10 8 6 4 2 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x [mm]

Un diagramma di tipo diverso si ottiene rappresentando le frequenze cumulate. In corrispondenza al limite superiore di ogni classe si riporta la frequenza relativa percentuale dei dati che hanno una misura inferiore a quel limite.

limite superiore della classe mm 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 10 20 30 40 50 60 70 80 90 100 Frequenze cumulate percentuali k = 4 % dati che assumono valori minori di xk limite superiore della classe mm

distribuzione di Gauss Frequenza relativa 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x (mm) 2 4 6 8 10 12 14 16 18 20 22 24 distribuzione di Gauss Frequenza relativa frequenza relativa

LE DISTRIBUZIONI DI PROBABILITA’ In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

Variabili continue

Nell’esempio precedente se si considera lo spessore del dado che quindi è una variabile continua. Ogni valore dell’altezza è possibile e la distribuzione di probabilità è rappresentata da una funzione continua.

LA DISTRIBUZIOINE GAUSSIANA NORMALE E TEOREMA DEL LIMITE CENTRALE

PDF (Probability Density Function) gaussiana (o normale)   f(x) 1 2 e x      f (x)   mx=valore medio x=varianza Quanto più è ampio sigma tanto più è distribuita e bassa la PDF

Perché il modello gaussiano di probabilità è sovente impiegato nell’ingegneria?

Il teorema del limite centrale afferma che la distribuzione delle medie tende ad essere normale anche se la distribuzione di origine non lo è.

Inoltre, come è evidente dall’animazione la distribuzione della media gode delle seguenti due proprietà: Ha la stessa media (la distribuzione non si ‘sposta’) Ha una deviazione standard minore (la distribuzione si ‘stringe’) pari a:  / √n

Esempio: distribuzione della variabile somma probabilità di aB = aA = bB = bA = 50% probabilità di aB + bB = 25% probabilità valore basso = 25% probabilità di aB + bA = 25% probabilità valore medio = 50% probabilità di aA + bB = 25% probabilità di aA + bA = 25% probabilità valore alto = 25% Distribuzione di ‘a’ Distribuzione di ‘a+b’ aB aA Distribuzione di ‘b’ bB bA

mx=valore medio x=varianza Il teorema limite centrale afferma che la distribuzione gaussiana permette di descrivere in maniera soddisfacente tutti quei fenomeni fisici caratterizzati dalla sovrapposizione di un elevato numero di effetti deboli indipendenti aventi loro natura statistica a media nulla. mx=valore medio x=varianza

Conseguenza di tale teorema è che nel caso in cui si abbia un fenomeno dato dalla sovrapposizione di numerosi effetti, nonostante singolarmente siano dotati di distribuzione non gaussiana, il fenomeno complessivo sarà normalmente distribuito, purché essi siano indipendenti e nessuno degli effetti sia prevalente Dal momento che i fenomeni del mondo reale sono spesso il risultato del contributo di molti eventi casuali non osservabili, questo teorema fornisce una spiegazione per la prevalenza ‘in natura’ della distribuzione di probabilità normale.

Data una distribuzione qualsiasi di risultati di un processo di misurazione che abbia media  e scarto quadratico  Anche ipotizzando PDF non gaussiana, se si estraggono non singole misure ma campioni sufficientemente numerosi, n > 5 - 6 , la distribuzione delle medie delle misure segue quasi fedelmente la legge di distribuzione normale (di Gauss) … QUINDI SI CONOSCE LA VARIABILITA’ ED E’ POSSIBILE QUANTIFICARE GLI INTERVALLI DI CONFIDENZA !!!

Inoltre la media di tali medie è ancora m e lo scarto quadratico si riduce a: E QUINDI MIGLIORA L’ACCURATEZZA !!! … per questo motivo è sempre opportuno ripetere più volte una misura e prendere come migliore stima il valore medio !!!

DISTRIBUZIONE CUMULATA E DISTRIBUZIONE NORMALE STANDARD

z = x - f(z) 1 2 e      Distribuzione normale standard   f (z) Il valor medio è nullo e la varianza è pari ad 1 5

F(z) = p(zi z) Frequenze cumulate Grafico delle Frequenze cumulate -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 F (z) Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 Grafico delle Frequenze cumulate Il valor medio è in corrispondenza del 50% di probabilità cumulata

F(z) = p(zi z) z1 z2 Utilità della funzione cumulata: F(z2) F(z1) 0.9 0.8 F(z) = p(zi z) 0.7 0.6 0.5 0.4 0.3 F(z1) Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 0.2 0.1 -3 -2 -1 1 2 3 z1 z2 p(zi [z1,z2]) = p(zi < z2) - p(zi < z1) p(zi [z1,z2]) = F(z2) - F(z1)

Nota sulla relazione di prima: Si può dire in due modi diversi lo stesso concetto: la probabilità che il valore appartenga all’intervallo è pari alla probabilità che sia inferiore all’estremo superiore e superiore all’estremo inferiore la probabilità che il valore appartenga all’intervallo è pari alla probabilità che sia inferiore all’estremo superiore ma non inferiore all’estremo inferiore Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 p(zi [z1,z2]) = p(zi < z2) - p(zi < z1)

-3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 z p(zi<z) = F(z) p(zi >z) p(zi [z1,z2]) = F(z2) - F(z1) Usando la variabile non normalizzata p(xi [, ]) = F() - F() = F(z=1) - F(z=-1) Valori notevoli spiegare il significato di questi valori 5 p x ( ) .      680 2 950 3 997 z

Oppure, ad esempio: p(zi >z) p(zi<z) = F(z) z -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 z p(zi<z) = F(z) p(zi >z) Oppure, ad esempio: Valori notevoli spiegare il significato di questi valori 5 La distribuzione normale è simmetrica: z

Esempio: - supponiamo di voler misurare la temperatura - al fine di associare l’intervallo di confidenza alla misura ottenuta si opera come segue: 1: si effettuano un numero N, limitato, di ripetizioni (circa 20 ad esempio) 2: si calcola da tale campione statistico media Tm e deviazione standard Sm 3: il risultato sarà pari a Tm ± 2Sm/√N (95% lc) NOTA: tale risultato vale anche se il fenomeno aleatorio associato alla misura non è gaussiano