La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi statistica dei dati sperimentali. 2 Aleatorietà delle misure Non si ricava un singolo valore numerico deterministicamente individuabile, ma una.

Presentazioni simili


Presentazione sul tema: "Analisi statistica dei dati sperimentali. 2 Aleatorietà delle misure Non si ricava un singolo valore numerico deterministicamente individuabile, ma una."— Transcript della presentazione:

1 Analisi statistica dei dati sperimentali

2 2 Aleatorietà delle misure Non si ricava un singolo valore numerico deterministicamente individuabile, ma una nuvola di valori nuvola di valori misurazione dati di misura aleatori Contributi casuali Incidenti di misura Contributi sistematici Grandezze dinfluenza e condizioni operative fasce di valori variabilità

3 Analisi statistica dei dati sperimentali3 Le norme richiedono di identificare un valore di misura ed una incertezza… Data la nuvola di valori, dunque, è necessario stimare un valore centrale e un indice di dispersione (ad esempio rispettivamente media e scarto tipo). Tuttavia è opportuno porre in atto procedure per individuare ed evidenziare la presenza di errori sistematici e di incidenti di misura! Al fine di agevolare il trattamento dei dati sarebbe opportuno procedere alla progettazione delle operazioni di sperimentazione (Design of Experiments - DOE); Tuttavia si procede di solito in maniera completamente casualizzata, ovvero considerando variazioni casuali di tutte le grandezze dinfluenza (bisogna fare attenzione a non trascurare la presenza di eventuali effetti sistematici!!!); Sulla base dellesperienza si può procedere controllando una o più grandezze dinfluenza e considerando variazioni casuali di tutte le altre.

4 Analisi statistica dei dati sperimentali4 Esempio: si consideri il caso di una misura dimensionale eseguita da diversi operatori; si consideri che sia posta sotto controllo linfluenza delloperatore sulle misure. (media campionaria) (scarto quadratico medio campionario) media+sqm media-sqm Nuvola di valori!

5 Analisi statistica dei dati sperimentali5 È possibile osservare come la grandezza dinfluenza operatore agisca sui risultati delle misurazioni.

6 Analisi statistica dei dati sperimentali6 Spoglio dei dati e loro presentazione La presentazione dei dati sperimentali può avvenire: in forma tabulare tabella in forma grafica grafico (dotplot, istogramma, ecc.) Tabella

7 Analisi statistica dei dati sperimentali7 DotPlot Si tratta di descrivere la frequenza assoluta con cui ogni valore compare su di un opportuno asse. La minima suddivisione sullasse deve coincidere con la risoluzione secondo cui i dati si presentano. Ritornando allesempio: se i dati sono in millimetri, consideriamo, per ognuno leccesso (delta) rispetto al valore mm; tale valore, moltiplicato per 1000 dà unindicazione in micron. La tabella diventa dunque:

8 Analisi statistica dei dati sperimentali8 I valori da considerarsi (in micron) per costruire lasse delle ascisse vanno da 1 m a 10 m. Di seguito il DOTPLOT... Il numero di crocette per ogni singola ascissa coincide con il numero di volte in cui ogni singolo valore compare. Ad esempio il valore 2.9 m ( mm) compare 4 volte!

9 Analisi statistica dei dati sperimentali9 Istogramma I dati possono essere raggruppati in classi. Lintervallo coperto dai dati sperimentali viene suddiviso in sottointervalli, ognuno dei quali costituisce una classe. Limite di classe (superiore ed inferiore): valori che definiscono una classe. Ampiezza di classe: ampiezza della classe. Centro di classe: semisomma dei limiti di classe (punto medio della classe). Raggruppando tutti i dati nelle diverse classi si ottiene per ognuna di queste un valore di frequenza assoluta (f a ), ovvero un valore indicativo del numero di risultati numerici che sono compresi entro i limiti che la definiscono. A partire dai valori di frequenza assoluta è possibile, per ogni classe, calcolare la frequenza relativa (f r )(= probabilità secondo la definizione frequentistica)

10 Analisi statistica dei dati sperimentali10 Il numero opportuno di classi può essere ricavato dalla seguente relazione empirica: dove n è il numero di dati valutati. È buona norma che ogni classe contenga almeno quattro dati! Dunque di solito si agisce modificando lampiezza delle classi (accorpandole eventualmente) per rispettare tale condizione. L'istogramma è un diagramma costituito da un numero di barre rettangolari coincidente con il numero di classi considerato; larea di ogni rettangolo è proporzionale alla probabilità (calcolata a partire dai dati sperimentali), che un dato cada nella specifica classe corrispondente.

11 Analisi statistica dei dati sperimentali11 Ritornando allesempio… I dati considerati sono n = 50 m = 1 + (10/3) Log 10 (50) = 6.66 m = 7 Possiamo costruire le sette classi tra i valori e … quindi: In questo caso, essendo le ampiezze delle classi uguali, l'istogramma coincide con il diagramma a barre (chiamato erroneamente istogramma in Excel!!!)

12 Analisi statistica dei dati sperimentali12 Accorpando le ultime due classi si ottiene:

13 Analisi statistica dei dati sperimentali13 Legenda: - f r frequenza relativa - f a frequenza assoluta - densità di frequenza altezza della colonna rettangolare relativa alla i-esima classe di ampiezza amp i

14 Analisi statistica dei dati sperimentali14 Tendenza centrale e dispersione Come precedentemente accennato è possibile utilizzare come stimatori di tendenza centrale e di dispersione rispettivamente la media e la deviazione standard campionarie (le cui definizioni sono riportate al lucido 4). Si possono tuttavia utilizzare anche altri indicatori, sia per la tendenza centrale, sia per la dispersione. Tendenza centrale Oltre alla media campionaria, si possono utilizzare moda o mediana. Mediana: è il valore centrale fra i dati sperimentali disposti in maniera ordinata. Moda: è il valore che compare con frequenza maggiore. Normalmente si utilizza la media campionaria, perché meglio inquadrata in termini matematici; tuttavia è più sensibile agli incidenti di misura rispetto alla mediana o alla moda.

15 Analisi statistica dei dati sperimentali15 Dispersione In alternativa alla deviazione standard campionaria è possibile utilizzare il range (differenza fra il valore massimo ed il minimo ottenuti) come indicatore di dispersione. Sia il range sia la varianza campionaria dipendono fortemente dal numero di dati che costituiscono il campione esaminato. In alternativa è possibile definire la variabilità dei dati (dispersione) attraverso la definizione di campi di probabilità: - si possono definire quattro classi, ognuna delle quali contenga il 25% dei dati (quartili) - si possono definire dieci classi, ognuna delle quali contenga il 10% dei dati (decili) - si possono definire cento classi, ognuna delle quali contenga l 1% dei dati (centili)

16 Analisi statistica dei dati sperimentali16 I quartili, decili, centili sono gli estremi superiori delle classi così definite. La definizione di questi indici di dispersione dipende molto dai valori assunti dai dati di estremità… Una valutazione più robusta della dispersione si può ottenere calcolando la differenza fra il terzo ed il primo quartile. Un modo abituale per indicare tendenza centrale e dispersione consiste nellassegnazione di cinque valori: minimo, primo quartile, mediana, terzo quartile, massimo. Il diagramma corrispondente è detto BOXPLOT. min1Qmediana3Qmax

17 Analisi statistica dei dati sperimentali17 Inferenza statistica POPOLAZIONECAMPIONESTIME CampionamentoInferenza (Parametri che definiscono la distribuzione della popolazione) MISURANDOLETTURESTIME MisurazioneAnalisi (Definizione di intervalli in cui ragionevolmente cadono i valori da attribuirsi al misurando come misura INCERTEZZA) Informazioni sulla catena di misura e sulle grandezze dinfluenza

18 Analisi statistica dei dati sperimentali18 Intervalli fiduciari per la media In generale, data una popolazione, estratto a partire da essa un campione, si può costruire un intervallo sulla base dei dati campionari, entro il quale, con un prefissato livello di probabilità (fiducia), si può ritenere che un parametro, descrittivo della distribuzione della popolazione (media), cada. Si parla di stima per intervalli della media; infatti, anche la media campionaria può essere considerata una stima della media della popolazione, tuttavia si tratta di un unico valore e si parla dunque di stima puntuale; costruendo un intervallo, si definisce invece una fascia di valori e si parla dunque di stima per intervalli. Lintervallo fiduciario per la media è dato dalla seguente espressione (con media della popolazione distribuita normalmente): il livello di fiducia associato a tale intervallo è (1- )%. m indica la media campionaria, s la deviazione standard campionaria, n la numerosità del campione.

19 Analisi statistica dei dati sperimentali19 Nel caso quanto visto venga applicato alle misure si ha: se la valutazione sperimentale è stata condotta con cura in modo tale da evitare effetti sistematici ed incidenti di misura, allora la popolazione delle possibili misure si può ritenere distribuita normalmente, in quanto agiscono solo effetti di tipo casuale; per la media di tale popolazione si può dunque effettuare una stima per intervalli secondo la relazione riportata in precedenza; lintervallo fiduciario a livello di fiducia (1- )% può essere anche scritto nella forma seguente: tendenza centrale dispersione

20 Analisi statistica dei dati sperimentali20 Assumendo che il valore vero attribuibile al misurando come misura esista, esso può essere considerato coincidente con ; la misura è ottenibile attraverso la stima per intervalli vista ed è dunque data da: dove: m rappresenta il valore di misura, k·u è lincertezza di misura associata. Per definire la misura è necessario corredare con la opportuna unità di misura. Quanto detto vale con il livello di fiducia (1- )% prestabilito.

21 Analisi statistica dei dati sperimentali21 Procedura di analisi dei dati sperimentali I dati vengono raccolti e presentati in forma tabulare oppure, preferibilmente, grafica (attraverso un istogramma); a partire dai dati sperimentali è possibile stimare una media campionaria ed una deviazione standard campionaria; la media campionaria e la deviazione standard campionaria servono a stimare media e deviazione standard della popolazione dei possibili valori di misura, che, se si considera lassenza di incidenti di misura e di effetti sistematici, deve essere normale.

22 Analisi statistica dei dati sperimentali22 Il discostarsi della distribuzione dei dati sperimentali, rappresentata dallistogramma, dalla distribuzione teorica (la normale costruita su media e deviazione standard campionarie) indica la presenza di incidenti di misura ed effetti sistematici, che devono essere localizzati ed eliminati. Il processo è iterativo perché la media e la varianza campionarie dipendono dai valori che costituiscono il set di dati analizzato (che risulta anche dalla presenza di effetti incidentali e sistematici). Risultati sperimentali Rappresentazione su istogramma Valutazione di tendenza centrale e dispersione Definizione dei parametri della distribuzione teorica normale associata Individuazione degli incidenti di misura e loro esclusione Individuazione degli effetti sistematici e loro correzione Distribuzione normale??? Set di dati su cui operare... NO SI Analisi degli effetti sistematiciPrincipi di esclusione Media e varianza campionarie

23 Analisi statistica dei dati sperimentali23 Controllo di normalità (di una distribuzione sperimentale) Test del - Si definisce un livello di fiducia (1- )% a cui accettare lipotesi che i dati sperimentali raccolti siano distribuiti normalmente (la popolazione delle possibili misure sia distribuita normalmente). - Si può definire una variabile casuale W secondo la seguente relazione: dove: sono state considerate n classi nella quali i dati sono raggruppati; fs i rappresenta la frequenza assoluta con cui i dati sperimentali cadono nella i- esima classe; ft i rappresenta la frequenza assoluta prevedibile teoricamente con cui i dati cadono nella i-esima classe. - W è distribuito secondo la distribuzione 2 di Pearson.

24 Analisi statistica dei dati sperimentali24 - Come detto, i dati teoricamente dovrebbero essere distribuiti normalmente secondo una distribuzione normale avente media stimata dalla media campionaria e varianza stimata dalla varianza campionaria, stimate a partire dai dati sperimentali. Nota tale distribuzione è possibile calcolare per ogni classe i- esima il valore di frequenza assoluta attesa ft i e dunque il termine i-esimo - La somma dei contributi i-esimi relativi alle m classi fornisce il valore di W. Si deve verificare che tale valore sia compreso tra due limiti dati per una variabile casuale distribuita secondo la distribuzione di Pearson che descrivano un campo con probabilità associata pari a (1- )%. - La distribuzione di Pearson è parametrizzata rispetto al numero di gradi di libertà che si considerano. Ai fini del test tale valore è dato dalla relazione: Numero di classi Numero di parametri della distribuzione teorica (normale) stimati a partire dai dati sperimentali: media e varianza k=2.

25 Analisi statistica dei dati sperimentali25 - Entrando nella tabella della distribuzione di Pearson si ricavano i due valori limite: p curva per g.d.l.

26 Analisi statistica dei dati sperimentali26 - Si deve verificare che: - Se la relazione sopra è verificata, il test dà esito positivo e, dunque, con un livello di fiducia pari a (1- )%, si può accettare che la distribuzione dei dati sperimentali sia uniforme, ovvero che non vi siano dati affetti da errori incidentali e sistematici. Equivalentemente si corre un rischio pari a % che lipotesi di normalità per la distribuzione dei dati non valga. - Si può applicare il test al caso precedentemente visto...

27 Analisi statistica dei dati sperimentali27 Il test risulta verificato con un livello di fiducia del 95% si può ritenere che i dati siano distribuiti normalmente e dunque che non vi siano sostanziali incidenti di misura ed effetti sistematici.

28 Analisi statistica dei dati sperimentali28 Grafico di probabilità normale Si tratta di un grafico avente in ascissa una coordinata indicativa dei valori assunti dai dati sperimentali ad in ordinata i corrispondenti valori di probabilità cumulata. Il grafico ha lasse delle ordinate opportunamente distorto in modo tale da far sì che il diagramma della cumulata della distribuzione normale non sia una curva ma una retta (che risulta facilmente riconoscibile). Riportando i dati sperimentali su tale diagramma, nel caso in cui tali dati possano essere ritenuti distribuiti normalmente, essi giaceranno su tale retta. Operativamente, mediante un foglio di calcolo (Excel): - i dati vengono ordinati progressivamente in ordine crescente (ad ognuno viene assegnato un indice i); - ad ogni dato x i corrisponde una probabilità Ps i, ottenibile secondo la relazione

29 Analisi statistica dei dati sperimentali29 - ad ogni valore di probabilità sperimentale P si corrisponde un valore della variabile normale standardizzata z, che chiamiamo z si ; - per ogni dato x i si calcola il corrispondente valore teorico della variabile normale standardizzata z: con m e s rispettivamente media e deviazione standard campionaria; ad ogni valore x i corrisponde una probabilità teorica P ti ; - su di un grafico si riportano i valori di zs e di zt in funzione di x; i punti (x,z t ) descrivono una retta, rappresentativa dellandamento teorico del grafico di probabilità normale; i punti (x,z s ) rappresentano landamento dei dati sperimentali: più tali punti approssimano landamento della suddetta retta più la distribuzione sperimentale è approssimabile con una distribuzione normale. Ritornando al caso precedentemente esaminato...

30 Analisi statistica dei dati sperimentali30

31 Analisi statistica dei dati sperimentali31 Principi di esclusione Al fine di eliminare i dati che provengono da incidenti di misura si impiegano i principi di esclusione. Gli incidenti di misura sono eventi rari, tuttavia non tutti gli eventi rari sono incidenti di misura: bisogna escludere solo i dati per i quali si riconosce la causa incidentale che li ha prodotti. I valori legati al verificarsi di eventi rari intrinsecamente presente e non attribuibili ad incidenti non andrebbero esclusi. Boxplot min1Qmediana3Qmax IQR

32 Analisi statistica dei dati sperimentali32 - 1Q: valore superiore nel primo quartile; - 3Q: valore superiore nel terzo quartile; - max: valore massimo nella regione limitata superiormente da 3Q+1.5·IQR; - min: valore minimo nella regione limitata inferiormente da 1Q-1.5·IQR; I valori che cadono al di fuori della zona compresa fra min e max si dicono outliers (=valore erratico) e sono frutto di eventi rari. Esistono due tipi di outliers: sospetti e altamente sospetti. min1Qme3Qmax IQR 3 IQR 1.5 IQR Outliers sospetti zona degli outliers altamente sospetti Outliers sospetti Outliers altamente sospetti

33 Analisi statistica dei dati sperimentali33 La definizione dei limiti sopra citati può essere spiegata secondo quanto segue… - se i dati sono distribuiti normalmente (ovvero se non vi fossero valori ottenuti come conseguenze di incidenti) si avrebbe, per una variabile normale standard z: 1Q: z 1Q = Q: z 2Q = IQR = (1Q-1.5IQR): z LIMINF-1.5 = (3Q+1.5IQR): z LIMSUP+1.5 = (1Q-3IQR): z LIMINF-3 = (3Q+3IQR): z LIMSUP+3 = quindi: P (z LIMINF-1.5

34 Analisi statistica dei dati sperimentali34 Principio di esclusione di Chauvenet Risponde alla necessità di avere un principio che ponga dei limiti dellesclusione al variare del numero di dati trattati. Infatti, maggiore è il numero di prove effettuate e maggiore è la probabilità che si verifichino eventi rari. - Convenzionalmente si impone che la probabilità che si verifichi un evento raro in n prove (misure) è (dalla binomiale): ; - Si impone che P(1) sia pari convenzionalmente al 50%, cioè che vi sia una probabilità pari a 0.5 di ottenere un evento raro su n prove; - se si considerano due limiti, uno inferiore ed uno superiore e, dunque, due regioni a cui competono eventi rari, allora si ha: - si individuano dunque, ipotizzando che la distribuzione debba essere normale, i due limiti impiegati per lesclusione (mediante tabella della normale standardizzata).

35 Analisi statistica dei dati sperimentali35 Nel nostro caso… A tale valore di probabilità corrispondono i seguenti valori per la variabile normale standardizzata: In corrispondenza di tali valori si ricavano i corrispondenti valori di x:

36 Analisi statistica dei dati sperimentali36

37 Analisi statistica dei dati sperimentali37 Nel caso vengano identificati valori che siano attribuibili ad incidenti di misura si deve procedere nei modi seguenti (in ordine di preferenza): a - si rieseguono le misure; b - si eliminano i dati che provengono da incidenti di misura lasciando le corrispondenti celle (nei fogli di calcolo) vuote; c - si sostituiscono i valori riconosciuti come incidentali con il valore della media campionaria che si ottiene ad esclusione effettuata.

38 38 Bibliografia G. Barbato, Misurare per decidere, Progetto Leonardo, Bologna (Capitolo 6) Consultazione: G.Vicario - R.Levi, Calcolo delle probabilità e statistica per ingegneri, Progetto Leonardo, Bologna (Capitoli 4, 7, 8)


Scaricare ppt "Analisi statistica dei dati sperimentali. 2 Aleatorietà delle misure Non si ricava un singolo valore numerico deterministicamente individuabile, ma una."

Presentazioni simili


Annunci Google