Qualità dei dati Fabio Murena.

Qualità dei dati Fabio Murena

Operazioni di campionamento
CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi) CAMPIONAMENTO può essere spaziale o temporale CAMPIONAMENTO può fornire data set UNIVARIATO o MULTIVARIATO (una misura per campione o più misure per campione)

DEFINIZIONE DI POPOLAZIONE E SAMPLE
TERRENO n CAMPIONI DATI POPOLAZIONE SAMPLE (campione) SET di DATI OBIETTIVO: Dal set di dati vogliamo informazioni certe sulla popolazione PROBLEMI: La dimensione del sample è sempre inferiore alla popolazione I dati ottenuti sono affetti da errori o margini di incertezza NON ELIMINABILI

Il risultato di un’analisi chimica è un’informazione costituita da:
• valore numerico • unità di misura incertezza …. T,P e tempo di mediazione per analisi gas

Variabili aleatorie PROBLEMA:
da un campione otteniamo n dati analitici diversi tra loro qual’è quello vero? che relazione c’è tra i valori misurati e quello vero? Le misure che facciamo sono VARIABILI ALEATORIE caratterizzate da: INTERVALLO DI VARIAZIONE DISTRIBUZIONE DI PROBABILITA’ Noi possiamo solo: stimare il valore “vero” di queste variabili stimare la probabilità che il valore vero sia all’interno di un certo intervallo descrivere in modo statistico il data-set verificare delle ipotesi

PARAMETRI STATISTICI MEDIA MEDIANA (50° percentile)
Valore centrale di una serie di n numeri ordinata in modo crescente o decrescente Se n è pari bisogna definire il criterio di valutazione (valore medio, inferiore o maggiore)

Tutti i valori saranno riportati in un elenco in ordine crescente:
PERCENTILE Il calcolo dell‘n.esimo percentile deve essere effettuato a partire dai valori effettivamente misurati. Tutti i valori saranno riportati in un elenco in ordine crescente: X1 < o = X2 < o = X3 < o =.. < o =Xk < o =.. < o = XN-1 < o = XN L'n.esimo percentile è il valore dell'elemento di rango k, per il quale k viene calcolato per mezzo della formula seguente: k = (q * N) q = n/100 N = numero dei valori effettivamente misurati. Il valore di (q * N) viene arrotondato al numero intero più vicino.

PARAMETRI STATISTICI DEVIAZIONE STANDARD VARIANZA
una misura della variabilità dei valori assunti dalla variabile, nello specifico, di quanto essi si discostino quadraticamente da un valore di riferimento (media aritmetica o valore atteso) La deviazione standard (scarto quadratico medio o scarto tipo) è un indice di dispersione statistico, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale intorno ad un valore di riferimento (valore medio)

CENNI DI TEORIA DEGLI ERRORI
DEFINIZIONE DI ERRORE : L’errore è lo scostamento tra la misura ed il valore vero ERRORE = MISURA - VALORE VERO CLASSIFICAZIONE ERRORI grossolani (da non fare!) sistematici casuali La teoria statistica degli errori si occupa solo degli errori sistematici e casuali

Quindi possono essere eliminati o almeno compensati o quantificati.
ERRORI SISTEMATICI () Rappresentano una tendenza deterministica a SOVRASTIMARE o SOTTOSTIMARE il valore vero  è la media delle misure q è il valore vero Gli errori sistematici hanno cause ben precise che possono anche essere individuate e rimosse (strumento non calibrato, insufficiente purezza dei reagenti utilizzati ...). Quindi possono essere eliminati o almeno compensati o quantificati.

ERRORI CASUALI () L’errore casuale è’ dato dalla somma di tutte le IMPREVEDIBILI variazioni nella esecuzione delle varie operazioni analitiche che determinano un certo scostamento della misura dal valore medio delle misure stesse X è la singola misura  è la media delle misure La loro presenza è messa in evidenza dal fatto che, se per uno stesso campione si ripete più volte e con lo stesso metodo la misura di un certo elemento, si ottengono in genere risultati diversi

E’ dato dalla somma degli errori sistematici e casuali
ERRORE TOTALE E’ dato dalla somma degli errori sistematici e casuali Totale = Sistematico + Casuale    X è la singola misura q è il valore vero  è la media delle misure

Esattezza (Accuratezza) e Ripetibilità (Precisione)
ESATTEZZA (ACCURATEZZA) = scostamento del valore medio delle misure dal valore esatto (dipende dalla media quindi dall’ errore sistematico) RIPETIBILITA’ (PRECISIONE) = scostamento dei dati dal valore medio (dipende dalla deviazione standard quindi dagli errori casuali)

Esempio Bersaglio Misura accurata e precisa ESATTEZZA o ACCURATEZZA
Misura né accurata né precisa PRECISIONE o RIPETIBILITA’

Sistematico e casuale No sistematico Si casuale Sistematico No casuale No sistematico No casuale

INCERTEZZA l'incertezza di misura è la stima dell'escursione dei valori entro cui si suppone che cada il valore vero (del misurando); ha le dimensioni di uno scarto quadratico medio La definizione formale dell’incertezza è: “parametro, associato al risultato di una misurazione, che caratterizza la dispersione dei valori ragionevolmente attribuibili al misurando”. Pertanto, mentre l’errore è un singolo valore, l’incertezza rappresenta un intervallo di valori che, ad un certo livello di fiducia stabilito, possono essere attribuiti al misurando. La variabilità delle misure viene espressa attraverso la deviazione standard come La incertezza viene espressa in termini relativi come oppure in termini percentuali

Espressione dei dati Bilancia digitale con precisione di ± 0.1 mg
Si riportano le cifre significative note fino alla prima cifra incerta indicando l’intervallo di incertezza. ESEMPI: Bilancia digitale con precisione di ± 0.1 mg Misura: ± g Bilancia digitale con precisione di ± 0.02 g Misura 4.00 ± 0.02 g Potenziometro digitale con precisione di ± 1mV Misura 434 ± 1 mV

MODELLI DI VARIABILI ALEATORIE
Utilizzati per interpretare fenomeni Statistica descrittiva Utilizzati per effettuare inferenze ottenere informazioni su nature e/o valori dei parametri delle v.a. Gaussiana Chi-quadrato t-Student Fisher

PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’
Data una v.a. X si definisce la funzione distribuzione cumulata (Cdf) F(x) che rappresenta la probabilità che la v.a. assuma un valore inferiore a x Risulta e Se la v.a. è continua per esprimere la probabilità che la v.a. assuma valori prossimi ad un determinato x si definisce la funzione densità di probabilità (pdf)

PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’
Dalle definizioni precedenti risulta:

Distribuzione normale o Gaussiana
E’ il modello di v.a. più adoperato. Può essere definita come: modello interpretativo degli errori o scostamenti da un valore medio Introducendo la v.a. Gaussiana standard (o ridotta) che esprime gli errori di misura come multipli della loro ampiezza  e ipotizzando che: sia nulla la media degli errori la pdf degli errori sia simmetrica e tenda a zero per +/- infinito la pdf abbia un unico massimo in corrispondenza del valore nullo di U si ottiene la pdf:

che rispetto alla v.a. z diventa
In caso di elaborazioni di valori discreti si può utilizzare la espressione: Dove Y è il n° di osservazioni o valori all’interno di un certo intervallo di ampiezza i ed n è il n° totale di osservazioni

Distribuzione gaussiana

Coda destra gaussiana standard
In tabella sono riportati i valori di probabilità (a) che f(x)>x in corrispondenza di xs L’area sottesa tra –x e x è pari a 1-2a z=s area tra –1 e +1 =0.68 z=2s area tra –2 e +2 =0.95 z=3s area tra –3 e +3 =0.997

Modello di v.a. Log-normale
Se la pdf non può che essere asimmetrica (ad esempio una variabile che assume solo valori positivi) cade una delle ipotesi della gaussiana. Si definisce una distribuzione Log-normale: una v.a. Y tale che il suo logaritmo è una v.a. Normale z di parametri  e  La sua p.d.f. è

Modello di v.a. Log-normale

Esercizio par. 10.8 distribuzione Log-normale
Abbiamo la seguente distribuzione della concentrazione di un campione (curva a istogramma) molto asimmetrica. Se proviamo a modellarla assumendo una distribuzione normale otteniamo la curva in blu N° di osservazioni

Se facciamo il lnC otteniamo una distribuzione più vicina a una normale N° di osservazioni

Distribuzione della v.a. X=ln (C)
Con il modello gaussiano applicato alla variabile X = ln(C) Si ottengono i valori media e deviazione standard Da cui si ha

La pdf utilizzando il modello di variabile aleatoria lognormale è riportata in figura (curva rossa) Come si osserva il fitting è migliore di quello ottenuto assumendo come modello una distribuzione normale (curva blu) I parametri sono: xg = g = 2.43 il 68.3% dei dati si trova tra 4.72 e 27.83

INTERVALLO DI CONFIDENZA (IC o LC)
E’ un intervallo di valori all’interno del quale il valore reale si trova con una certa probabilità a questo scopo si usano diversi modelli di variabili aleatorie Per calcolare IC di Si usa Media t-Student Varianza Chi-quadrato Rapporto di varianze Fisher

IC della media dove: t = variabile t-Student = valore medio stimato s = deviazione standard stimata n = gradi di libertà (numero di valori - 1) Il valore del parametro statistico t si ricava da tabelle in funzione di n e dell’intervallo desiderato (ad es. 95% o 90% etc.). Al crescere del numero di valori (n-1) l’ampiezza dell’intervallo diminuisce, sia perchè cresce il denominatore sia perchè diminuisce il valore di t

Esempio: Calcolare l’intervallo di confidenza (95%)per una serie di analisi di BOD di un campione di acqua DATI: Numero di misure 11 C media = 16 mg/L s = 8 mg/L CALCOLI: Numero gradi di libertà = 11-1 = 10 t student = 2.228 N.B. con 80 misure assumendo che la deviazione standard non cambi

IC per una variabile Log-normale
Per una v.a. Log- normale l’intervallo di confidenza si calcola come IC del rapporto di varianze Si utilizza la distribuzione di Fisher F: Definito l’IC si legge dalla tabella in funzione dei gradi di libertà con cui sono state calcolate le 2 varianze il valore del loro rapporto F.

TEST DELLE IPOTESI In statistica i test verificano in termini probabilistici la validità di una ipotesi detta ipotesi nulla (o ipotesi zero indicata con H0) se l’ipotesi viene rifiutata si accetta l’ipotesi alternativa (H1) I problemi che si intendono risolvere sono del tipo: se la differenza che si registra tra la media calcolata ed il valore “vero” è significativa o meno. se la differenza che si registra tra due valori medi è significativa o meno. Con metodi statistici si verifica se l’ipotesi è: non respinta (accettabile) oppure respinta

Confronto tra media e valore reale
Si intende verificare se la differenza tra valore medio e valore reale è significativa o meno. Si valuta La differenza è significativa se: La differenza non è significativa se:

Confronto tra due medie
verifica del risultato di due diverse metodiche di analisi sullo stesso campione verifica di due diversi set di dati (dati di due stazioni di monitoraggio relative allo stesso inquinante) Si vuole verificare se la differenza dei due valori medi è statisticamente significativa (ipotesi nulla) o meno (ipotesi alternativa). Si valuta La differenza è significativa se: (altrimenti non è significativa)

Qualità dei dati Fabio Murena.

Presentazioni simili

Presentazione sul tema: "Qualità dei dati Fabio Murena."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Qualità dei dati Fabio Murena.

Presentazioni simili

Presentazione sul tema: "Qualità dei dati Fabio Murena."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back