Qualità dei dati Fabio Murena.

Slides:



Advertisements
Presentazioni simili
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Advertisements

Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
I Polinomi Prof.ssa A.Comis.
Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.
Analisi della varianza
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Organizzazione dei dati AnnoQ [m 3 /s]
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
Procedure di controllo di qualità del dato analitico
Distribuzioni limite La distribuzione normale
L’incertezza delle misure
Introduzione a Statistica e Probabilità
Valutazione dell’incertezza associata alla mappa acustica dinamica di Milano Giovanni Zambon; Roberto Benocci; Maura Smiraglia; H. Eduardo Roman.
Analisi delle risposte
Misure dei valori centrali
Le molecole.
1 Grandezze e unità 1.1 grandezza
GLI STRUMENTI AUSILIARI
Tre diversi materiali:
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’analisi monovariata
Misure Meccaniche e Termiche - Università di Cassino
Confronto fra 2 popolazioni
DISTRIBUZIONI TEORICHE DI PROBABILITA’
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
x : variabile indipendente
Indici di variabilità Gli indici di variabilità misurano
La statistica A cura di: Manuela Mangione.
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Dato un insieme di misure sperimentali di una stessa grandezza,
Confronto tra diversi soggetti:
Introduzione a Statistica e Probabilità
Precorso di Statistica per le Lauree Magistrali
Relazione sulla statistica
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Gli strumenti Gli strumenti di misura possono essere:
Fisica: lezioni e problemi
L’analisi monovariata
I 7 strumenti della qualità
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Organizzazione dei dati
Elaborazione statistica di dati
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
Confronto tra diversi soggetti:
Università degli Studi di Modena e Reggio Emilia
La distribuzione campionaria: principi generali
Intervalli di confidenza
PROCEDURA per la misura e la relativa stima
Interpretare la grandezza di σ
ANALISI DI REGRESSIONE
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
Capitolo 1 Introduzione alla fisica
Associazione tra due variabili
Corso di Analisi Statistica per le Imprese
Test per campioni indipendenti
Associazione tra variabili qualitative
Teoria degli errori Chimica (Scienze Integrate)
Corso di Analisi Statistica per le Imprese
13/11/
Transcript della presentazione:

Qualità dei dati Fabio Murena

Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi) CAMPIONAMENTO può essere spaziale o temporale CAMPIONAMENTO può fornire data set UNIVARIATO o MULTIVARIATO (una misura per campione o più misure per campione)

DEFINIZIONE DI POPOLAZIONE E SAMPLE TERRENO n CAMPIONI DATI POPOLAZIONE SAMPLE (campione) SET di DATI OBIETTIVO: Dal set di dati vogliamo informazioni certe sulla popolazione PROBLEMI: La dimensione del sample è sempre inferiore alla popolazione I dati ottenuti sono affetti da errori o margini di incertezza NON ELIMINABILI

Il risultato di un’analisi chimica è un’informazione costituita da: • valore numerico • unità di misura incertezza …. T,P e tempo di mediazione per analisi gas

Variabili aleatorie PROBLEMA: da un campione otteniamo n dati analitici diversi tra loro qual’è quello vero? che relazione c’è tra i valori misurati e quello vero? Le misure che facciamo sono VARIABILI ALEATORIE caratterizzate da: INTERVALLO DI VARIAZIONE DISTRIBUZIONE DI PROBABILITA’ Noi possiamo solo: stimare il valore “vero” di queste variabili stimare la probabilità che il valore vero sia all’interno di un certo intervallo descrivere in modo statistico il data-set verificare delle ipotesi

PARAMETRI STATISTICI MEDIA MEDIANA (50° percentile) Valore centrale di una serie di n numeri ordinata in modo crescente o decrescente Se n è pari bisogna definire il criterio di valutazione (valore medio, inferiore o maggiore)

Tutti i valori saranno riportati in un elenco in ordine crescente: PERCENTILE Il calcolo dell‘n.esimo percentile deve essere effettuato a partire dai valori effettivamente misurati. Tutti i valori saranno riportati in un elenco in ordine crescente: X1 < o = X2 < o = X3 < o =.. < o =Xk < o =.. < o = XN-1 < o = XN L'n.esimo percentile è il valore dell'elemento di rango k, per il quale k viene calcolato per mezzo della formula seguente: k = (q * N) q = n/100 N = numero dei valori effettivamente misurati. Il valore di (q * N) viene arrotondato al numero intero più vicino.

PARAMETRI STATISTICI DEVIAZIONE STANDARD VARIANZA una misura della variabilità dei valori assunti dalla variabile, nello specifico, di quanto essi si discostino quadraticamente da un valore di riferimento (media aritmetica o valore atteso) La deviazione standard (scarto quadratico medio o scarto tipo) è un indice di dispersione statistico, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale intorno ad un valore di riferimento (valore medio)

CENNI DI TEORIA DEGLI ERRORI DEFINIZIONE DI ERRORE : L’errore è lo scostamento tra la misura ed il valore vero ERRORE = MISURA - VALORE VERO CLASSIFICAZIONE ERRORI grossolani (da non fare!) sistematici casuali La teoria statistica degli errori si occupa solo degli errori sistematici e casuali

Quindi possono essere eliminati o almeno compensati o quantificati. ERRORI SISTEMATICI () Rappresentano una tendenza deterministica a SOVRASTIMARE o SOTTOSTIMARE il valore vero  è la media delle misure q è il valore vero Gli errori sistematici hanno cause ben precise che possono anche essere individuate e rimosse (strumento non calibrato, insufficiente purezza dei reagenti utilizzati ...). Quindi possono essere eliminati o almeno compensati o quantificati.

ERRORI CASUALI () L’errore casuale è’ dato dalla somma di tutte le IMPREVEDIBILI variazioni nella esecuzione delle varie operazioni analitiche che determinano un certo scostamento della misura dal valore medio delle misure stesse X è la singola misura  è la media delle misure La loro presenza è messa in evidenza dal fatto che, se per uno stesso campione si ripete più volte e con lo stesso metodo la misura di un certo elemento, si ottengono in genere risultati diversi

E’ dato dalla somma degli errori sistematici e casuali ERRORE TOTALE E’ dato dalla somma degli errori sistematici e casuali Totale = Sistematico + Casuale    X è la singola misura q è il valore vero  è la media delle misure

Esattezza (Accuratezza) e Ripetibilità (Precisione) ESATTEZZA (ACCURATEZZA) = scostamento del valore medio delle misure dal valore esatto (dipende dalla media quindi dall’ errore sistematico) RIPETIBILITA’ (PRECISIONE) = scostamento dei dati dal valore medio (dipende dalla deviazione standard quindi dagli errori casuali)

Esempio Bersaglio Misura accurata e precisa ESATTEZZA o ACCURATEZZA Misura né accurata né precisa PRECISIONE o RIPETIBILITA’

Sistematico e casuale No sistematico Si casuale Sistematico No casuale No sistematico No casuale

INCERTEZZA l'incertezza di misura è la stima dell'escursione dei valori entro cui si suppone che cada il valore vero (del misurando); ha le dimensioni di uno scarto quadratico medio La definizione formale dell’incertezza è: “parametro, associato al risultato di una misurazione, che caratterizza la dispersione dei valori ragionevolmente attribuibili al misurando”. Pertanto, mentre l’errore è un singolo valore, l’incertezza rappresenta un intervallo di valori che, ad un certo livello di fiducia stabilito, possono essere attribuiti al misurando. La variabilità delle misure viene espressa attraverso la deviazione standard come La incertezza viene espressa in termini relativi come oppure in termini percentuali

Espressione dei dati Bilancia digitale con precisione di ± 0.1 mg Si riportano le cifre significative note fino alla prima cifra incerta indicando l’intervallo di incertezza. ESEMPI: Bilancia digitale con precisione di ± 0.1 mg Misura: 4.0057 ± 0.0001 g Bilancia digitale con precisione di ± 0.02 g Misura 4.00 ± 0.02 g Potenziometro digitale con precisione di ± 1mV Misura 434 ± 1 mV

MODELLI DI VARIABILI ALEATORIE Utilizzati per interpretare fenomeni Statistica descrittiva Utilizzati per effettuare inferenze ottenere informazioni su nature e/o valori dei parametri delle v.a. Gaussiana Chi-quadrato t-Student Fisher

PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’ Data una v.a. X si definisce la funzione distribuzione cumulata (Cdf) F(x) che rappresenta la probabilità che la v.a. assuma un valore inferiore a x Risulta e Se la v.a. è continua per esprimere la probabilità che la v.a. assuma valori prossimi ad un determinato x si definisce la funzione densità di probabilità (pdf)

PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’ Dalle definizioni precedenti risulta:

Distribuzione normale o Gaussiana E’ il modello di v.a. più adoperato. Può essere definita come: modello interpretativo degli errori o scostamenti da un valore medio Introducendo la v.a. Gaussiana standard (o ridotta) che esprime gli errori di misura come multipli della loro ampiezza  e ipotizzando che: sia nulla la media degli errori la pdf degli errori sia simmetrica e tenda a zero per +/- infinito la pdf abbia un unico massimo in corrispondenza del valore nullo di U si ottiene la pdf:

che rispetto alla v.a. z diventa In caso di elaborazioni di valori discreti si può utilizzare la espressione: Dove Y è il n° di osservazioni o valori all’interno di un certo intervallo di ampiezza i ed n è il n° totale di osservazioni

Distribuzione gaussiana

Coda destra gaussiana standard In tabella sono riportati i valori di probabilità (a) che f(x)>x in corrispondenza di xs L’area sottesa tra –x e x è pari a 1-2a z=s area tra –1 e +1 =0.68 z=2s area tra –2 e +2 =0.95 z=3s area tra –3 e +3 =0.997

Modello di v.a. Log-normale Se la pdf non può che essere asimmetrica (ad esempio una variabile che assume solo valori positivi) cade una delle ipotesi della gaussiana. Si definisce una distribuzione Log-normale: una v.a. Y tale che il suo logaritmo è una v.a. Normale z di parametri  e  La sua p.d.f. è

Modello di v.a. Log-normale

Esercizio par. 10.8 distribuzione Log-normale Abbiamo la seguente distribuzione della concentrazione di un campione (curva a istogramma) molto asimmetrica. Se proviamo a modellarla assumendo una distribuzione normale otteniamo la curva in blu N° di osservazioni

Esercizio par. 10.8 distribuzione Log-normale Se facciamo il lnC otteniamo una distribuzione più vicina a una normale N° di osservazioni

Distribuzione della v.a. X=ln (C) Con il modello gaussiano applicato alla variabile X = ln(C) Si ottengono i valori media e deviazione standard Da cui si ha

Esercizio par. 10.8 distribuzione Log-normale La pdf utilizzando il modello di variabile aleatoria lognormale è riportata in figura (curva rossa) Come si osserva il fitting è migliore di quello ottenuto assumendo come modello una distribuzione normale (curva blu) I parametri sono: xg = 11.46 g = 2.43 il 68.3% dei dati si trova tra 4.72 e 27.83

INTERVALLO DI CONFIDENZA (IC o LC) E’ un intervallo di valori all’interno del quale il valore reale si trova con una certa probabilità a questo scopo si usano diversi modelli di variabili aleatorie Per calcolare IC di Si usa Media t-Student Varianza Chi-quadrato Rapporto di varianze Fisher

IC della media dove: t = variabile t-Student = valore medio stimato s = deviazione standard stimata n = gradi di libertà (numero di valori - 1) Il valore del parametro statistico t si ricava da tabelle in funzione di n e dell’intervallo desiderato (ad es. 95% o 90% etc.). Al crescere del numero di valori (n-1) l’ampiezza dell’intervallo diminuisce, sia perchè cresce il denominatore sia perchè diminuisce il valore di t

Esempio: Calcolare l’intervallo di confidenza (95%)per una serie di analisi di BOD di un campione di acqua DATI: Numero di misure 11 C media = 16 mg/L s = 8 mg/L CALCOLI: Numero gradi di libertà = 11-1 = 10 t student = 2.228 N.B. con 80 misure assumendo che la deviazione standard non cambi

IC per una variabile Log-normale Per una v.a. Log- normale l’intervallo di confidenza si calcola come IC del rapporto di varianze Si utilizza la distribuzione di Fisher F: Definito l’IC si legge dalla tabella in funzione dei gradi di libertà con cui sono state calcolate le 2 varianze il valore del loro rapporto F.

TEST DELLE IPOTESI In statistica i test verificano in termini probabilistici la validità di una ipotesi detta ipotesi nulla (o ipotesi zero indicata con H0) se l’ipotesi viene rifiutata si accetta l’ipotesi alternativa (H1) I problemi che si intendono risolvere sono del tipo: se la differenza che si registra tra la media calcolata ed il valore “vero” è significativa o meno. se la differenza che si registra tra due valori medi è significativa o meno. Con metodi statistici si verifica se l’ipotesi è: non respinta (accettabile) oppure respinta

Confronto tra media e valore reale Si intende verificare se la differenza tra valore medio e valore reale è significativa o meno. Si valuta La differenza è significativa se: La differenza non è significativa se:

Confronto tra due medie verifica del risultato di due diverse metodiche di analisi sullo stesso campione verifica di due diversi set di dati (dati di due stazioni di monitoraggio relative allo stesso inquinante) Si vuole verificare se la differenza dei due valori medi è statisticamente significativa (ipotesi nulla) o meno (ipotesi alternativa). Si valuta La differenza è significativa se: (altrimenti non è significativa)