TRATTAMENTO STATISTICO DEI DATI ANALITICI
perché parliamo di statistica in un corso di chimica? Cos’è la statistica e perché parliamo di statistica in un corso di chimica? La statistica è un ramo della matematica che fornisce uno strumento per la descrizione, attraverso la formulazione di modelli, di fenomeni affetti da errore casuale. La statistica è fondamentale nella trattazione dei dati sperimentali.
Statistica descrittiva: alcune definizioni Osservazione: esito di una misura. È un dato numerico! Popolazione: insieme di tutte le possibili osservazioni che si possono effettuare della grandezza in questione (teoricamente infinito!!!) Campione: sottoinsieme della popolazione; insieme limitato di osservazioni Valore atteso o valore vero (μ): risultato ottenuto effettuando infinite osservazioni in perfette condizioni senza effettuare errore. È il parametro che voglio stimare!!
TIPI DI ERRORE Errore sistematico: errore che può essere riconosciuto e la cui incidenza può teoricamente essere valutata es: sensibilità dello” strumento” occhio umano nell’individuare la variazione del colore nel punto di viraggio Errore casuale: errore che sfugge ad ogni possibilità di previsione e controllo es: quantità di vapor d’acqua assorbita durante la manipolazione e la pesata
valore ottenuto – valore vero per una singola misura Errore assoluto valore ottenuto – valore vero xi - μ Errore relativo valore ottenuto – valore vero (xi – μ) μ valore vero Errore relativo percentuale valore ottenuto – valore vero (xi – μ) μ X 100 X 100 valore vero
Accuratezza: Grado di accordo tra il valore ottenuto nella misura effettuata e il valore vero Precisione: Grado di accordo tra il valore ottenuto e il valore medio della serie dei dati
a) Misure precise ma non accurate x1 x2 x3 x4 x b) Misure né accurate né precise m x1 x2 x3 x4 c) Misure accurate e precise m x1 x2 x3 x4
SCELTA DEL VALORE CENTRALE DI UNA SERIE DI DATI Media aritmetica: Totale delle osservazioni diviso per il numero delle osservazioni Moda: Osservazione che si verifica con maggior frequenza Mediana: Osservazione tale per cui il 50% delle osservazioni è maggiore e il 50% delle osservazioni è minore di essa !! N.B: in pratica la media aritmetica è la più utilizzata
Come esprimo la dispersione dei dati? Range: differenza tra valore massimo e valore minimo Varianza Deviazione Standard
TEST Q PER VALORI ANOMALI Q = distanza / intervallo Distanza : differenza fra il punto in discussione e il punto più vicino Intervallo = differenza fra il valore max e il valore minimo Da scartare se Qoss > Qtab
Istogrammi È un diagramma a colonne È un utile strumento per visualizzare la distribuzione Occorre suddividere il campione in classi (10-20) L’altezza della colonna rappresenta il numero di osservazioni relativi alla classe (frequenza di occorrenza fi) Si definisce frequenza relativa: e di conseguenza
Grafico Dagli Istogrammi alle curve di distribuzione di probabilità Quanto più è numeroso il campione, tanto più l’istogramma delle frequenze assume un andamento “a campana” caratteristico delle curve di densità di probabilità. Grafico
Curve di distribuzione di probabilità Utile strumento per: Interpretare le misure sperimentali Calcolare la probabilità di eventi futuri Noi studieremo: La distribuzione normale o gaussiana La distribuzione del t di Student
Grafico La distribuzione normale o gaussiana È la capostipite di tutte le curve di distribuzione di probabilità ed è caratterizzata da 2 parametri valore atteso : corrisponde al valore centrale deviazione standard: fornisce la posizione ( ) dei punti di flesso Grafico
Per una distribuzione gaussiana ideale circa 2/3 delle misurazioni è compresa nell’intervallo Posso anche dire che 1 misura su 20 giacerà fuori dell’intervallo x 2s
La distribuzione del t di Student Nella realtà molto spesso non si conosce la deviazione standard della popolazione ma si può calcolare la deviazione standard del campione S In questo caso si usa una nuova distribuzione Va bene anche per n<30 = x t ∙ s/√n questo è l’INTERVALLO DI FIDUCIA: cioè posso stimare con un certo grado di probabilità che il valore vero giaccia in un intervallo attorno alla media.
Relazione lineare fra due variabili Tra due variabili vi è un legame quando: y = f (x) Quindi studio : CORRELAZIONE: grado di associazione fra due variabili REGRESSIONE : quale relazione esiste tra le due variabili
CORRELAZIONE -1 <r < +1 Coefficiente di correlazione Quando due variabili riportate su un grafico mostrano un certo legame si può quantificarne l’intensità : Coefficiente di correlazione r = s2xy/ √ s2x s2y -1 <r < +1
Esempio di correlazione
REGRESSIONE IL METODO DEI MINIMI QUADRATI y = mx +b Con questo metodo si vogliono minimizzare i quadrati delle deviazioni delle y cioè: di2=(y-yi)2=(y-mxi-b)2 Attraverso questi calcoli si determinano i valori di m e di b della retta che meglio si avvicina ai punti sperimentali
Grafico dei minimi quadrati
Esempio di curva di calibrazione
Coefficiente di determinazione Come faccio a verificare se il modello è valido? Si calcola il coefficiente di determinazione R2 0 < R2< 1 Corrisponde al quadrato di r