Indici statistici geospaziali
E.D.A Exploratory Data Analysis Qual è il modo migliore per organizzare e visualizzare il campione di dati? Esistono delle grandezze che riassumono il comportamento di un gruppo di dati? Esiste una trasformata che possa semplificare la procedura di E.D.A. ?
Experimental distribution PARTE GRAFICA ISTOGRAMMA DISTRIBUZIONE CUMULATA CAMPIONARIA (OGIVE) BOX-PLOT PARTE ANALITICA MEDIA CAMPIONARIA MEDIANA CAMPIONARIA VARIANZA CAMPIONARIA COEFFICIENTE DI ASIMMETRIA CAMPIONARIO Ecc …
Experimental distribution Parte grafica (esempio) T (mq/giorno) x (km) y (km) 2.9 0.876 0.138 2.5 0.188 0.214 4.7 2.176 2.119 4.2 2.717 2.685 3.739 0.031 2.1 1.534 2.4 2.078 0.267 5.8 3.324 1.67 Valore massimo Terzo quartile Primo quartile Mediana Valore minimo
Experimental distribution Parte analitica (esempio) Numero di osservazioni 8 Valore minimo 2.1 Primo quartile 2.42 Mediana 3.57 Terzo quartile 4.24 Interquartile 1.81 Massimo valore 5.88 Media 3.62 Deviazione standard 1.33 Coefficiente di asimmetria 0.32
Trasformazione dei Dati Distribuzioni simmetriche e unimodali hanno molti pratici vantaggi: Un solo numero può essere usato per rappresentare il valore centrale in quanto media, moda e mediana coincidono Per un istogramma come in figura che approssima una distribuzione normale, la deviazione standard è circa ¾ dell’interquartile; di consequenza non c’è nessun problema se si usa l’interquartile o la deviazione standard come indice di dispersione ! Per un campione di dati strutturato in questo modo, la media e la varianza forniscono sufficienti informazioni per ricostruire l’istogramma con accettabile accuratezza !!!
Trasformazione dei Dati
Test di Normalità e di indipendenza La distribuzione univariata dei dati è normale (gaussiana)? Test statistici ( chi-quadro, Kolmogorov-Smirnov, ecc…) Questi test assumono che i dati non abbiano una struttura correlativa Questi test potrebbero essere applicati ai residui ortonormali (che sono le differenze tra valori campionari e valori stimati); si suppone che questi residui siano incorrelati e seguano una distribuzione normale con media nulla e varianza unitaria
E.D.A Exploratory Data Analysis Struttura spaziale dei dati
E.D.A Exploratory Data Analysis Struttura spaziale dei dati Un modo per mettere in luce una possibile non stazionarietà del processo è usare media e la mediana campionaria riferita a righe e colonne L’uso di queste due statistiche ha due finalità: la mediana è un indice robusto, ma anche il suo confronto con uno stimatore non robusto quale la media ha la funzione addizionale di mettere in risalto righe o colonne che possono contenere osservazioni atipiche
Definizione del KRIGING OBIETTIVO : ottimizzare la stima di una grandezza, che è distribuita nello spazio ed è misurata in un insieme discreto di punti. Le equazioni del kriging saranno utilizzate in due casi: ipotesi di stazionarietà del processo ipotesi intrinseca (cioè la stazionarietà degli incrementi) Z1 Z2 Z3 Z4 Z5 Z6 Z0 ? X1 X2 X3 X4 X5 X6 X0 IPOTESI: Z(x) sia un campo Random
(o stazionarietà del secondo ordine) Ipotesi di Stazionarietà debole (o stazionarietà del secondo ordine) Un campo Random si dice stazionario del secondo ordine se: X1 X2 h
(o stazionarietà del secondo ordine) Ipotesi di Stazionarietà debole (o stazionarietà del secondo ordine) Se le proprietà del campo sono identiche in ogni direzione (C(h) dipende solo dal modulo del vettore h e non dalla sua direzione) allora il campo si dice isotropo (questa ipotesi si assumerà in tutta la trattazione) La funzione di covarianza C(h) determina la struttura del campo Random Bisogna osservare che C(0)=sz2 è la varianza del campo random Z.
SIMPLE KRIGING IPOTESI: Stazionarietà del secondo ordine se le funzioni media m e covarianza C(h) sono note.
SIMPLE KRIGING Lo stimatore Y0* è detto ottimale se l’errore di stima (Y0*–Y0), chiamato “bias”, è minimo. Poiché il valore reale Y0 è sconosciuto, bisognerà minimizzare il valore atteso dell’ errore quadratico medio: Sviluppando i calcoli si ottiene:
Unica soluzione C è una funzione definita positiva. SIMPLE KRIGING Unica soluzione C è una funzione definita positiva. Bisogna notare che la matrice di correlazione C non dipende dal punto x0: questo implica la fattorializzazione della stessa (con algoritmi opportuni) una sola volta, cambiando solo il vettore termini noti al variare di x0, ai fini della risoluzione del sistema.
Calcolo della varianza di stima
Kriging nel caso intrinseco: definizione del variogramma Ipotesi Intrinseca Funzioni di h e non di x La varianza degli incrementi definisce una nuova funzione chiamata variogramma g(h)
Kriging nel caso intrinseco: definizione del variogramma Var(Z) finita Asintoto orizzontale del variogramma (Sill) Sill Range
Kriging nel caso intrinseco: definizione del variogramma È possibile mostrare che: per ogni x1,…., xn e per ogni a1,…, an, che sono n coefficienti soddisfacenti g(h) deve essere un infinitesimo di ordine superiore rispetto a h2 cioè
Equazioni del Kriging Condizione di indistorsione Anche in questo caso si impone che la varianza dell’errore di stima sia minimo :
Equazioni del Kriging Sviluppando i calcoli e usando la definizione di varianza si ha: Minimizzando la funzione varianza usando i moltiplicatori di Lagrange si ottiene il seguente sistema lineare nelle incognite li e m (moltiplicatore di Lagrange): Varianza dell’errore di stima
BLUE (Best Linear Unbiased Estimator) Proprietà del Kriging BLUE (Best Linear Unbiased Estimator) Interpolatore esatto Calcolo di Z nella k-esima stazione di misura Intervalli di confidenza Ipotesi di distribuzione normale degli errori Per esempio 95% +1.96s lk=1 li=0 i≠k Le equazioni del sistema non dipendono dai valori misurati Zi
Ipotesi: media del campo random costante Inferenza Statistica Ipotesi: media del campo random costante Se però i dati sono irregolarmente posizionati nello spazio: Definizione di un numero di classi di distanza Per ogni classe si calcolano Numero di coppie presenti nella classe nh Distanza media della classe (o comunque una distanza rappresentativa) La somma degli incrementi tra tutti i punti xi e xj le cui distanze ricadono nella classe
Tipologie di variogrammi
Tipologie di variogrammi
Tipologie di variogrammi
Tipologie di variogrammi
Effetto nugget
Cause del nugget Errori di misura I dati non sono stati aggregati in classi di distanza sufficientemente piccoli da mostrare un comportamento continuo nell’origine
Cause del nugget Il kriging è ancora un interpolatore esatto, ma la stima è discontinua nei punti di misura La stima è comunque continua in ogni altro punto del dominio spaziale di interesse !
Anisotropia del variogramma Se il variogramma mostra diversi comportamenti per diverse classi direzionali: L’ipotesi di stazionarietà o di comportamento intrinseco potrebbero non essere valide Se le ipotesi precedenti sono assunte valide, questa anisotropia può essere eliminata tramite un’appropriata trasformazione lineare del sistema di coordinate; ciò permette di usare l’interpolatore kriging sul dominio spaziale deformato
Moving Neighborhood Vantaggi del metodo Numero minore di equazioni da impiegare per ogni punto L’ipotesi di stazionarietà o di comportamento intrinseco è limitata all’intorno in questione (condizione più plausibile) Le stazioni distanti dal punto in questione potrebbero dare luogo a pesi addirittura negativi, implicando in qualche caso stime negative !
Problemi non stazionari Casi speciali Assumere che Z sia localmente stazionario, interpolando con la tecnica moving neighborhood Assumere nota la funzione m(x). Ciò può essere dedotto da altri tipi di misure Assumere che il variogramma g(h) sia stazionario e noto ? UNIVERSAL KRIGING
CROSS VALIDATION Per testare la validità di tutte le assunzioni usate nel kriging, è preferibile testare la capacità del modello di prevedere i dati noti Si seleziona volta per volta un punto campionario i (a cui è associato Zi) Si stima il valore Zi*nel punto selezionato tramite le equazioni del kriging, sfruttando le stazioni rimanenti Si stimano l’errore Zi-Zi* e la relativa varianza dell’errore di stima sZi Fatto questo per tutti i punti, non si rigetta il modello ipotizzato se:
Esempio
Esempio
Esempio
Esempio
Esempio
Esempio
FINE
UNIVERSAL KRIGING Condizioni di indistorsione
Intrinsic Random Functions of order k UNIVERSAL KRIGING Problema: Il variogramma g(h) deve essere noto e non può essere stimato direttamente dai dati; sebbene ci siano procedure di stima del variogramma in maniera iterativa, esse sono difficili da mettere in pratica! UNIVERSAL KRIGING è caso particolare di IRF-k Intrinsic Random Functions of order k
IRF-k Intrinsic Random Functions of order k Ridefinizione dell’ipotesi intrinseca (k=0) Si assume che la differenza Zi-Z0 o Z(x+h)-Z(x), nota come primo incremento di Z, sia stazionaria. Si può dimostrare che la varianza dell’errore di stima dipenda solo dal variogramma:
Intrinsic Random Functions of order k IRF-k Intrinsic Random Functions of order k Si può riformulare il tutto in maniera differente Z0*-Z0 è un incremento di ordine zero e l’ipotesi intrinseca assume che esso sia stazionario. È possibile determinare il variogramma direttamente dai dati.
Intrinsic Random Functions of order k IRF-k Intrinsic Random Functions of order k IRF-1 IRF-2 L’errore di stima è dato da Si ponga :
Intrinsic Random Functions of order k IRF-k Intrinsic Random Functions of order k Se si ipotizza che gli incrementi generalizzati del primo o del secondo ordine di Z siano stazionari (oppure che rispettino l’ipotesi intrinseca), allora è possibile mostrare (come nel caso degli incrementi di ordine 0) che la varianza dell’errore di stima può essere espressa nella forma seguente: Dove K è una nuova funzione, detta covarianza generalizzata del primo o del secondo ordine; K è stazionaria, cioè è funzione solo del vettore distanza.
Intrinsic Random Functions of order k IRF-k Intrinsic Random Functions of order k Se si assume che K sia nota, le equazioni del kriging diventano le seguenti per il primo ordine: Per il secondo ordine si ha:
Intrinsic Random Functions of order k IRF-k Intrinsic Random Functions of order k pk(x) sono i 6 polinomi in Xi e Yi. La varianza di stima è data per il primo ordine da: Mentre per il secondo ordine si ha: Queste equazioni sono identiche a quelle dell’universal kriging, se si sostituisce g al posto di K.