La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi dei dati ecologici. I dati Molti dati sono nulli!

Presentazioni simili


Presentazione sul tema: "Analisi dei dati ecologici. I dati Molti dati sono nulli!"— Transcript della presentazione:

1 Analisi dei dati ecologici

2 I dati

3 Molti dati sono nulli!

4 In questo esempio circa 1/3 dei dati è 0

5 Caratteristiche dei dati ecologici n I dati sono sparsi, cioè hanno molti valori nulli (a volte la maggioranza!) n La gran parte delle specie presenti è rara. n I fattori ambientali che influenzano la distribuzione delle specie sono molteplici e combinati fra loro,... n...ma quelli veramente importanti sono pochi (bassa dimensionalità intrinseca). n I dati contengono molto rumore sia per eventi stocastici e contingenti, sia per lerrore di osservazione (anche in condizioni ideali le repliche sono diverse!) n Linformazione è spesso ridondante (la specie A è associata alla specie B, ma questa può essere associata alla specie C, etc.): questo è un problema, ma è anche ciò che rende possibile interpretare i dati ecologici.

6 Gradienti ambientali e cenoclini

7 Piani di campionamento n Non esistono informazioni preliminari, le scale spazio-temporali non sono note: u piano randomizzato n Esistono informazioni preliminari, le scale spazio-temporali sono note: u piano regolare n Esistono sufficienti dati di riferimento per descrittori accessori (covarianti): u piano stratificato

8 Scale e frequenze di osservazione Spazio=Tempo

9 La cassetta degli attrezzi. n Ordinamento (PCA, MDS, NMDS, CA, DCA, CCA, etc.) n Classificazione (algoritmi gerarchici, k- means, reti neuronali, etc.) n Analisi spaziale (correlogrammi, variogrammi, kriging, co-kriging, etc.) n Analisi di serie (periodogrammi, runs tests, cross-correlation, cross-association, etc.) n Confronti fra dati multivariati (MRPP, test di Mantel, INDVAL, etc.) n Reti neurali n...

10 Misure di distanza n Distanza euclidea n Distanza di Manhattan n Distanza di Canberra n Metrica di Minkowksi

11 Misure di similarità Osservazione j 10 k 1 ab 0 cd p = a + b + c + d n Numero di taxa presenti in entrambi i campioni n Numero di taxa presenti solo nel campione k n Numero di taxa presenti solo nel campione j n Numero di taxa assenti in entrambi i campioni Per i coefficienti binari (dati di presenza/assenza)

12 Misure di similarità n Indice di concordanza n Indice di Jaccard n Indice di Sørensen n Coeff. di Bray-Curtis simmetrico asimmetrico Dati binari (qualitativi) Dati quantitativi

13 Similarità e dissimilarità Dissimilarità = 1 - Similarità Un coefficiente di dissimilarità è di tipo metrico se: 1.D ij =0 se j=k 2.D jk >0 se j k 3.D jk =D kj 4.D jk +D kh D jh (assioma della diseguaglianza triangolare) Semi-metrica

14 Tecniche di ordinamento Tre specie……rappresentate in due dimensioni

15 Perchè lordinamento? "Ordination primarily endeavors to represent sample and species relationships as faithfully as possible in a low-dimensional space. Gauch (1982)

16 n E impossibile visualizzare efficacemente insiemi di dati multidimensionali complessi n Unanalisi multivariata è più economica e più efficiente di n analisi univariate n Gli assi dello spazio ridotto di solito rappresentano gradienti ambientali interpretabili n Se si effettuano anche test statistici, si evitano i problemi legati alle comparazioni multiple n Concentrando lattenzione solo su alcuni assi si evita di considerare il rumore Perchè...

17 E inoltre... n Fino a non molto tempo fa lobiettivo dei metodi di ordinamento era di tipo prettamente descrittivo (più unarte che una scienza, quindi!). n Con la CCA, i test statistici dipotesi sono stati accoppiati alle tecniche di ordinamento, superando lapproccio descrittivo (cfr. ter Braak 1985)

18 Analisi indiretta di gradiente n Metodi basati su distanze u Ordinamento polare (Bray-Curtis) u Analisi delle Coordinate Principali (PCoA) u Multidimensional Scaling Nonmetrico (NMDS) n Metodi basati su autovalori/autovettori u Modello lineare F Analisi delle Componenti Principali (PCA) u Modello unimodale F Analisi delle Corrispondenze (CA) F Analisi delle Corrispondenze Detrendizzata (DCA)

19 PCoA Le distanze nello spazio originale sono approssimate al meglio dalle distanze (euclidee) nello spazio ridotto (cioè nellordinamento) n dimensioni (taxa) 2 dimensioni (assi)

20 PCA Rototraslazione rigida degli assi originali. Si assumono relazioni lineari fra le variabili.

21 CA Metrica di Si assumono risposte unimodali dei taxa. Ordinamento simultaneo di campioni e taxa (oggetti e variabili).

22 Analisi diretta di gradiente n Modello lineare u Analisi di Ridondanza (RDA) n Modello unimodale u Analisi Canonica delle Corrispondenze (CCA) u Analisi Canonica delle Corrispondenze Detrendizzata (DCCA)

23 CCA E concettualmente affine alla CA, ma lordinamento di campioni e taxa è vincolato a combinazioni lineari di variabili ambientali. Rappresentazione simultanea di campioni, taxa e gradienti ambientali.

24 Clustering (classificazione) n Obiettivi: u Formare gruppi omogenei di entità (osservazioni, campioni, siti, specie, etc.) u Identificare discontinuità (nello spazio, nel tempo) n Algoritmi: u Gerarchici u Non gerarchici Vincolati Non vincolati

25 Clustering gerarchico

26 s t a z i o n i distanza euclidea D s t a z i o n i S similarità di Jaccard

27 Clustering gerarchico vincolato (contiguità spaziale)

28

29 Clustering non gerarchico ( k -means)

30 Self Organizing Maps

31 Test basati su permutazioni n Sono un caso speciale dei test di randomizzazione, che utilizzano serie di numeri casuali formulare delle inferenze statistiche. n La potenza di calcolo dei moderni PC ha reso possibile la loro applicazione diffusa. n Questi metodi non richiedono che siano soddisfatte particolari assunzioni circa la distribuzione dei dati. n Quindi, questi metodi sono molto più adatti dei tradizionali test statistici (es. t-tests, ANOVA, etc.) in applicazioni ecologiche.

32 n Si definisce una statistica il cui valore sia proporzionale allintensità del processo o della relazione studiati n Si definisce unipotesi nulla H 0 n Si crea un set di dati basati sul rimescolamento di quelli realmente osservati (la modalità di rimescolamento viene definita in funzione dellipotesi nulla) n Si ricalcola la statistica di riferimento e si compara il valore con quello osservato n Si ripetono gli ultimi due punti molte volte (es volte) n Se la statistica osservata è maggiore del limite ottenuto nel 95% dei casi basati su rimescolamento, si rigetta H 0 Test basati su permutazioni

33 ordina ANOSIM (ANalysis Of SIMilarities) n=6n=9 N=6

34 n=6n=9 n=6n=9n=6n=9n=6n=9 R= 0.50 r w = 5.75 r b =9.50 R= 0.20 r w = 7.08 r b =8.61 R= 0.19 r w = 7.17 r b =8.56 R= r w = 9.17 r b = P=90%

35 Indicator Species Analysis L'abbondanza relativa RA kj della specie j nel gruppo di campioni k è La frequenza media RF kj della presenza di una specie j nel gruppo di campioni k è Combinando abbondanze relative (RA) e frequenze medie (RF) si ottiene quindi il valore indicatore (IV)

36 Indicator Species Analysis n Merluccius merluccius - Indicator Values n Group: A B n Number of items: n n ID Avg Max INDVAL p taxon n n 1 EUFASI Eufasiacei n 2 THYSAN Thysanopoda aequalis n 3 RESPES Resti pesci n 4 RESCRO Resti crostacei n 5 MISIDA Misidacei nc n 6 DECAPO Decapodi nc n 7 CEFALO Cefalopodi n 8 CHLORO Chlorotocus crassicornis n 9 CRANGO Crangon sp n 10 SARDIN Sardina pilchardus n 11 ROCINE Rocinela sp n 12 POLICH Policheti n

37 Test di Mantel Matrice X distanze geografiche Matrice Y dissimilarità cenotica

38 Statistiche di Mantel assoluta standardizzata La distribuzione di riferimento si genera ricalcolando la statistica dopo permutazioni aleatorie di una delle due matrici o (per matrici molto grandi) approssimando una distribuzione t di Student.

39 Problema: valutare gli effetti della protezione sulla struttura delle comunità. n La struttura delle comunità varia in funzione delle risposte delle specie a gradienti ambientali complessi. n Limpatto antropico altera o modula questi gradienti. n La protezione dellambiente riduce limpatto antropico o lo trasferisce in altre aree.

40 Viene replicato su base routinaria un piano di campionamento su transetti in unarea protetta e in aree limitrofe ecologicamente comparabili. Area protetta A1 A2B2 B1 C1 C2 A1 A2 B2 B1 C1 C2 A1 A2 B2 B1 C1 C2 Variazioni batimetricheEffetto protezione Variazioni batimetriche Eterogeneità spaziale OggiTra 10 anni

41 In assenza di vincoli limpatto è distribuito e non produce danni permanenti. In presenza di vincoli limpatto supera la soglia tollerata dal sistema, che subisce un danno permanente. Divieto di ancoraggio

42 Self Organizing Maps Divieto di ancoraggio A B C D E F G AB C D E F G

43 Self Organizing Maps Divieto di ancoraggio A B C D E F G AB C D E F G Densità di ancoraggio

44


Scaricare ppt "Analisi dei dati ecologici. I dati Molti dati sono nulli!"

Presentazioni simili


Annunci Google