La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Importanza della rappresentazione dei dati

Presentazioni simili


Presentazione sul tema: "Importanza della rappresentazione dei dati"— Transcript della presentazione:

1 Importanza della rappresentazione dei dati
Epidemiologia e flusso di dati nella prevenzione Pescara, 14 settembre2009 Importanza della rappresentazione dei dati Prof. Giovanni Capelli Cattedra di Igiene Dipartimento di Scienze Motorie e della Salute Facoltà di Scienze Motorie - Università di Cassino

2 Dati Elementari il DATO è una descrizione originaria e non interpretata di un evento è la materia prima del processo di costruzione delle informazioni è costituito da gruppi di simboli (lettere, numeri, caratteri speciali) che rappresentano quantità, azioni, cose, ecc. il DATO INIZIALE o ELEMENTARE è la rappresentazione oggettiva di fenomeni o eventi reali

3 Dati sintetici i dati sintetici si possono considerare equivalenti ad un “prodotto semilavorato intermedio” di un processo produttivo il processo di sintesi che permette di generare un dato sintetico a partire da più dati elementari modifica il potenziale informativo iniziale

4 Informazioni E’ INFORMAZIONE tutto ciò che produce variazione nel patrimonio conoscitivo di un soggetto Il concetto di informazione fa riferimento al suo percettore, al suo utilizzatore L’ INFORMAZIONE è un dato che è stato sottoposto ad un processo che lo ha reso significativo per il destinatario e realmente importante per il suo processo decisionale presente o futuro L’ INFORMAZIONE è relativa: sussiste solo se destinata a qualcuno per qualche scopo

5 Decisioni Definizione: una particolare classe di INFORMAZIONI che ha lo scopo di provocare AZIONI determinate; Perchè ciò avvenga, si richiede: la definizione di una SITUAZIONE FINALE da raggiungere la definizione di una SITUAZIONE PRESENTE, che è quella riferita dal sistema informativo L’identificazione delle AZIONI DA COMPIERSI in conformità ad una “politica” prestabilita L’uso delle informazioni appare finalizzato all’attività decisionale;

6 Perché la rappresentazione sintetica dei dati è importante?

7 Visual e Statistical Thinking
Quando si ragiona su prove quantitative, certi metodi di rappresentazione ed analisi dei dati sono meglio di altri. I metodi migliori sono anche quelli che hanno le maggiori opportunità di produrre risultati veritieri, credibili e precisi La differenza tra una analisi eccellente e una sbagliata qualche volta comporta conseguenze importanti Tufte ER, Visual Explanations. Images and Quantities, Evidence and Narrative, 1997

8 John Snow e il Colera a Londra
Londra, UK settembre 1854

9 La mappa di John Snow

10 Mettere i dati nel contesto appropriato per valutare causa ed effetto
I dati che Snow aveva a disposizione erano una lista di nomi dei deceduti, i loro indirizzi, le date del loro decesso La più naturale delle descrizioni era la rappresentazione della serie temporale, la “curva epidemica” dei decessi Ma la narrazione descrittiva non è spiegazione il solo passare del tempo non sempre spiega tutto e John Snow decise di usare una mappa dove presentava gli EFFETTI, i decessi ma anche le ESPOSIZIONI, le pompe l’ aggregarsi di esposizioni ed effetti nello spazio, il clustering, indicava associazione

11 Lezioni da questo caso Snow ebbe una “buona idea”
una teoria causale sulla diffusione della malattia che lo guidò nella raccolta dei dati Snow aveva studiato le epidemie precedenti conosceva la situazione ed era preparato a raccogliere i dati “giusti” Snow usò un metodo giusto, basato su: Mettere i dati nel contesto appropriato per valutare causa ed effetto Fare comparazioni quantitative Considerare spiegazioni alternative e casi contrari Valutare i possibili errori nei numeri riportati sui grafici

12 Il lancio dello Space Shuttle Challenger
Kennedy Space Center, Cape Canaveral, FL, USA 27 gennaio 1986

13 La 25a missione Shuttle

14 Il tragico lancio dello Shuttle Challenger
Il giorno prima del lancio, la temperatura prevista per il giorno successivo era tra 26 e 29° F (tra -3 e -1 °C) preoccupati che ad una simile temperatura le guarnizioni ad O potessero non isolare, gli ingegneri della Morton Tiokol (costruttrice dei motori a propellente solido) si erano opposti al lancio per sostenere la loro posizione, inviarono via fax alla NASA 13 lucidi un alto ufficiale della NASA rispose che era “terrorizzato” dalla raccomandazione di non lanciare, e invitò la Morton Tiokol a rivedere la sua posizione nonostante fosse la prima volta in 12 anni, che la casa sconsigliava un lancio Altri ufficiali della NASA evidenziarono punti di debolezza nel materiale presentato dalla Tiokol

15 I dati dei lanci di Shuttle precedenti al Challenger

16 Il tragico lancio dello Shuttle Challenger
Di fronte a queste posizioni, i Manager della Morton Tiokol cambiano idea e decidono che sono a favore del lancio per il giorno successivo La domanda era dunque stata sollevata la notte prima del lancio Ce la faranno domani ad isolare le guarnizioni ad O nonostante il freddo? Gli ingegneri avevano a disposizione tutti i dati necessari per stimare che la probabilità di un evento disastroso era altissima, Tuttavia il materiale da loro presentato non coglieva nel segno, non evidenziava l’ importanza della temperatura nel comportamento delle guarnizioni

17 Un grafico costruito male non aiuta a capire i dati…
Sarebbe bastato spostare la visuale nella zona con meno dati (le temperature basse) e proporre un modello di previsione di probabilità (a destra) per valutare correttamente il rischio!

18 Thinking and Design: Prima pensare e poi rappresentare
La logica della rappresentazione dei dati deve rispecchiare la logica dell’analisi: la rappresentazione grafica dei risultati deve seguire i principi del ragionamento quantitativo tipica della scienza. La struttura grafica deve riassumere il ragionamento quantitativo utilizzato per raggiungere i risultati. E allora dovremo: Avere ben presenti le fonti e le caratteristiche dei dati utilizzati Proporre appropriati confronti Prendere in esame e presentare meccanismi di causa ed effetto Esprimere le relazioni causa-effetto in modo quantitativo Riconoscere la intrinseca natura multivariata dei fenomeni analizzati Valutare spiegazioni alternative Tufte ER, Visual Explanations. Images and Quantities, Evidence and Narrative, 1997

19 Tabelle e Grafici: due mondi o un continuum?
Organizzazione spazio righe e colonne discreto Elementi testo, numeri Quantità numeri Vantaggi comparazioni simultanee GRAFICI Organizzazione spazio piano “cartesiano” (piani angolari) continui Elementi grafici 2 dimensioni punto, linea, area testo, numeri Quantità posizione area Vantaggi immediatezza

20 Elting LS, Martin CG, Cantor SB, et al
Elting LS, Martin CG, Cantor SB, et al., Influence of data display formats on physician investigator’s decisions to stop clinical trials: prospective trial with repeated measures - BMJ 1999, 318:

21 Graphical excellence Una buona rappresentazione dei dati dovrà:
mostrare i dati indurre chi guarda a riflettere sulla sostanza piuttosto che sui metodi, il disegno grafico, la tecnologia di produzione grafica evitare di distorcere ciò che i dati hanno da dire presentare molti numeri in poco spazio rendere coerenti grandi set di dati incoraggiare l’occhio a comparare diversi aspetti dei dati presentare i dati a diversi livelli di dettaglio da una visione d’insieme fino alla struttura fine servire un obiettivo ragionevole: descrivere, esplorare, tabulare, decorare essere fortemente integrata con le descrizioni verbali e statistiche dei dati Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983

22 Graphical elegance is often found in simplicity of design and complexity of data
Rappresentazioni di dati statistici attraenti: sono realizzate con schema e formato appropriati utilizzano parole, numeri e disegni insieme sono il risultato di un bilanciamento, una valutazione delle proporzioni, una riflessione sulla scala dei fenomeni mostrano un dettaglio di complessità accessibile hanno spesso qualità narrativa hanno una storia da raccontare sui dati sono realizzati in maniera professionale con attenzione e cura ai dettagli tecnici evitano la decorazione fine a sè stessa inclusa la “spazzatura grafica” di retinati, colori sgargianti, ecc. Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983

23 Quanto è veloce l’uomo?

24 Ecco il disastro della campagna di Russia di Napoleone:
Spazio Tempo Numerosità dell’esercito Andata (chiaro) Ritorno (nero) da EJ Marey, La methode graphique, Paris, 1885 (Carte Figurative de M. Minard)

25 Le tabelle: qualche esempio

26 Qual è il criterio di ordinamento di questa tabella?

27 Qual è il criterio di ordinamento di questa tabella?

28 Non sempre grafica e colori vogliono dire una buona presentazione dei dati:
in questo grafico è impossibile distinguere a prima vista i totali delle diverse ASL della provincia di Bolzano

29

30 Dalla distinzione delle caselle alla continuità dei fenomeni: I grafici

31 Piano cartesiano = spazio bidimensionale Rappresentare posizioni nello spazio: le 1000 anime delle mappe

32 Mappe per punti: collocare un fenomeno nello spazio

33 Mappe areali: utilizzare un confine “amministrativo” (integrazione spaziale)

34 Relazione Stato Sanitario Italia 2003-2004

35 Relazione sullo stato di salute della popolazione pugliese, 2005

36 Indici di vecchiaia a Roma (Quintili)

37 Per analizzare bacini d’utenza (Da: Vitullo, Carinci, Lepore, Tognoni, Aziende sanitarie e modello di uso dei DRG, Il Pensiero Scientifico Editore, 1997)

38 Il piano cartesiano “scorre” per rappresentare il tempo Rappresentare variazioni nel tempo: serie temporali, grafici lineari, grafici “ciclici”

39 Variazioni della glicemia nel tempo
da SM Powsner, ER Tufte, Graphical summary of patient status, Lancet, 344: , 1994

40 Diagrammi lineari Ciascun punto sul grafico rappresenta una coppia di modalità Ciascun valore sull’ asse x ha un solo valore sull’ asse y I punti adiacenti sono collegati da linee rette In genere, la scala sull’ asse x rappresenta il tempo è così possibile seguire il comportamento del carattere riportato in y in un determinato periodo

41 Relazione sullo stato di salute della popolazione pugliese, 2005

42 Pertosse - RM/E ( )

43 Salmonellosi - RM/E (1994-1997)
Anche la pausa è musica! Se non ci sono dati, è bene saperlo…

44 Usare l’ “indicizzazione”
1985: anno “indice”

45

46 Come far vedere una crescita che non c’è…

47 Anche con le scale indicizzate si può giocare…

48 Serie cicliche: i “coxcombs”

49 Tempo ciclico e tempo lineare a confronto

50 E… se lo spazio cartesiano fosse uno spazio “virtuale”
E… se lo spazio cartesiano fosse uno spazio “virtuale”? Gli infiniti universi dei grafici a dispersione (scatterplot)

51 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI
Sono utili per illustrare la relazione tra due diversi caratteri che assumono modalità numeriche Ogni punto del grafico rappresenta una unità statistica la scala per un carattere è riportata nell’ asse x e la scala per l’ altro nell’ asse y Se i due caratteri non sono correlati, i punti si distribuiscono casualmente su tutto il piano cartesiano STATA: twoway (scatter marriage pop, msize(medium)) , xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))

52 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI
STATA: twoway (scatter marriage pop, msize(small) mlabel(state) mlabsize(small) mlabcolor(red)), xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))

53 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI
Trend Outliers Clustering STATA: gr7 marriage pop, oneway twoway xlab(0 (0.5e+07) 2.5e+07) ylab(0 (50000) )

54 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI
STATA: twoway (scatter marriage pop), by( region)

55 1996 1997 1998 1999

56 Standard di riferimento
Complessità della casistica (ICM) 1 Standard di riferimento Quadrante PROBLEMATICO Complessità: SCARSA Efficienza: SCARSA Tranquilla Complessità Complessità: ELEVATA Efficienza: SCARSA Efficienza (ICP) 1 Efficiente Semplicità Complessità: SCARSA Efficienza: ELEVATA Quadrante VIRTUOSO Complessità: ELEVATA Efficienza: ELEVATA

57

58

59 Infine, qualcosa di più semplice: e se studiassimo la distribuzione di frequenza di singole “variabili”? Dati numerici continui: istogrammi, diagrammi a scatola (box-plot) Dati categorici: Grafici a barre, Grafici a torta Sono il pane quotidiano -> MA: non sempre la farina è buona!

60 Istogrammi e altre modi per presentare la frequenza di classi di valori continui

61 Frequenza delle osservazioni
ISTOGRAMMI Modalità numeriche Frequenza delle osservazioni n I dati vengono divisi in classi in questo caso 6 classi con un intervallo non costante Per ogni gruppo si costruisce un rettangolo: la posizione della base del rettangolo corrisponde ai margini dell’ intervallo (è quantitativa) l’ area del rettangolo è proporzionale alla frequenza rilevata per il gruppo La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi 1 4 13 5.5 7 16 STATA:graph twoway (histogram eta)

62 Un utilizzo dell’istogramma: la Piramide di età

63 Un altro utilizzo dell’istogramma: la valutazione di “normalità” (distribuzione gaussiana)

64 Normale Distribuzioni Non normale asimmetrica a destra

65 1 istogramma, 2 sottogruppi
histogram minutes, width(10) start(0) percent bfcolor(yellow) blcolor(gold) normal normopts( clcolor(red) clpat(dot) ) kdensity kdenopts( clcolor(blue) ) xlabel( 0 (10) 110) plotregion(margin(zero))

66 Durata dell’intervento chirurgico (minuti)
Distribuzioni Asimmetrica a destra Simmetrica Durata dell’intervento chirurgico (minuti)

67 Come presentare indici numerici in modo grafico: il diagramma a scatola o box-plot

68 Il diagramma a scatola (Box-Plot)
Mediana (50° percentile) Intervallo Interquartile (IQR) (75°-25° percentile) Valori adiacenti (estremi ma di non più di 1,5 IQR)

69 Conta la leggibilità, non l’orientamento…

70 Presentare categorie: le mille anime del diagramma a barre

71 Diagrammi a barre Le modalità qualitative sono riportate in ascissa
Modalità qualitatitive Frequenza delle osservazioni n Le modalità qualitative sono riportate in ascissa asse X qualitativo Per ogni gruppo si costruisce un rettangolo: la posizione della base del rettangolo (di larghezza costante) è centrata sul nome della modalità l’ area del rettangolo è proporzionale alla frequenza rilevata per il gruppo La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi A B C D

72 Relative frequency of bacterial species/groups encountered in clinical specimens from inpatients

73 Diagrammi a barre sovrapposte
In un diagramma a barre possono essere rappresentate anche più variabili Nell’esempio, le variabili prese in esame sono: Lo status di fumatore Non fumatore, fumatore e forte fumatore La presenza di un ev. coronarico acuto, evidenziata in rosso

74 Diagrammi a barre sovrapposte
In questo esempio, sono riportati i valori di frequenza relativa (percentuale) di un ev. coronarico acuto, evidenziati in rosso

75 Barre affiancate

76 Alameda County, Oakland, USA, Report 2006

77 Generalidad de Catalunya, LA SALUT I ELS SERVEIS SANITARIS A CATALUNYA La visió dels ciutadans l’any 2002

78 Trento

79 Barre a 3 dimensioni? NO, grazie

80 Barre a 3 dimensioni? NO, grazie

81 Ancora sul 3D…

82

83

84

85 Handle with care! Nobiltà e miserie dei grafici a torta

86 1 sola variabile, dato dicotomico
. tabulate eegseiz EEG seizure | activity | within 48 | postoperati | ve hours | Freq. Percent Cum. 0 | 1 | Total | graph pie, over(eegseiz) angle(90) pie( 1, color(ltblue))pie( 2, color(blue)) title(EEG seizure activity) subtitle(within 48 hours since surgery) legend(rows(2)) legend(position(3) region(lcolor(none))) graphregion(fcolor(white))

87 DIAGRAMMI A TORTA Può essere rappresentato un solo carattere
Le modalità sono rappresentate da spicchi della torta L’ area della torta è proporzionale alla frequenza relativa della modalità STATA: graph <5 5_17 18_64 >65, pie

88 Torte 2D e torte 3D

89 Locri 2002

90 Torte affiancate graph pie eegseiz noeegseiz, angle(90) by(dhca) pie( 2, color(ltblue))

91 Torte con aree ridimensionate
LFB (n=62) DHCA (n=74) r 2*RADQ(74/3.14)=9.707 2*r=2*RADQ(n/PI.GRECO()) 2*RADQ(62/3.14)=8.885

92 Molte variabili da presentare insieme? I grafici “mutivariati”

93 DIAGRAMMI POLARI o A STELLA
Sono grafici multivariati da usare per piu’ variabili o per rappresentare andamenti temporali ciclici A ciascun braccio della stella corrisponde un diverso carattere numerico Le braccia adiacenti sono collegate da linee rette La forma generale delle stelle vuole evidenziare a prima vista deviazioni dalla regolarità Il diverso sviluppo delle braccia per raggruppamenti diversi fa risaltare le caratteristiche distintive

94 Star plot multivariato (Da: Vitullo, Carinci, Lepore, Tognoni, Aziende sanitarie e modello di uso dei DRG, Il Pensiero Scientifico Editore, 1997)

95 Starplot multivariato

96 Starplot multivariato

97 ERA, Epidemiologia e Ricerca Applicata, Atlante 2006, Mortalità evitabile e contesto demografico per ASL

98 Small multiples – Regione Piemonte, La salute in Piemonte, maggio 2006

99 Small multiples Relazione Sanitaria 2004 OER Abruzzo

100 Dati Ufficio di Statistica, Comune di Roma, anni 1995/96
Mortalità evitabile con prevenzione primaria - Sesso M (Età: 5-64 anni; Tumori maligni prime vie aerodigestive, Tumori fegato, Tumori polmone, Tumori vescica, Disturbi circolatori dell’ encefalo, Cirrosi epatica, Morti violente) DISTRETTO CIRCOSCRIZIONE CLUSTER 1.99 1.17 1 = Comune di Roma 0.85 Dati Ufficio di Statistica, Comune di Roma, anni 1995/96 RSM 0.50

101 Dati Ufficio di Statistica, Comune di Roma, anni 1995/96
Mortalità evitabile con diagnosi precoce e terapia - Sesso F (Età: 5-64 anni;Tumori della mammella, Tumori del collo utero, Tumori corpo utero, Tumori della cute escluso melanoma, Malattia di Hodgkin) DISTRETTO CIRCOSCRIZIONE CLUSTER 2.30 1.23 1 = Comune di Roma 0.90 RSM Dati Ufficio di Statistica, Comune di Roma, anni 1995/96 0.43


Scaricare ppt "Importanza della rappresentazione dei dati"

Presentazioni simili


Annunci Google