La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Importanza della rappresentazione dei dati Prof. Giovanni Capelli Cattedra di Igiene Dipartimento di Scienze Motorie e della Salute Facoltà di Scienze.

Presentazioni simili


Presentazione sul tema: "Importanza della rappresentazione dei dati Prof. Giovanni Capelli Cattedra di Igiene Dipartimento di Scienze Motorie e della Salute Facoltà di Scienze."— Transcript della presentazione:

1 Importanza della rappresentazione dei dati Prof. Giovanni Capelli Cattedra di Igiene Dipartimento di Scienze Motorie e della Salute Facoltà di Scienze Motorie - Università di Cassino Epidemiologia e flusso di dati nella prevenzione Pescara, 14 settembre2009

2 Dati Elementari l il DATO è una descrizione originaria e non interpretata di un evento è è la materia prima del processo di costruzione delle informazioni è è costituito da gruppi di simboli (lettere, numeri, caratteri speciali) che rappresentano quantità, azioni, cose, ecc. è il DATO INIZIALE o ELEMENTARE è la rappresentazione oggettiva di fenomeni o eventi reali

3 Dati sintetici l i dati sintetici si possono considerare equivalenti ad un prodotto semilavorato intermedio di un processo produttivo è il processo di sintesi che permette di generare un dato sintetico a partire da più dati elementari modifica il potenziale informativo iniziale

4 Informazioni l E INFORMAZIONE tutto ciò che produce variazione nel patrimonio conoscitivo di un soggetto è Il concetto di informazione fa riferimento al suo percettore, al suo utilizzatore è L INFORMAZIONE è un dato che è stato sottoposto ad un processo che lo ha reso significativo per il destinatario e realmente importante per il suo processo decisionale presente o futuro è L INFORMAZIONE è relativa: sussiste solo se destinata a qualcuno per qualche scopo

5 Decisioni l Definizione: una particolare classe di INFORMAZIONI che ha lo scopo di provocare AZIONI determinate; è Perchè ciò avvenga, si richiede: n la definizione di una SITUAZIONE FINALE da raggiungere n la definizione di una SITUAZIONE PRESENTE, che è quella riferita dal sistema informativo n Lidentificazione delle AZIONI DA COMPIERSI in conformità ad una politica prestabilita è Luso delle informazioni appare finalizzato allattività decisionale;

6 Perché la rappresentazione sintetica dei dati è importante?

7 Visual e Statistical Thinking l Quando si ragiona su prove quantitative, certi metodi di rappresentazione ed analisi dei dati sono meglio di altri. l I metodi migliori sono anche quelli che hanno le maggiori opportunità di produrre risultati veritieri, credibili e precisi l La differenza tra una analisi eccellente e una sbagliata qualche volta comporta conseguenze importanti Tufte ER, Visual Explanations. Images and Quantities, Evidence and Narrative, 1997

8 John Snow e il Colera a Londra Londra, UK settembre 1854

9 La mappa di John Snow

10 Mettere i dati nel contesto appropriato per valutare causa ed effetto l I dati che Snow aveva a disposizione erano una lista di nomi dei deceduti, i loro indirizzi, le date del loro decesso è La più naturale delle descrizioni era la rappresentazione della serie temporale, la curva epidemica dei decessi l Ma la narrazione descrittiva non è spiegazione è il solo passare del tempo non sempre spiega tutto n e John Snow decise di usare una mappa Gdove presentava gli EFFETTI, i decessi Gma anche le ESPOSIZIONI, le pompe n l aggregarsi di esposizioni ed effetti nello spazio, il clustering, indicava associazione

11 Lezioni da questo caso l Snow ebbe una buona idea è una teoria causale sulla diffusione della malattia che lo guidò nella raccolta dei dati l Snow aveva studiato le epidemie precedenti è conosceva la situazione ed era preparato a raccogliere i dati giusti l Snow usò un metodo giusto, basato su: è Mettere i dati nel contesto appropriato per valutare causa ed effetto è Fare comparazioni quantitative è Considerare spiegazioni alternative e casi contrari è Valutare i possibili errori nei numeri riportati sui grafici

12 Il lancio dello Space Shuttle Challenger Kennedy Space Center, Cape Canaveral, FL, USA 27 gennaio 1986

13 La 25a missione Shuttle

14 Il tragico lancio dello Shuttle Challenger l Il giorno prima del lancio, la temperatura prevista per il giorno successivo era tra 26 e 29° F (tra -3 e -1 °C) è preoccupati che ad una simile temperatura le guarnizioni ad O potessero non isolare, gli ingegneri della Morton Tiokol (costruttrice dei motori a propellente solido) si erano opposti al lancio è per sostenere la loro posizione, inviarono via fax alla NASA 13 lucidi è un alto ufficiale della NASA rispose che era terrorizzato dalla raccomandazione di non lanciare, e invitò la Morton Tiokol a rivedere la sua posizione n nonostante fosse la prima volta in 12 anni, che la casa sconsigliava un lancio è Altri ufficiali della NASA evidenziarono punti di debolezza nel materiale presentato dalla Tiokol

15 I dati dei lanci di Shuttle precedenti al Challenger

16 Il tragico lancio dello Shuttle Challenger l Di fronte a queste posizioni, i Manager della Morton Tiokol cambiano idea e decidono che sono a favore del lancio per il giorno successivo l La domanda era dunque stata sollevata la notte prima del lancio è Ce la faranno domani ad isolare le guarnizioni ad O nonostante il freddo? n Gli ingegneri avevano a disposizione tutti i dati necessari per stimare che la probabilità di un evento disastroso era altissima, n Tuttavia il materiale da loro presentato non coglieva nel segno, non evidenziava l importanza della temperatura nel comportamento delle guarnizioni

17 Un grafico costruito male non aiuta a capire i dati… l Sarebbe bastato spostare la visuale nella zona con meno dati (le temperature basse) e proporre un modello di previsione di probabilità (a destra) per valutare correttamente il rischio!

18 Thinking and Design: Prima pensare e poi rappresentare l La logica della rappresentazione dei dati deve rispecchiare la logica dellanalisi: la rappresentazione grafica dei risultati deve seguire i principi del ragionamento quantitativo tipica della scienza. La struttura grafica deve riassumere il ragionamento quantitativo utilizzato per raggiungere i risultati. E allora dovremo: è Avere ben presenti le fonti e le caratteristiche dei dati utilizzati è Proporre appropriati confronti è Prendere in esame e presentare meccanismi di causa ed effetto è Esprimere le relazioni causa-effetto in modo quantitativo è Riconoscere la intrinseca natura multivariata dei fenomeni analizzati è Valutare spiegazioni alternative Tufte ER, Visual Explanations. Images and Quantities, Evidence and Narrative, 1997

19 Tabelle e Grafici: due mondi o un continuum? l TABELLE è Organizzazione spazio n righe e colonne Gdiscreto è Elementi n testo, numeri è Quantità n numeri è Vantaggi n comparazioni simultanee l GRAFICI è Organizzazione spazio n piano cartesiano n (piani angolari) Gcontinui è Elementi n grafici 2 dimensioni Gpunto, linea, area n testo, numeri è Quantità n posizione n area è Vantaggi n immediatezza

20 Elting LS, Martin CG, Cantor SB, et al., Influence of data display formats on physician investigators decisions to stop clinical trials: prospective trial with repeated measures - BMJ 1999, 318:

21 Graphical excellence l Una buona rappresentazione dei dati dovrà: è mostrare i dati è indurre chi guarda a riflettere sulla sostanza n piuttosto che sui metodi, il disegno grafico, la tecnologia di produzione grafica è evitare di distorcere ciò che i dati hanno da dire è presentare molti numeri in poco spazio è rendere coerenti grandi set di dati è incoraggiare locchio a comparare diversi aspetti dei dati è presentare i dati a diversi livelli di dettaglio n da una visione dinsieme fino alla struttura fine è servire un obiettivo ragionevole: n descrivere, esplorare, tabulare, decorare è essere fortemente integrata con le descrizioni verbali e statistiche dei dati Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983

22 Graphical elegance is often found in simplicity of design and complexity of data l Rappresentazioni di dati statistici attraenti: è sono realizzate con schema e formato appropriati è utilizzano parole, numeri e disegni insieme è sono il risultato di un bilanciamento, una valutazione delle proporzioni, una riflessione sulla scala dei fenomeni è mostrano un dettaglio di complessità accessibile è hanno spesso qualità narrativa n hanno una storia da raccontare sui dati è sono realizzati in maniera professionale n con attenzione e cura ai dettagli tecnici è evitano la decorazione fine a sè stessa n inclusa la spazzatura grafica di retinati, colori sgargianti, ecc. Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983

23 Quanto è veloce luomo?

24 l Ecco il disastro della campagna di Russia di Napoleone: è Spazio è Tempo è Numerosità dellesercito è Andata (chiaro) è Ritorno (nero) da EJ Marey, La methode graphique, Paris, 1885 (Carte Figurative de M. Minard)

25 Le tabelle: qualche esempio

26 l Qual è il criterio di ordinamento di questa tabella?

27

28 l Non sempre grafica e colori vogliono dire una buona presentazione dei dati: è in questo grafico è impossibile distinguere a prima vista i totali delle diverse ASL della provincia di Bolzano

29

30 Dalla distinzione delle caselle alla continuità dei fenomeni: I grafici

31 Piano cartesiano = spazio bidimensionale Rappresentare posizioni nello spazio: le 1000 anime delle mappe

32 Mappe per punti: collocare un fenomeno nello spazio

33 Mappe areali: utilizzare un confine amministrativo (integrazione spaziale)

34 Relazione Stato Sanitario Italia

35 Relazione sullo stato di salute della popolazione pugliese, 2005

36 Indici di vecchiaia a Roma (Quintili)

37 Per analizzare bacini dutenza (Da: Vitullo, Carinci, Lepore, Tognoni, Aziende sanitarie e modello di uso dei DRG, Il Pensiero Scientifico Editore, 1997)

38 Il piano cartesiano scorre per rappresentare il tempo Rappresentare variazioni nel tempo: serie temporali, grafici lineari, grafici ciclici

39 Variazioni della glicemia nel tempo da SM Powsner, ER Tufte, Graphical summary of patient status, Lancet, 344: , 1994

40 Diagrammi lineari l Ciascun punto sul grafico rappresenta una coppia di modalità l Ciascun valore sull asse x ha un solo valore sull asse y l I punti adiacenti sono collegati da linee rette l In genere, la scala sull asse x rappresenta il tempo è è così possibile seguire il comportamento del carattere riportato in y in un determinato periodo

41 Relazione sullo stato di salute della popolazione pugliese, 2005

42 Pertosse - RM/E ( )

43 Salmonellosi - RM/E ( ) Anche la pausa è musica! Se non ci sono dati, è bene saperlo…

44 Usare l indicizzazione 1985: anno indice

45

46 Come far vedere una crescita che non cè…

47 Anche con le scale indicizzate si può giocare…

48 Serie cicliche: i coxcombs

49 Tempo ciclico e tempo lineare a confronto

50 E… se lo spazio cartesiano fosse uno spazio virtuale? Gli infiniti universi dei grafici a dispersione (scatterplot)

51 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI l Sono utili per illustrare la relazione tra due diversi caratteri che assumono modalità numeriche l Ogni punto del grafico rappresenta una unità statistica è la scala per un carattere è riportata nell asse x e la scala per l altro nell asse y l Se i due caratteri non sono correlati, i punti si distribuiscono casualmente su tutto il piano cartesiano STATA: twoway (scatter marriage pop, msize(medium)), xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))

52 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI STATA: twoway (scatter marriage pop, msize(small) mlabel(state) mlabsize(small) mlabcolor(red)), xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))

53 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI STATA: gr7 marriage pop, oneway twoway xlab(0 (0.5e+07) 2.5e+07) ylab(0 (50000) ) Trend Outliers Clustering

54 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI STATA: twoway (scatter marriage pop), by( region)

55

56 Standard di riferimento Complessità della casistica (ICM) Efficienza (ICP) Quadrante PROBLEMATICO Complessità: SCARSA Efficienza:SCARSA Tranquilla Complessità Complessità: ELEVATA Efficienza:SCARSA Efficiente Semplicità Complessità: SCARSA Efficienza:ELEVATA Quadrante VIRTUOSO Complessità: ELEVATA Efficienza:ELEVATA

57

58

59 Infine, qualcosa di più semplice: e se studiassimo la distribuzione di frequenza di singole variabili? Dati numerici continui: istogrammi, diagrammi a scatola (box-plot) Dati categorici: Grafici a barre, Grafici a torta Sono il pane quotidiano -> MA: non sempre la farina è buona!

60 Istogrammi e altre modi per presentare la frequenza di classi di valori continui

61 ISTOGRAMMI Modalità numeriche Frequenza delle osservazioni 0 n l I dati vengono divisi in classi è in questo caso 6 classi con un intervallo non costante l Per ogni gruppo si costruisce un rettangolo: è la posizione della base del rettangolo corrisponde ai margini dell intervallo (è quantitativa) l area del rettangolo è proporzionale alla frequenza rilevata per il gruppo l La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi STATA:graph twoway (histogram eta)

62 Un utilizzo dellistogramma: la Piramide di età

63 Un altro utilizzo dellistogramma: la valutazione di normalità (distribuzione gaussiana)

64 Distribuzioni Normale Non normale asimmetrica a destra

65 1 istogramma, 2 sottogruppi histogram minutes, width(10) start(0) percent bfcolor(yellow) blcolor(gold) normal normopts( clcolor(red) clpat(dot) ) kdensity kdenopts( clcolor(blue) ) xlabel( 0 (10) 110) plotregion(margin(zero))

66 Distribuzioni Simmetrica Asimmetrica a destra Durata dellintervento chirurgico (minuti)

67 Come presentare indici numerici in modo grafico: il diagramma a scatola o box-plot

68 Il diagramma a scatola (Box-Plot) Mediana (50° percentile) Intervallo Interquartile (IQR) (75°-25° percentile) Valori adiacenti (estremi ma di non più di 1,5 IQR)

69 Conta la leggibilità, non lorientamento…

70 Presentare categorie: le mille anime del diagramma a barre

71 Diagrammi a barre l Le modalità qualitative sono riportate in ascissa è asse X qualitativo l Per ogni gruppo si costruisce un rettangolo: è la posizione della base del rettangolo (di larghezza costante) è centrata sul nome della modalità è l area del rettangolo è proporzionale alla frequenza rilevata per il gruppo l La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi AB CD Modalità qualitatitive Frequenza delle osservazioni 0 n

72 Relative frequency of bacterial species/groups encountered in clinical specimens from inpatients

73 Diagrammi a barre sovrapposte l In un diagramma a barre possono essere rappresentate anche più variabili l Nellesempio, le variabili prese in esame sono: è Lo status di fumatore n Non fumatore, fumatore e forte fumatore è La presenza di un ev. coronarico acuto, evidenziata in rosso

74 Diagrammi a barre sovrapposte l In questo esempio, sono riportati i valori di frequenza relativa (percentuale) di un ev. coronarico acuto, evidenziati in rosso

75 Barre affiancate

76 Alameda County, Oakland, USA, Report 2006

77 Generalidad de Catalunya, LA SALUT I ELS SERVEIS SANITARIS A CATALUNYA La visió dels ciutadans lany 2002

78 Trento

79 Barre a 3 dimensioni? NO, grazie

80

81 Ancora sul 3D…

82

83

84

85 Handle with care! Nobiltà e miserie dei grafici a torta

86 1 sola variabile, dato dicotomico. tabulate eegseiz EEG seizure | activity | within 48 | postoperati | ve hours | Freq. Percent Cum | | Total | graph pie, over(eegseiz) angle(90) pie( 1, color(ltblue))pie( 2, color(blue)) title(EEG seizure activity) subtitle(within 48 hours since surgery) legend(rows(2)) legend(position(3) region(lcolor(none))) graphregion(fcolor(white))

87 DIAGRAMMI A TORTA l Può essere rappresentato un solo carattere l Le modalità sono rappresentate da spicchi della torta l L area della torta è proporzionale alla frequenza relativa della modalità STATA: graph 65, pie

88 Torte 2D e torte 3D

89 Locri 2002

90 Torte affiancate graph pie eegseiz noeegseiz, angle(90) by(dhca) pie( 2, color(ltblue))

91 Torte con aree ridimensionate LFB (n=62)DHCA (n=74) 2*r=2*RADQ(n/PI.GRECO()) 2*RADQ(62/3.14)=8.885 r 2*RADQ(74/3.14)=9.707

92 Molte variabili da presentare insieme? I grafici mutivariati

93 DIAGRAMMI POLARI o A STELLA l Sono grafici multivariati è da usare per piu variabili è o per rappresentare andamenti temporali ciclici l A ciascun braccio della stella corrisponde un diverso carattere numerico l Le braccia adiacenti sono collegate da linee rette l La forma generale delle stelle vuole evidenziare a prima vista deviazioni dalla regolarità è Il diverso sviluppo delle braccia per raggruppamenti diversi fa risaltare le caratteristiche distintive

94 Star plot multivariato (Da: Vitullo, Carinci, Lepore, Tognoni, Aziende sanitarie e modello di uso dei DRG, Il Pensiero Scientifico Editore, 1997)

95 Starplot multivariato

96

97 ERA, Epidemiologia e Ricerca Applicata, Atlante 2006, Mortalità evitabile e contesto demografico per ASL

98 Small multiples – Regione Piemonte, La salute in Piemonte, maggio 2006

99 Small multiples Relazione Sanitaria 2004 OER Abruzzo

100 DISTRETTO CIRCOSCRIZIONE Mortalità evitabile con prevenzione primaria - Sesso M (Età: 5-64 anni; Tumori maligni prime vie aerodigestive, Tumori fegato, Tumori polmone, Tumori vescica, Disturbi circolatori dell encefalo, Cirrosi epatica, Morti violente) CLUSTER Dati Ufficio di Statistica, Comune di Roma, anni 1995/ RSM 1 = Comune di Roma

101 Mortalità evitabile con diagnosi precoce e terapia - Sesso F (Età: 5-64 anni;Tumori della mammella, Tumori del collo utero, Tumori corpo utero, Tumori della cute escluso melanoma, Malattia di Hodgkin) DISTRETTOCIRCOSCRIZIONECLUSTER Dati Ufficio di Statistica, Comune di Roma, anni 1995/ RSM 1 = Comune di Roma


Scaricare ppt "Importanza della rappresentazione dei dati Prof. Giovanni Capelli Cattedra di Igiene Dipartimento di Scienze Motorie e della Salute Facoltà di Scienze."

Presentazioni simili


Annunci Google