La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Presentazioni simili


Presentazione sul tema: "Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014."— Transcript della presentazione:

1 Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014

2 Un titolo sbagliato Il titolo di questo corso non è del tutto corretto: il data journalism non è il giornalismo che si occupa di numeri Il giornalismo nasce dai numeri: le prime gazzette si occupavano di merci arrivate nei porti e dei loro prezzi Da sempre il giornalismo sportivo si occupa di numeri

3 Un titolo sbagliato Il data journalism è l’applicazione al giornalismo delle nuove tecnologie di elaborazione dei dati, non necessariamente numerici È un campo in rapida crescita che richiede molte competenze diverse: in questo senso questa è un’introduzione Si parlerà poco di grafica, ma molto di numeri: da qui la scelta del titolo

4 Le nuove tecnologie Un esempio di elaborazione dati

5 Esempi di data journalism Dottori e dollari Obama e Romney, 2012 (in D3)Obama e Romney Il budget di Obama, 2012 (in D3)Il budget di Obama Siccità negli Usa, 2012 (in R)Siccità negli Usa Formula 1 (in Rchart e D3)Formula 1 …ma anche: L’immigrazione in Germania e Gran BretagnaL’immigrazione in Germania e Gran Bretagna, 2014

6 Il data journalism Il data journalism si compone di diverse fasi: 1.La ricerca e il recupero dei dati 2.La pulizia dei dati 3.L’esplorazione e l’elaborazione dei dati 4.La pubblicazione e la visualizzazione dei dati

7 Data visualisation I grafici non sono l’unica conclusione possibile per un lavoro di data journalism anche se è innegabile che la presentazione grafica dei dati è molto efficace La data visualization va molto al di là delle semplici infografiche: è compito complesso, spesso svolto da statistici e fa parte della scienza statistica. La disciplina si allarga fino a lambire l’Intelligenza artificiale (machine learning) Questa introduzione si occuperà poco dell’elaborazione grafica finale, anche se l’attenzione ai grafici costituirà comunque una parte importante della lezione

8 Gli strumenti del data journalism

9 Ogni fase del data journalism può avvalersi di programmi software diversi, di complessità variabile Il data journalist «lone ranger» dovrebbe imparare a usare diversi programmi. Per questo il data journalism appare da subito come un lavoro di équipe

10 Gli strumenti del data journalism La quantità di strumenti a disposizione è tale che è possibile perdersi Data visualisation, una lista di software

11 Gli strumenti del data journalism Esistono anche strumenti molto duttili – come R, o anche Python – che permettono di fare cose diverse come estrarre, pulire, elaborare e visualizzare i dati Sono però linguaggi di programmazione, duttili perché poco «friendly» In ogni caso, il sostegno di strumenti più semplici può essere utile

12 R è un programma e un linguaggio di programmazione disegnato per l’elaborazione statistica dei dati. È un open source ed è stato via via ampliato: oggi permette anche grafici interattivi (per i quali esistono però strumenti dedicati più adeguati È gratuito e funziona anche sui computer «bloccati» dalle aziende Rivela un’impostazione scientifica Si scarica da http://www.r-project.org/http://www.r-project.org/ Gli strumenti di questo corso

13 Per la pulitura dei dati, si illustrerà l’uso di OpenRefine, disegnato per il data journalism Per l’elaborazione dei dati si userà un foglio di calcolo – Excel e/o Calc della suite LibreOffice

14 Gli strumenti di questo corso OpenRefine è un foglio elettronico disegnato dalla Google per il data journalism È molto prezioso, ma i comandi non sono immediati. Esiste un breve manuale, in inglese È gratuito e funziona anche sui computer «bloccati» dalle aziende Si scarica da openrefine.org/openrefine.org/

15 Gli strumenti di questo corso Excel è un foglio elettronico della suite Office di Windows. Usato anche dall’Fmi o dalle Università per l’elaborazione dei dati. Calc è un prodotto analogo opensource, gratuito. Non funziona sui computer «bloccati». La suite LibreOffice si scarica da www.libreoffice.org/www.libreoffice.org/ Per lo scraping dei dati da internet si illustrerà la procedura su Google Spreadsheet. Lavora on line e si trova su docs.google.com/spreadsheets

16 Gli strumenti di questo corso Sarà comunque fornito un elenco di altri prodotti software utilizzabili dai data journalist

17 La ricerca dei dati

18 Dove cercare i dati Quando non sono forniti da fonti personali, i dati sono da cercare su internet Esistono diverse modalità di accesso: –Banche dati pubbliche e internazionali Quasi sempre producono frame di dati su richiesta –Banche dati private –Siti internet

19 Banche dati internazionali Sono banche dati legate a organizzazioni internazionali Quasi tutte hanno una banca dati Esempi: –Fondo monetario internazionaleFondo monetario internazionale –Nazioni UniteNazioni Unite –Ocse 1 e 212 –Federal Reserve di St. LouisFederal Reserve di St. Louis –EurostatEurostat

20 Banche dati internazionali Molto spesso nelle banche dati internazionali è possibile ricavare dati sui paesi in via di sviluppo che non sono disponibili nel paese stesso Esempi: Banca mondiale OpenData for Africa

21 Banche dati internazionali Qui l’elenco delle agenzie statistiche dell’OnuQui Qui l’elenco delle agenzie statistiche internazionaliQui Qui l’elenco di altre agenzie internazionaliQui

22 Banche dati internazionali Non mancano banche dati internazionali gestite da privati o non-profit Esempi: –QuandlQuandl –OpenCorporates (aziende)OpenCorporates –Investigative DashboardInvestigative –Alltime AthleticsAlltime Athletics

23 Istituti di Statistica La maggior parte dei paesi ha un suo istituto nazionale di statistica, non sempre indipendente non sempre attendibile Qui l’elencoQui Per l’Italia è l’Istatl’Istat Più utile della home page è la sua banca dati I.StatI.Stat –Per il commercio estero c’è CoewebCoeweb

24 Cercare altri dati: dove? La ricerca di dati non ufficiali, non pubblici, o non immediatamente reperibili segue le stesse regole della ricerca delle notizie Molte istituzioni e organizzazioni hanno a disposizioni banche dati In più, si hanno a disposizione i motori di ricerca, a cominciare da Google

25 Usare Google per cercare dati Per cercare dati con Google occorre usare gli operatori di ricerca. Qui la guida Con site: si può limitare la ricerca a un sito particolare. Per esempio site:ilsole24ore.com (senza www) Con type: posso individuare i file di dati usando l’estensione. Per esempio type: xls

26 Le estensioni dei files di dati.xls,.xlsx -> Excel.cvs, tsv e simili -> dati separati da virgole e tabulazioni (molto usati).htm,.html,.xlm -> file web Attenzione: i dati separati da virgole,.cvs, usano sicuramente il punto (e non la virgola), come decimali

27 I database ufficiali Due ricerche su EurostatEurostat

28 Lo scraping dei dati

29 «Grattare» i dati dal web A volte i dati sono semplicemente presenti su una pagina web, per esempio una voce Wikipedia Per scaricarli ci sono diversi software che permettono di fare scraping. Alcuni di essi sono a pagamento Il più semplice è Google Spreadsheet, simile a Excel o CalcGoogle Spreadsheet

30 Scraping con Google Spreadsheet Il comando da inserire è: =ImportHtml("URL","query",index) Url è l’indirizzo del sito Query è la forma assunta dai dati, in generale è table Index è il numero della query, per esempio il numero della tabella.

31 Un esempio di scraping Una pagina di Wikipediapagina Un secondo esempioesempio

32 Altri strumenti di scraping Altri strumenti di scraping sono: –OutWit Hub OutWit Hub –Import.ioImport.io –Chrome extension Scraper Chrome extension Scraper –ScraperwikiScraperwiki Permettono, per esempio, di fare scraping su dati che compaiono su una serie di pagine web

33 Lo scraping dei testi pdf Il pdf è uno dei sistemi più diffusi: a differenza di html, il linguaggio del web, è stato però disegnato per la stampa non per strutturare logicamente i contenuti: recuperare i dati è complicato Scraperwiki permette di fare scraping su pdf, ma a pagamento (dopo il 5°)Scraperwiki Un’altra opzione è il Salva come testo di Adobe Acrobat Altrimenti occorre usare Python…

34 Scraping da pdf Scraping da un comunicato della Bcecomunicato

35 Quando il sito è bloccato Si discute se lo scraping sia legale: non mancano sentenze Non tutti i siti permettono di fare scraping

36 Ripulire i dati: OpenRefine

37 Ripulire i dati Non sempre le banche dati sono mantenute in modo ordinato Spesso sono riempite da più persone, in tempi diversi: nomi, vie, numeri possono essere inseriti con modalità diverse. Gli errori di battitura sono sempre in agguato Per ripulire (ma anche per esplorare) i dati, Google ha creato – sostanzialmente per i giornalisti – OpenRefine: gratuito, non è sempre di uso immediatoOpenRefine Si scarica anche sui computer «bloccati»

38 Un esempio di ripulitura dei dati

39 L’elaborazione dei dati

40 Partendo dai numeri Dedichiamoci ora soprattutto ai dati numerici, che sono il centro del nostro discorso e che sono i più difficili da elaborare L’idea che può venire subito in mente è che occorre innanzitutto esaminare i numeri e trarne qualche indicazione, per esempio calcolando variazioni, medie, e così via

41 Otto serie di dati Un esempio. Prendiamo in considerazione otto serie di dati, da accoppiare due a due: X1 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5 Y1 = 8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68 X2 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5 Y2 = 9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74 X3 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5 Y3 = 7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73 X4 = 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8 Y4 = 6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89

42 Un’analisi numerica La media delle x è uguale a 9, in tutti i quattro casi La varianza delle x è uguale a 11 La media delle y è uguale a 7,50 La varianza delle y è 4.122 o 4.127 La correlazione tra le x e le y è 0.816 Si può «riassumere» ciascuna coppia di dati con l’equazione y = 3 + 0.5x ma…

43 La sorpresa

44 L’importanza dei grafici L’analisi esplorativa, sia effettuata dai giornalisti che dagli statistici più esperti, comincia sempre dai grafici I grafici dell’analisi esploratoria possono non avere nulla a che fare con i grafici finali, che hanno una funzione diversa, di comunicazione efficace: il grafico più utile per l’analisi – il boxplot – non comparirà mai sui giornali, il meno utile – la torta, magari in 3d – c’è spessissimo Molte regole sono comunque simili

45 Mostrare dati con i grafici

46 Napoleone e Charles Minard

47 Florence Nightingale

48 Trovare i casi estremi

49 I casi estremi Per valutare i singoli dati, occorre avere un punto di riferimento. A volte è esterno ai dati. Molte banche centrali tra cui la Bce, per esempio, hanno un obiettivo di inflazione del 2% nel medio periodo. Ogni singolo dato può essere valutato con quel punto di riferimento Altri hanno origine statistica: il Fondo monetario internazionale considera per esempio un livello di debito/pil superiore all’85% insostenibile per i paesi con accesso ai mercati e uno del 60% insostenibile per i paesi più poveri

50 I casi estremi In altri casi, è lo stesso insieme dei dati a fornire delle indicazioni Un minimo o un massimo, per esempio, danno già l’idea di trovarsi di fronte a un caso estremo Analogamente può accadere con un minimo o un massimo da x mesi, nelle serie temporali E’ però importante avere un punto di riferimento più preciso per i casi estremi importanti perché: 1.Possono rivelare una notizia 2.Possono segnalare un errore nel data base

51 Riassumere i dati Per riassumere un insieme di dati la prima variabile da usare è la media: µ = (x 1 + x 2 + … + x n-1 + x n )/n Una volta calcolata la media è molto importante capire quanto i singoli dati si allontanano dalla media: ( x i - µ ) 2 La media di queste distanze è la varianza, la radice quadrata della varianza è la deviazione standard La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati

52 Riassumere i dati La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati L’idea è quella di misurare la distanza dei singoli dati dalla media con un’unità standard. Si può allora dire che il dato x 1 è per esempio a due deviazioni standard dalla media. Quando i dati sono molto… ordinati – poi vedremo come ipotizzare questa simmetria - il 95% si colloca tra -2 e 2 deviazioni standard dalla media, il 99,7% tra -3 e 3 deviazioni standard.

53 Riassumere i dati Attenzione a non usare con troppa leggerezza questi parametri, pur molto diffusi. Su queste indicazioni, una flessione di Borsa del 6,8% (31 agosto 1998) potrebbe capitare in un caso su 20 milioni (o 76628 anni); una flessione del 7,7% (avvenuta un anno prima) in un caso su 50 miliardi (310,6 milioni di anni) e un crollo del 29,7% (19 ottobre 1987) di un caso su 10 50, ossia 100.000 miliardi di miliardi di miliardi di miliardi di miliardi di giorni. L’universo ha circa 3.600 miliardi di giorni borsistici (365 meno sabati e domeniche in un anno). Si parla a volte di «code grasse», «fat tails».

54 Confrontare dati diversi Un esempio: –Antonio ha avuto 83/100 –Francesca ha avuto 89/100 Quindi Francesca è andata meglio di Antonio. Ma Francesca e Antonio erano in due classi diverse Nella classe di Antonio la media è stata 74, in quella di Francesca 80: i professori di Francesca erano più generosi Nella classe di Antonio la deviazione standard è stata di 4, in quella di Francesca di 6

55 Confrontare dati diversi Voto Antonio = 83 Voto Francesca = 89 Media ClasseAntonio = 74 Media ClasseFrancesca = 80 Sd ClasseAntonio = 4Sd ClasseFrancesca = 6 Il voto «normalizzato» di Antonio è allora: (83-74)/4 = 2.25 Il voto «normalizzato» di Francesca è: (89-80)/6 = 1.5 In realtà Antonio ha ottenuto un risultato migliore di Francesca

56 Il problema della media La media, e la deviazione standard, non sono però dati stabili Sono molto influenzati da quei «casi limite» che noi vogliamo individuare E’ come avere un Autovelox che a ogni multa fa salire la velocità alla quale scatta la foto Qualche anno fa, la Guinea Equatoriale appariva come uno dei paesi con il maggior reddito pro capite: in realtà c’erano poche persone e poche aziende ricchissime e la maggior parte della popolazione molto povera

57 La mediana Ci sono molti strumenti per ottenere un valore più stabile o «robusto» Nello sport si usa la «media olimpica»: il voto più alto e quello più basso vengono scartati L’altro sistema è calcolare la mediana: se metto in fila indiana, in ordine di reddito crescente, un insieme di persone, il reddito mediano è il reddito della persona «in mezzo» e divide il gruppo in due parti (oppure la media delle due persone «al centro» se il numero di persone è pari) Se su 100 persone, 99 guadagnano mille euro al mese e 1 un milione, il reddito mediano è mille euro

58 Verso un po’ di ordine La prima cosa da fare è confrontare la mediana e la media Se sono molto vicine i dati sono simmetrici e posso continuare a usare la media, la deviazione standard e i valori critici della deviazione standard Se sono lontane e la media è maggiore della mediana: è possibile trovare casi limite (o più casi limite) superiori alla media Se sono lontane e la media è minore della mediana, è possibile trovare casi limite (o più casi limite) inferiori alla media

59 La mediana Una volta diviso l’insieme in due parti, attraverso la mediana, posso ulteriormente dividere in due i due sottogruppi con lo stesso sistema: ottengo il primo quartile Q 1 e il terzo quartile Q 3 (la mediana è il secondo quartile) La differenza IQR = Q 3 - Q 1 (lo… scarto interquartile) può sostituire la deviazione standard

60 La mediana IQR = Q 3 - Q 1 I casi limite sono al di sotto di Q 1 – 1,5*IQR e al di sopra di Q 3 + 1,5*IQR Tutto un po’ complicato… Come semplificare? La soluzione è sul sito www.alcula.comwww.alcula.com

61 Deviazioni standard Se si accetta di perdere precisione, si ci può comunque affidare alla deviazione standard. La probabilità che un dato sia alla distanza di due deviazioni standard della media non è mai maggiore di ¼ (25%) o 1/2 2. La probabilità che sia alla distanza di tre deviazioni standard non è mai maggiore dell’11% (1/3 2 ) La probabilità che sia alla distanza di sei deviazioni standard no è mai maggiore del 2.8%. Quando i dati sono «ordinati», la probabilità che un dato sia a distanza di sei deviazioni standard è di 0,000000001 % …

62 Le serie temporali

63 La prima valutazione, di fronte a una serie temporale è piuttosto il calcolo delle variazioni Per dati quotidiani si calcola in primo luogo la variazione quotidiani, per dati mensili variazioni mensili Nei dati macroeconomici si usa spesso anche la variazione annuale La formula per la percentuale è: (X n /x n-1 - 1)*100

64 Le medie mobili Per alcuni dati particolarmente volatili, per esempio quelli su import, export, quantità di moneta, è opportuno cercare di individuare una tendenza di fondo isolandola dalle variazioni temporanee Il modo più semplice è quello di calcolare la media mobile In genere trimestrale per i dati macroeconomici, ma per le quotazioni finanziari si può usare, insieme, la media a 14 giorni, quella a 200 giorni ecc.

65 Le medie mobili Per usare la media mobile, al posto del dato di novembre si usa la media novembre-ottobre- settembre, al posto del dato di ottobre la media ottobre-settembre-agosto ecc. Si disegna il grafico, sovrapponendolo a quello con i dati puntuali Se serve, si calcolano le variazioni tra un mese e l’altro usando la stessa formula dei dati puntuali

66 Le insidie della statistica Le statistiche possono essere molto insidiose, e occorre fare tanta attenzione su come usarle Non sarebbe impossibile ricavare dai dati ufficiali l’indicazione secondo cui nell’Unione europea il numero degli analfabeti è di circa 26 milioni Non sarebbe impossibile trovare anche una correlazione tra il livello di alfabetismo e la misura delle scarpe Una notizia…

67 Le insidie della statistica

68 In passato sono state elaborate correlazioni perfette tra l’inflazione britannica e la temperatura di Londra, due variabili senza alcun legame E’ possibile stabilire, in alcuni paesi, una correlazione tra il consumo di gelati e il numero dei morsi di serpente. Sono due grandezze indipendenti ma legate alle stagioni e alla temperatura atmosferica In ogni caso, la correlazione statistica non segnala mai, da sola, un rapporto di causa ed effetto ma soltanto un legame che può anche rivelarsi temporaneo o mutare caratteristiche nel tempo

69 Le insidie della statistica

70 Il paradosso di Simpson

71

72 riccardo.sorrentino@ilsole24ore.com riccardo.sorrentino@yahoo.com


Scaricare ppt "Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014."

Presentazioni simili


Annunci Google