Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014

Un titolo sbagliato Il titolo di questo corso non è del tutto corretto: il data journalism non è il giornalismo che si occupa di numeri Il giornalismo nasce dai numeri: le prime gazzette si occupavano di merci arrivate nei porti e dei loro prezzi Da sempre il giornalismo sportivo si occupa di numeri

Un titolo sbagliato Il data journalism è l’applicazione al giornalismo delle nuove tecnologie di elaborazione dei dati, non necessariamente numerici È un campo in rapida crescita che richiede molte competenze diverse: in questo senso questa è un’introduzione Si parlerà poco di grafica, ma molto di numeri: da qui la scelta del titolo

Le nuove tecnologie Un esempio di elaborazione dati

Esempi di data journalism Dottori e dollari Obama e Romney, 2012 (in D3)Obama e Romney Il budget di Obama, 2012 (in D3)Il budget di Obama Siccità negli Usa, 2012 (in R)Siccità negli Usa Formula 1 (in Rchart e D3)Formula 1 …ma anche: L’immigrazione in Germania e Gran BretagnaL’immigrazione in Germania e Gran Bretagna, 2014

Il data journalism Il data journalism si compone di diverse fasi: 1.La ricerca e il recupero dei dati 2.La pulizia dei dati 3.L’esplorazione e l’elaborazione dei dati 4.La pubblicazione e la visualizzazione dei dati

Data visualisation I grafici non sono l’unica conclusione possibile per un lavoro di data journalism anche se è innegabile che la presentazione grafica dei dati è molto efficace La data visualization va molto al di là delle semplici infografiche: è compito complesso, spesso svolto da statistici e fa parte della scienza statistica. La disciplina si allarga fino a lambire l’Intelligenza artificiale (machine learning) Questa introduzione si occuperà poco dell’elaborazione grafica finale, anche se l’attenzione ai grafici costituirà comunque una parte importante della lezione

Gli strumenti del data journalism

Ogni fase del data journalism può avvalersi di programmi software diversi, di complessità variabile Il data journalist «lone ranger» dovrebbe imparare a usare diversi programmi. Per questo il data journalism appare da subito come un lavoro di équipe

Gli strumenti del data journalism La quantità di strumenti a disposizione è tale che è possibile perdersi Data visualisation, una lista di software

Gli strumenti del data journalism Esistono anche strumenti molto duttili – come R, o anche Python – che permettono di fare cose diverse come estrarre, pulire, elaborare e visualizzare i dati Sono però linguaggi di programmazione, duttili perché poco «friendly» In ogni caso, il sostegno di strumenti più semplici può essere utile

R è un programma e un linguaggio di programmazione disegnato per l’elaborazione statistica dei dati. È un open source ed è stato via via ampliato: oggi permette anche grafici interattivi (per i quali esistono però strumenti dedicati più adeguati È gratuito e funziona anche sui computer «bloccati» dalle aziende Rivela un’impostazione scientifica Si scarica da http://www.r-project.org/http://www.r-project.org/ Gli strumenti di questo corso

Per la pulitura dei dati, si illustrerà l’uso di OpenRefine, disegnato per il data journalism Per l’elaborazione dei dati si userà un foglio di calcolo – Excel e/o Calc della suite LibreOffice

Gli strumenti di questo corso OpenRefine è un foglio elettronico disegnato dalla Google per il data journalism È molto prezioso, ma i comandi non sono immediati. Esiste un breve manuale, in inglese È gratuito e funziona anche sui computer «bloccati» dalle aziende Si scarica da openrefine.org/openrefine.org/

Gli strumenti di questo corso Excel è un foglio elettronico della suite Office di Windows. Usato anche dall’Fmi o dalle Università per l’elaborazione dei dati. Calc è un prodotto analogo opensource, gratuito. Non funziona sui computer «bloccati». La suite LibreOffice si scarica da www.libreoffice.org/www.libreoffice.org/ Per lo scraping dei dati da internet si illustrerà la procedura su Google Spreadsheet. Lavora on line e si trova su docs.google.com/spreadsheets

Gli strumenti di questo corso Sarà comunque fornito un elenco di altri prodotti software utilizzabili dai data journalist

La ricerca dei dati

Dove cercare i dati Quando non sono forniti da fonti personali, i dati sono da cercare su internet Esistono diverse modalità di accesso: –Banche dati pubbliche e internazionali Quasi sempre producono frame di dati su richiesta –Banche dati private –Siti internet

Banche dati internazionali Sono banche dati legate a organizzazioni internazionali Quasi tutte hanno una banca dati Esempi: –Fondo monetario internazionaleFondo monetario internazionale –Nazioni UniteNazioni Unite –Ocse 1 e 212 –Federal Reserve di St. LouisFederal Reserve di St. Louis –EurostatEurostat

Banche dati internazionali Molto spesso nelle banche dati internazionali è possibile ricavare dati sui paesi in via di sviluppo che non sono disponibili nel paese stesso Esempi: Banca mondiale OpenData for Africa

Banche dati internazionali Qui l’elenco delle agenzie statistiche dell’OnuQui Qui l’elenco delle agenzie statistiche internazionaliQui Qui l’elenco di altre agenzie internazionaliQui

Banche dati internazionali Non mancano banche dati internazionali gestite da privati o non-profit Esempi: –QuandlQuandl –OpenCorporates (aziende)OpenCorporates –Investigative DashboardInvestigative –Alltime AthleticsAlltime Athletics

Istituti di Statistica La maggior parte dei paesi ha un suo istituto nazionale di statistica, non sempre indipendente non sempre attendibile Qui l’elencoQui Per l’Italia è l’Istatl’Istat Più utile della home page è la sua banca dati I.StatI.Stat –Per il commercio estero c’è CoewebCoeweb

Cercare altri dati: dove? La ricerca di dati non ufficiali, non pubblici, o non immediatamente reperibili segue le stesse regole della ricerca delle notizie Molte istituzioni e organizzazioni hanno a disposizioni banche dati In più, si hanno a disposizione i motori di ricerca, a cominciare da Google

Usare Google per cercare dati Per cercare dati con Google occorre usare gli operatori di ricerca. Qui la guida Con site: si può limitare la ricerca a un sito particolare. Per esempio site:ilsole24ore.com (senza www) Con type: posso individuare i file di dati usando l’estensione. Per esempio type: xls

Le estensioni dei files di dati.xls,.xlsx -> Excel.cvs, tsv e simili -> dati separati da virgole e tabulazioni (molto usati).htm,.html,.xlm -> file web Attenzione: i dati separati da virgole,.cvs, usano sicuramente il punto (e non la virgola), come decimali

I database ufficiali Due ricerche su EurostatEurostat

Lo scraping dei dati

«Grattare» i dati dal web A volte i dati sono semplicemente presenti su una pagina web, per esempio una voce Wikipedia Per scaricarli ci sono diversi software che permettono di fare scraping. Alcuni di essi sono a pagamento Il più semplice è Google Spreadsheet, simile a Excel o CalcGoogle Spreadsheet

Scraping con Google Spreadsheet Il comando da inserire è: =ImportHtml("URL","query",index) Url è l’indirizzo del sito Query è la forma assunta dai dati, in generale è table Index è il numero della query, per esempio il numero della tabella.

Un esempio di scraping Una pagina di Wikipediapagina Un secondo esempioesempio

Altri strumenti di scraping Altri strumenti di scraping sono: –OutWit Hub OutWit Hub –Import.ioImport.io –Chrome extension Scraper Chrome extension Scraper –ScraperwikiScraperwiki Permettono, per esempio, di fare scraping su dati che compaiono su una serie di pagine web

Lo scraping dei testi pdf Il pdf è uno dei sistemi più diffusi: a differenza di html, il linguaggio del web, è stato però disegnato per la stampa non per strutturare logicamente i contenuti: recuperare i dati è complicato Scraperwiki permette di fare scraping su pdf, ma a pagamento (dopo il 5°)Scraperwiki Un’altra opzione è il Salva come testo di Adobe Acrobat Altrimenti occorre usare Python…

Scraping da pdf Scraping da un comunicato della Bcecomunicato

Quando il sito è bloccato Si discute se lo scraping sia legale: non mancano sentenze Non tutti i siti permettono di fare scraping

Ripulire i dati: OpenRefine

Ripulire i dati Non sempre le banche dati sono mantenute in modo ordinato Spesso sono riempite da più persone, in tempi diversi: nomi, vie, numeri possono essere inseriti con modalità diverse. Gli errori di battitura sono sempre in agguato Per ripulire (ma anche per esplorare) i dati, Google ha creato – sostanzialmente per i giornalisti – OpenRefine: gratuito, non è sempre di uso immediatoOpenRefine Si scarica anche sui computer «bloccati»

Un esempio di ripulitura dei dati

L’elaborazione dei dati

Partendo dai numeri Dedichiamoci ora soprattutto ai dati numerici, che sono il centro del nostro discorso e che sono i più difficili da elaborare L’idea che può venire subito in mente è che occorre innanzitutto esaminare i numeri e trarne qualche indicazione, per esempio calcolando variazioni, medie, e così via

Otto serie di dati Un esempio. Prendiamo in considerazione otto serie di dati, da accoppiare due a due: X1 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5 Y1 = 8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68 X2 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5 Y2 = 9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74 X3 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5 Y3 = 7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73 X4 = 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8 Y4 = 6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89

Un’analisi numerica La media delle x è uguale a 9, in tutti i quattro casi La varianza delle x è uguale a 11 La media delle y è uguale a 7,50 La varianza delle y è 4.122 o 4.127 La correlazione tra le x e le y è 0.816 Si può «riassumere» ciascuna coppia di dati con l’equazione y = 3 + 0.5x ma…

La sorpresa

L’importanza dei grafici L’analisi esplorativa, sia effettuata dai giornalisti che dagli statistici più esperti, comincia sempre dai grafici I grafici dell’analisi esploratoria possono non avere nulla a che fare con i grafici finali, che hanno una funzione diversa, di comunicazione efficace: il grafico più utile per l’analisi – il boxplot – non comparirà mai sui giornali, il meno utile – la torta, magari in 3d – c’è spessissimo Molte regole sono comunque simili

Mostrare dati con i grafici

Napoleone e Charles Minard

Florence Nightingale

Trovare i casi estremi

I casi estremi Per valutare i singoli dati, occorre avere un punto di riferimento. A volte è esterno ai dati. Molte banche centrali tra cui la Bce, per esempio, hanno un obiettivo di inflazione del 2% nel medio periodo. Ogni singolo dato può essere valutato con quel punto di riferimento Altri hanno origine statistica: il Fondo monetario internazionale considera per esempio un livello di debito/pil superiore all’85% insostenibile per i paesi con accesso ai mercati e uno del 60% insostenibile per i paesi più poveri

I casi estremi In altri casi, è lo stesso insieme dei dati a fornire delle indicazioni Un minimo o un massimo, per esempio, danno già l’idea di trovarsi di fronte a un caso estremo Analogamente può accadere con un minimo o un massimo da x mesi, nelle serie temporali E’ però importante avere un punto di riferimento più preciso per i casi estremi importanti perché: 1.Possono rivelare una notizia 2.Possono segnalare un errore nel data base

Riassumere i dati Per riassumere un insieme di dati la prima variabile da usare è la media: µ = (x 1 + x 2 + … + x n-1 + x n )/n Una volta calcolata la media è molto importante capire quanto i singoli dati si allontanano dalla media: ( x i - µ ) 2 La media di queste distanze è la varianza, la radice quadrata della varianza è la deviazione standard La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati

Riassumere i dati La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati L’idea è quella di misurare la distanza dei singoli dati dalla media con un’unità standard. Si può allora dire che il dato x 1 è per esempio a due deviazioni standard dalla media. Quando i dati sono molto… ordinati – poi vedremo come ipotizzare questa simmetria - il 95% si colloca tra -2 e 2 deviazioni standard dalla media, il 99,7% tra -3 e 3 deviazioni standard.

Riassumere i dati Attenzione a non usare con troppa leggerezza questi parametri, pur molto diffusi. Su queste indicazioni, una flessione di Borsa del 6,8% (31 agosto 1998) potrebbe capitare in un caso su 20 milioni (o 76628 anni); una flessione del 7,7% (avvenuta un anno prima) in un caso su 50 miliardi (310,6 milioni di anni) e un crollo del 29,7% (19 ottobre 1987) di un caso su 10 50, ossia 100.000 miliardi di miliardi di miliardi di miliardi di miliardi di giorni. L’universo ha circa 3.600 miliardi di giorni borsistici (365 meno sabati e domeniche in un anno). Si parla a volte di «code grasse», «fat tails».

Confrontare dati diversi Un esempio: –Antonio ha avuto 83/100 –Francesca ha avuto 89/100 Quindi Francesca è andata meglio di Antonio. Ma Francesca e Antonio erano in due classi diverse Nella classe di Antonio la media è stata 74, in quella di Francesca 80: i professori di Francesca erano più generosi Nella classe di Antonio la deviazione standard è stata di 4, in quella di Francesca di 6

Confrontare dati diversi Voto Antonio = 83 Voto Francesca = 89 Media ClasseAntonio = 74 Media ClasseFrancesca = 80 Sd ClasseAntonio = 4Sd ClasseFrancesca = 6 Il voto «normalizzato» di Antonio è allora: (83-74)/4 = 2.25 Il voto «normalizzato» di Francesca è: (89-80)/6 = 1.5 In realtà Antonio ha ottenuto un risultato migliore di Francesca

Il problema della media La media, e la deviazione standard, non sono però dati stabili Sono molto influenzati da quei «casi limite» che noi vogliamo individuare E’ come avere un Autovelox che a ogni multa fa salire la velocità alla quale scatta la foto Qualche anno fa, la Guinea Equatoriale appariva come uno dei paesi con il maggior reddito pro capite: in realtà c’erano poche persone e poche aziende ricchissime e la maggior parte della popolazione molto povera

La mediana Ci sono molti strumenti per ottenere un valore più stabile o «robusto» Nello sport si usa la «media olimpica»: il voto più alto e quello più basso vengono scartati L’altro sistema è calcolare la mediana: se metto in fila indiana, in ordine di reddito crescente, un insieme di persone, il reddito mediano è il reddito della persona «in mezzo» e divide il gruppo in due parti (oppure la media delle due persone «al centro» se il numero di persone è pari) Se su 100 persone, 99 guadagnano mille euro al mese e 1 un milione, il reddito mediano è mille euro

Verso un po’ di ordine La prima cosa da fare è confrontare la mediana e la media Se sono molto vicine i dati sono simmetrici e posso continuare a usare la media, la deviazione standard e i valori critici della deviazione standard Se sono lontane e la media è maggiore della mediana: è possibile trovare casi limite (o più casi limite) superiori alla media Se sono lontane e la media è minore della mediana, è possibile trovare casi limite (o più casi limite) inferiori alla media

La mediana Una volta diviso l’insieme in due parti, attraverso la mediana, posso ulteriormente dividere in due i due sottogruppi con lo stesso sistema: ottengo il primo quartile Q 1 e il terzo quartile Q 3 (la mediana è il secondo quartile) La differenza IQR = Q 3 - Q 1 (lo… scarto interquartile) può sostituire la deviazione standard

La mediana IQR = Q 3 - Q 1 I casi limite sono al di sotto di Q 1 – 1,5*IQR e al di sopra di Q 3 + 1,5*IQR Tutto un po’ complicato… Come semplificare? La soluzione è sul sito www.alcula.comwww.alcula.com

Deviazioni standard Se si accetta di perdere precisione, si ci può comunque affidare alla deviazione standard. La probabilità che un dato sia alla distanza di due deviazioni standard della media non è mai maggiore di ¼ (25%) o 1/2 2. La probabilità che sia alla distanza di tre deviazioni standard non è mai maggiore dell’11% (1/3 2 ) La probabilità che sia alla distanza di sei deviazioni standard no è mai maggiore del 2.8%. Quando i dati sono «ordinati», la probabilità che un dato sia a distanza di sei deviazioni standard è di 0,000000001 % …

Le serie temporali

La prima valutazione, di fronte a una serie temporale è piuttosto il calcolo delle variazioni Per dati quotidiani si calcola in primo luogo la variazione quotidiani, per dati mensili variazioni mensili Nei dati macroeconomici si usa spesso anche la variazione annuale La formula per la percentuale è: (X n /x n-1 - 1)*100

Le medie mobili Per alcuni dati particolarmente volatili, per esempio quelli su import, export, quantità di moneta, è opportuno cercare di individuare una tendenza di fondo isolandola dalle variazioni temporanee Il modo più semplice è quello di calcolare la media mobile In genere trimestrale per i dati macroeconomici, ma per le quotazioni finanziari si può usare, insieme, la media a 14 giorni, quella a 200 giorni ecc.

Le medie mobili Per usare la media mobile, al posto del dato di novembre si usa la media novembre-ottobre- settembre, al posto del dato di ottobre la media ottobre-settembre-agosto ecc. Si disegna il grafico, sovrapponendolo a quello con i dati puntuali Se serve, si calcolano le variazioni tra un mese e l’altro usando la stessa formula dei dati puntuali

Le insidie della statistica Le statistiche possono essere molto insidiose, e occorre fare tanta attenzione su come usarle Non sarebbe impossibile ricavare dai dati ufficiali l’indicazione secondo cui nell’Unione europea il numero degli analfabeti è di circa 26 milioni Non sarebbe impossibile trovare anche una correlazione tra il livello di alfabetismo e la misura delle scarpe Una notizia…

Le insidie della statistica

In passato sono state elaborate correlazioni perfette tra l’inflazione britannica e la temperatura di Londra, due variabili senza alcun legame E’ possibile stabilire, in alcuni paesi, una correlazione tra il consumo di gelati e il numero dei morsi di serpente. Sono due grandezze indipendenti ma legate alle stagioni e alla temperatura atmosferica In ogni caso, la correlazione statistica non segnala mai, da sola, un rapporto di causa ed effetto ma soltanto un legame che può anche rivelarsi temporaneo o mutare caratteristiche nel tempo

Le insidie della statistica

Il paradosso di Simpson

riccardo.sorrentino@ilsole24ore.com riccardo.sorrentino@yahoo.com

Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Presentazioni simili

Presentazione sul tema: "Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Presentazioni simili

Presentazione sul tema: "Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back