Statistica descrittiva Anno scolastico 2015-2016 Prof.ssa Finocchiaro Rita
La statistica Prerequisiti Conoscere excel e saper costruire tabelle e grafici Saper tracciare un diagramma cartesiano Obiettivi Saper pianificare, rilevare, elaborare, presentare ed interpretare i dati relativi ad un campione. Saper raccogliere i dati in tabelle e grafici. Saper calcolare gli indici di posizione centrale e indici di dispersione o di variabilità.
Di che cosa si occupa la statistica? La statistica è la scienza che permette di trarre conclusioni generali relative ad un insieme numeroso di dati (popolazione, campione) La popolazione è la totalità degli oggetti o individui a cui si riferisce l’indagine statistica Il campione è una parte della popolazione che deve rappresentare in modo significativo l’intera popolazione
Unità statistiche Composte Semplici Es: Es: un reparto di un ospedale, una famiglia di censimento Semplici Es: il singolo ammalato di uno ospedale, la singola abitazione, il singolo occupato in una azienda.
Carattere Su ogni unità statistica vengono rilevati diversi aspetti ciascuno dei quali è detto carattere che indicheremo con Il carattere è un attributo qualunque posseduto da una unità statistica. Esso può manifestarsi in diverse maniere ognuna delle quali è detta modalità. Carattere (sesso) femmina modalità maschio
Le caratteristiche I caratteri o variabili che rappresentano l’oggetto di un’analisi statistica possono esprimere delle qualità (caratteri qualitativi) o delle quantità (caratteri quantitativi) I caratteri quantitativi a loro volta possono essere discreti, quando sono espressi da un numero intero naturale N, o continui quando sono espressi da un numero reale R I caratteri qualitativi possono essere ordinati, (es: laureato, diplomato…), oppure sconnessi, quando non seguono un ordine.
Le modalità Rappresentano i modi possibili con cui un carattere si può presentare. Esempio 1: (caratteri qualitativi) se studio la caratteristica colore degli occhi di una popolazione, le modalità possono essere: verde, azzurro, castano, nero… Esempio 2 :se studio la caratteristica sesso dei componenti di una nazione, le modalità possono essere: maschio, femmina.. Esempio 3 (caratteri quantitativi) se studio la caratteristica età degli alunni di una scuola, le modalità possono essere: 13, 14, 15, 16……..
Le fasi di un’indagine statistica L’indagine statistica si realizza in cinque fasi: Pianificazione Rilevazione Elaborazione Presentazione Interpretazione
Pianificazione La pianificazione consiste nella definizione del fenomeno da studiare e nell’individuazione della popolazione o del campione a cui si riferisce, nella scelta dei caratteri del collettivo che interessano lo studio e nella definizione delle relative modalità o dei processi di misura. (Esempio:preparazione test da somministrare al campione)
Rilevazione La rilevazione è quel complesso di operazioni attraverso i quali si acquisiscono le informazioni sulle caratteristiche di interesse. Da questa fase si acquisiscono i dati statistici elementari o dati grezzi, che saranno catalogati in tabelle. La rilevazione si dice totale se interessa tutta la popolazione La rilevazione si dice parziale se si limita ad esaminare una parte soltanto delle unità statistiche, cioè un campione. (Esempio:somministrare il test al campione scelto)
Rilevazione dei dati. Ci permette di pervenire alla conoscenza delle caratteristiche delle singole unità statistiche. Essa può dividersi in tre sottofasi: raccolta; classificazione; rappresentazione grafica dei dati.
Supponiamo, ad es., di voler classificare 25 lavoratori secondo il settore di attività economica: agricoltura (A), industria (I), commercio (C), altre attività (AA) ottenendo il prospetto seguente: A,I,I,C,C,AA,C,A,A,C,C,I,AA,A,A,C,C,A, AA,I,A,I,C,I,AA.
Poiché le modalità sono quattro, si formano quattro caselle, ottenendo così il prospetto seguente:
Consiste nel mettere i dati sotto forma di tabella. La Tabulazione dei dati Consiste nel mettere i dati sotto forma di tabella. La tabella statistica o distribuzione statistica semplice è un prospetto di 2 colonne: La frequenza assoluta di una generica modalità xi è, il numero di volte ni con cui si presenta quella modalità. Nel caso dell’esempio dei lavoratori classificati secondo il settore di attività, si ha la Tav.II/1.
Settore di attività economica N. di lavoratori Agricoltura 7 Industria In detta tavola al ‘Commercio’ spetta la frequenza 8 (cioè, vi sono 8 soggetti che lavorano nel settore del Commercio), all’Agricoltura spetta la frequenza 7 (cioè, vi sono 7 soggetti che lavorano nel settore dell’Agricoltura). Tav.II/1. Settore di attività economica N. di lavoratori Agricoltura 7 Industria 6 Commercio 8 Altre attività 4 Totale 25
Elaborazione L’elaborazione è quel complesso di operazioni attraverso le quali vengono codificati i dati e sintetizzati in tabelle o grafici, più facilmente interpretabili. (esempio: elaborazione dei dati in percentuale come nelle consultazioni elettorali)
Presentazione La presentazione è l’esposizione dei dati, attraverso le tabelle o i grafici preparati. (esempio pubblicazione su un giornale dei risultati di un’indagine statistica)
Interpretazione L’interpretazione è la spiegazione delle tabelle e dei grafici e dei risultati finali ottenuti, con osservazioni ed eventuali collegamenti con altre indagini simili.
Frequenza assoluta La frequenza assoluta esprime il numero di volte in cui si presenta una certa modalità Esempio: in un bosco di 189 alberi si sono contate le frequenze delle specie di alberi presenti: Albero Frequenza assoluta Betulla 20 Faggio 15 Quercia 17 Castagno 2 Larice 12 Pino 4 Abete 27 acacia 92
Frequenza relativa La frequenza relativa si calcola facendo il rapporto fra la frequenza Assoluta e il numero totale di unità statistiche prese in esame: Nell’esempio precedente c’erano 20 betulle su 189 alberi esaminati nel bosco
Frequenza percentuale La frequenza relativa percentuale si calcola moltiplicando per cento la frequenza relativa:
Ortogramma L’ortogramma è un modo di rappresentare i dati statistici graficamente. Dopo aver costruito una tabella di frequenze si fa corrispondere ad ogni modalità un rettangolo di altezza proporzionale alla frequenza assoluta con cui quella modalità si presenta partito Numero votanti Verdi 20 Radicali 40 Centro destra 160 Centro sinistra 180
Diagramma circolare Il diagramma circolare o a settori circolari è un altro modo di rappresentare graficamente i dati statistici, esso si presta bene a rappresentare le frequenze percentuali. Esempio la superficie terrestre è distribuita:
Curve spezzate Quando c’è una relazione diretta fra due grandezze si utilizza il diagramma cartesiano. Ad esempio in ospedale si registrala temperatura corporea del paziente ogni 2 ore
Confronto di dati Per confrontare dati provenienti da diverse distribuzioni statistiche bisogna saper esprimere in modo sintetico le caratteristiche principali della distribuzione dei dati ottenuti, a questo scopo si utilizzano particolari numeri detti indici: Indici centrali Indici di variabilità
Indici statistici Indici di posizione, (indica un valore rappresentativo dell’intera popolazione, esempio: la maggior parte degli italiani non sono analfabeti) Indici di dispersione, (indica la variazione della distribuzione dei dati dal valore centrale, esempio: la vita media in Italia è 75 anni, ma ci sono individui che perdono la vita a zero anni e altri a 120 anni , dispesione120 anni )
Indici di posizione La media aritmetica La media geometrica La mediana La moda
La media aritmetica La media aritmetica si calcola sommando tutti i valori ottenuti e dividendo per il numero di dati: La media pesata si ottiene sommando i prodotti fra i valori ottenuti per la frequenza con cui ciascuno si presenta e dividendo per i numero di dati.
La media geometrica La media geometrica di ne dati si calcola moltiplicando tutti i dati ed estraendone la radice ennesima:
La mediana La mediana di una distribuzione di frequenza è il valore che si trova nella posizione centrale tra tutti i dati disposti in ordine crescente. Se i dati sono dispari (esempio :7, 8, 9,10,11 il terzo valore 9 sarà la mediana ) se i dati i dati sono pari (esempio : 5,6,10,12,12,13 la mediana sarà espressa dal valore medio fra il terzo e quarto valore della distribuzione, in questo caso 11)
La moda La moda della distribuzione è il valore che ha frequenza più alta, cioè la modalità che si presenta più volte: Esempio: In un condominio abitano 15 famiglie, l’amministratore ha raccolto i dati relativi al numero di componenti di ciascuna famiglia: La moda di questa distribuzione è 3: Numero di componenti Numero di famiglie 3 6 4 5 2
Indici di dispersione Deviazione dalla media aritmetica Deviazione media Scarto quadratico medio