Completiamo i grafici Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna.

Slides:



Advertisements
Presentazioni simili
Statistica descrittiva e inferenziale
Advertisements

LA VARIABILITA’ IV lezione di Statistica Medica.
QUANTILI.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
“Teoria e metodi della ricerca sociale e organizzativa”
Le misure di tendenza centrale informano sul centro della distribuzione 4 - Le medie a.a Le medie a.a
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi preliminari dei dati
Descrizione dei dati Metodi di descrizione dei dati
C – Indici di Asimmetria e Curtosi
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Fogli elettronici Microsoft Excel.
Statistica descrittiva
Inferenza statistica per un singolo campione
STATISTICA DESCRITTIVA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
COSA VUOL DIRE FARE STATISTICA
Access: Query semplici
Misure di dispersione Giovanni Filatrella
Misurazione Le osservazioni si esprimono in forma di misurazioni
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
METODI E CONTROLLI STATISTICI DI PROCESSO
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Fondamenti di informatica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Tabelle Pivot Istogrammi e frequenze Diagramma box-plot
Lez. 3 - Gli Indici di VARIABILITA’
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
Elementi di statistica descrittiva
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
Esercizio 1 La seguente distribuzione riporta i punteggi di ansia misurata prima dell’esame di psicometria: a) Costruire una tabella di frequenza, indicando:
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Dipartimento di Economia, Management e Istituzioni APPPLICAZIONI AZIENDALI MEDIANTE FOGLIO ELETTRONICO 4° modulo: Calcoli statistici, Regressione Prof.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
RAPPRESENTAZIONE DATI LA RAPPRESENTAZIONE PUÒ ESSERE UTILIZZATA A SCOPO DI ANALISI, INTERPRETAZIONI E COMUNICAZIONI. PER RAGGIUNGERE QUESTI OBIETTIVI È.
La funzione CASUALE. Gli istogrammi.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Compito 1: 1)La seguente distribuzione riporta i punteggi di ansia su un campione non clinico: a)Costruire una tabella di frequenza, indicando: f, fc,
DEFINIZIONE. La statistica è la disciplina che si occupa della raccolta di dati quantitativi relativi a diversi fenomeni, della loro elaborazione e del.
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Completiamo i grafici Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute Diagramma di Pareto: serve per rappresentare la perdita economica (difettosità e loro costi). Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo)

Diagramma a scatola e baffi (box-plot) Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo) Internamente alla scatola sono rappresentati: mediana e media aritmetica Le linee esterne rappresentano il I e il III quartile (la distanza misura la dispersione della distribuzione) La distanza tra ciascun quartile e la mediana rappresenta la forma della distribuzione Se è diversa, la distribuzione è asimmetrica Se la distribuzione è normale, media e mediana coincidono; le distanze tra I quartile e mediana e tra mediana e III quartile coincidono, cosi’ come minimo e I quartile, III quartile e massimo. In generale, queste distanze danno informazioni sulla forma della coda della distribuzione

Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Macchina A Macchina B Macchina C 74,030 74,002 74,019 73,995 73,992 74,001 73,988 74,024 74,021 73,996 73,993 74,007 74,015 74,009 73,994 73,997 74,006 73,985 74,003 74,008 73,998 74,000 73,990 74,004 73,983 73,967 74,012 74,014 73,984 74,005 73,986 74,010 74,018 74,013 73,999 73,989 73,982

Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare esplicitamente le statistiche di base Macchina A Macchina B Macchina C I° quartile 73,992 73,995 73,993 valore minimo 73,982 73,967 73,986 media 73,999 74,000 74,001 mediana 73,998 valore massimo 74,030 74,024 74,021 III° quartile 74,006 74,007 74,009

Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Ora dobbiamo inserire il grafico. Selezioniamo le celle e inseriamo il grafico a linee (con indicatori). Cambiare l’opzione di Selezionata dati “Scambia colonne/righe”

Esempio 2.14 Le 3 osservazioni sono unite da linee che non ci interessano. Per rimuoverle, nel menù Formato selezionare Serie dei dati selezionati , selezionare la linea, Colore Linea “nessuna”; Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di Min-Max” e poi “Barre Barre Crescenti-decrescenti”

Sintesi dei dati in una tabella Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. Indici di posizione / misure di tendenza centrale Indici di variabilità (cap. 4) Indici di forma (cap.5)

Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano n osservazioni numeriche MODA MEDIANA MEDIA QUARTILI E PERCENTILI di posizione SCARTO QUADRATICO MEDIO VARIANZA RANGE ERRORE STANDARD INDICI di dispersione ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) di forma

Indici: Schema riassuntivo di posizione media: moda: punto di max della distribuzione mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) di dispersione varianza deviazione standard range di forma >0 coda a ds <0 coda a sin =0 simmetrica skewness (coeff. di asimmetria) curtosi: misura quanto la distribuzione è appuntita > 0 più appuntita < 0 meno appuntita

Le misure (indici) di variabilità I valori medi (nelle varie forme) condensano i dati in un solo valore (spesso indicato come centro della distribuzione). Purtroppo non è sufficiente per rappresentare le osservazioni effettuate. Quindi si affiancano indici che forniscono informazioni sulla dispersione, cioè sulla distanza delle osservazioni dal valore medio. Minore è la distanza delle osservazioni dal centro maggiore è la rappresentatività del valore medio minore è la variabilità

Per analizzare la distribuzione, occorre: Se l’indice di variabilità è nullo allora tutti i valori sono uguali tra loro. Per analizzare la distribuzione, occorre: Calcolare valore medio Valutare la dispersione: Calcolare quanto distano le osservazioni dal valore medio Calcolare quanto distano i valori tra loro errore standard Vedremo: Campo di variazione, varianza, scarto quadratico medio

Campo di variazione (range) E’ la differenza tra l’osservazione più piccola e quella più grande In Excel usiamo max e min Nella cella scriviamo (se A1:E2 è la matrice dati) =MAX(A1:E2)-MIN(A1:E2) PROVATE VOI SU UNA TABELLA PRECEDENTE

Varianza E’ la media dei quadrati degli scarti dalla media aritmetica In Excel usiamo la funzione VAR(num1;num2;…) se gli argomenti sono un campione della popolazione. Se si tratta di tutta la popolazione, si usa la funzione VAR.POP Come sempre, i valori testo e logici sono ignorati. Se si vuole considerarli, usare la funzione MEDIA.VALORI PROVATE VOI SU UNA TABELLA PRECEDENTE

Scarto quadratico medio o deviazione standard La varianza esprime un indice in funzione del quadrato dell’unità di misura delle osservazioni. E’ preferibile calcolare la radice quadrata della varianza, detta deviazione standard (per mantenere la stessa unità di misura). In Excel si usa la funzione DEV.ST(num1;num2;…) se gli argomenti sono un campione della popolazione. Se si tratta di tutta la popolazione, si usa la funzione DEV.ST.POP Come sempre, i valori testo e logici sono ignorati. Se si vuole considerarli, usare la funzione DEV.ST.VALORI = PROVATE VOI SU UNA TABELLA PRECEDENTE

Errore standard Sebbene lo strumento di statistica descrittiva negli strumenti di analisi è in grado di generare un report che include l'errore standard della media, non esiste alcuna funzione in Microsoft Excel per calcolare automaticamente il valore di per sé. Per calcolare l'errore standard della media, si può utilizzare = DEV.ST(matrice)/SQRT(Conteggio del campione) Fonte: http://support.microsoft.com/kb/214076/it

Più piccolo/grande(k) PICCOLO(matrice; k) GRANDE(matrice; k)

Misure di tendenza centrale Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. Indici di posizione (scorsa lezione; medie) Indici di variabilità (cap. 4) Indici di forma (cap.5)

Misure di forma Si tratta di misure che evidenziano se una distribuzione è simmetrica rispetto ad un valore e se risulta più o meno appiattita Vedremo Asimmetria e curtosi (appiattimento) rispetto ad alcune distribuzione note

Asimmetria (skewness) Indica l’assenza di specularità rispetto all’asse di simmetria della distribuzione Esistono diversi indici di asimmetria Si possono usare media aritmetica, moda e mediana (x, Mo, Me) per verificare se una distribuzione è asimmetrica o meno Se coincidono, è simmetrica Se Mo<Me< x, è asimmetrica positiva (coda verso destra) Se x < Me<Mo, è asimmetrica negativa (coda verso sinistra)

Asimmetria in Excel Usa l’indice di simmetria aF (proposto da Fisher), in cui al denominatore compare la deviazione standard Si tratta della funzione ASIMMETRIA(num1;num2;…) di almeno 3 argomenti e tale che la deviazione standard sia diversa da zero; se così non è, viene restituito un errore aF = 0 simmetrica rispetto la media aritmetica aF > 0 asimmetrica a destra aF < 0 asimmetrica a sinistra

Esempio asimmetria positiva Data la seguente tabella di voti riportati da 18 studenti N. casi voti 1 3 2 4 5 6 7 8 9 10 11 12 6,5 13 14 15 16 17 18 http://www.cisi.unito.it/progetti/leda/cap8.htm

Analisi dati Per convenzione, se la coda più lunga è a destra della media (cioè esistono molti valori con forti scarti positivi e pochi valori con deboli scarti negativi) si parla di asimmetria positiva e si vuole che il valore dell'indice di asimmetria assuma segno positivo. Media = 5,4 Asimmetria = 0,61 Il valore di asimmetria è maggiore di zero, quindi la curva si presenta così:

Curtosi Fa riferimento alla maggiore o minore gibbosità di una distribuzione, in prossimità del suo massimo (e quindi alla lunghezza delle code) Per valutare l’aspetto della curva, si paragona ad una curva «normale» (teorica nota) avente stesse frequenza complessiva, media e deviazione standard Si usa un altro indice di Fisher, che coinvolge la deviazione standard al denominatore: vale 0 se la curva è normale; positivo o negativo se è più appuntita o meno di una normale In Excel è la funzione CURTOSI(num1;num2;…) di almeno 4 argomenti e tale che la deviazione standard sia diversa da zero; se così non è, viene restituito un errore

CURTOSI: leptocurtica In nero la curva «normale» mesocurtica

CURTOSI: platicurtica distribuzione platicurtica In nero la curva «normale» mesocurtica

Statistica descrittiva (cap.6) Molti indici trattati finora sono generati automaticamente da Excel, usando Statistica descrittiva del menù Analisi dei dati. Proviamo Etichette nella prima riga/Etichette nella prima colonna: deselezionarle se l’intervallo non contiene etichette (altrimenti selezionare quella appropriata, come nell’esempio 6.3)

Esempio 6.1 La tabella seguente riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche 99,9 99,7 99,6 99,8 99,8 99,9 99,7 100,0 99,6 99,6 99,8 99,7 99,9 100,0 99,8 99,9 99,6 99,7 100,0

Esempio 6.1 La tabella seguente riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche Media 99,79652336 Errore standard 0,010062453 Mediana 99,79312502 Moda #N/D Deviazione standard 0,100624532 Varianza campionaria 0,010125296 Curtosi 0,083114239 Asimmetria 0,069723767 Intervallo 0,484818884 Minimo 99,55261744 Massimo 100,0374363 Somma 9979,652336 Conteggio 100 Più grande(1) Più piccolo(1) Non esistono duplicati

Non esistono duplicati Media 99,79652336 Errore standard 0,010062453 Mediana 99,79312502 Moda #N/D Deviazione standard 0,100624532 Varianza campionaria 0,010125296 Curtosi 0,083114239 Asimmetria 0,069723767 Intervallo 0,484818884 Minimo 99,55261744 Massimo 100,0374363 Somma 9979,652336 Conteggio 100 Più grande(1) Più piccolo(1) Non esistono duplicati

Esempio 6.3 La tabella seguente riporta la quantità (in quintali) di semilavorati stoccati in un magazzino negli ultimi 9 anni. Proviamo a richiamare la funzione Riepilogo statistiche selezionare le celle escludendo la prima colonna

Esempio 6.3 La tabella seguente riporta la quantità (in quintali) di semilavorati stoccati in un magazzino negli ultimi 9 anni. 1995 1996 1997 1998 1999 2000 2001 2002 2003 Gen 22 20 19 Feb 25 13 16 7 27 15 Mar 21 26 17 Apr 24 11 Mag 18 Giu 14 23 Lug 28 31 32 Ago Set Ott Nov Dic

Funzioni del Riepilogo statistiche Manualmente: Riepilogo statistiche Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(2) Più piccolo(3) =MEDIA(A2:A101) =G6/RADQ(G14) =MEDIANA(A2:A101) =MODA(A2:A101) =DEV.ST(A2:A101) =VAR(A2:A101) =CURTOSI(A2:A101) =ASIMMETRIA(A2:A101) =MAX(A2:A101)-MIN(A2:A101) =MIN(A2:A101) =MAX(A2:A101) =SOMMA(A2:A101) =CONTA.NUMERI(A2:A101) =GRANDE(A2:A101;2) =PICCOLO(A2:A101;3) Non hanno funzione esplicita

Esercizio Esercizio 2 (Riepilogo statistiche) La tabella nel file EsameRiepilogoStatisticheTavolette.xlsx riporta il peso in grammi di un campione di 100 tavolette di cioccolato. a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella tabella, che contenga, oltre alle statistiche standard (media, mediana, …. Curtosi…) anche il Secondo più grande e il Terzo più piccolo, utilizzando la funzione Riepilogo statistiche. b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia identica a quello fornita al punto a). Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b).