LA SINTESI STATISTICA Una serie di dati numerici è

Slides:



Advertisements
Presentazioni simili
LA MEDIA STATISTICA di Zappa Giacomo.
Advertisements

- le Medie la Moda la Mediana
SCALA INTERVALLO / A RAPPORTO
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
QUANTILI.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
Statistica I valori medi.
“Teoria e metodi della ricerca sociale e organizzativa”
LEZIONE A.7 Ancora sulle modalità centrali
Le misure di tendenza centrale informano sul centro della distribuzione 4 - Le medie a.a Le medie a.a
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Elementi di Statistica
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili,
NUMERI RELATIVI.
STATISTICA a.a DISTRIBUZIONI DI FREQUENZE
LEZIONI DI STATISTICA MEDICA
VARIABILI E DISTRIBUZIONI DI FREQUENZA
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 4 Probabilità.
SNV a.s Servizio di valutazione del sistema dellistruzione Incontro provinciale di coordinamento organizzativo a cura del CSA di Treviso Novembre.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Mediana Punto che lascia il 50 % dei casi alla sua destra e il 50% dei casi alla sua sinistra Esempio: 8, 9, 10, 11, 15, 6, 7 Mettere le misure in ordine.
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
METODI E CONTROLLI STATISTICI DI PROCESSO
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
Fondamenti di informatica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
TRATTAMENTO, ANALISI E INTERPRETAZIONE DEI DATI
MEDIE STATISTICHE.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Lez. 3 - Gli Indici di VARIABILITA’
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Statistica sociale Modulo A A.A Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Facoltà di Lettere e Filosofia Università di Tor Vergata.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Gli Indici di VARIABILITA’
Transcript della presentazione:

LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione o variabilità La forma

GLI INDICI DI TENDENZA CENTRALE • Le misure di tendenza centrale servono per individuare il valore intorno al quale i dati sono raggruppati; • la tendenza centrale è la misura più appropriata per sintetizzare l’insieme delle osservazioni raccolte in una distribuzione di dati descritta con un con un solo valore; • è la prima informazione sulla della dimensione del fenomeno.

Sintesi dei dati Indici di tendenza centrale Medie analitiche L’ applicazione è ammessa solo per le misure quantitative che consentono operazioni di calcolo su tutti i dati originali in modo da poter rappresentare algebricamente l’insieme Indici di posizione Forniscono l’unica sintesi possibile per classificazioni ordinali e qualitative

MEDIA ARITMETICA SEMPLICE Il valore che ogni dato dovrebbe assumere se tutti i dati del campione avessero lo stesso valore Il valore che meglio di ogni altro indica il valore teorico che avrebbe dovuto aversi in assenza di perturbazioni accidentali misura della tendenza centrale: la maggior parte dei dati si concentra su tale valore

PROPRIETÀ DELLA MEDIA ARITMETICA La somma algebrica degli scarti dalla media è uguale a zero Σ(xi - x)=0 ; se la media rispetta il requisito di essere il valore centrale, deve minimizzare gli scarti; quelli positivi vengono bilanciati da quelli negativi. (2-4)+(4-4)+(6-4)= -2+2 =0 La media è interna al range, ossia, è sempre compresa fra l’osservazione più bassa e quella più alta Date più medie e le singole numerosità dei casi con cui sono state calcolate, la media generale può essere calcolata come media ponderata delle medie

MEDIA ARTMETICA PONDERATA Nella media ponderata i valori della distribuzione sono considerati per il numero delle volte che si presentano. In questa media i termini entrano più volte nel calcolo, in rapporto alla loro importanza (peso)

Il valore della media si sposta verso il valore più frequente Se il numero di osservazioni che corrisponde ad un singolo valore è molto elevato, la media tende a spostarsi versi tale valore che acquista un peso maggiore nei confronti degli altri termini della distribuzione Se a ciascuno dei tre valori corrispondono 10 osservazioni: Se il numero delle osservazioni corrispondete al primo termine fosse 5 e quello corrispondente all’ultimo termine fosse 15: Se al primo termine corrispondessero 15 osservazioni e 5 al terzo:

Media ponderata in una distribuzione in classi Si ricorre al calcolo delle media ponderata quando i valori della distribuzione sono raggruppati in classi. In tali casi si moltiplica il numero di osservazioni corrispondente a ciascuna classe per il valore centrale della classe ottenuto mediante la media aritmetica dei valori estremi della classe stessa Classi f. xc 146-155 10 150 156-165 20 160 166-175 30 170 176-185 20 180 186-195 10 190

Limitazioni di impiego della media aritmetica Dati non quantitativi Differenti ordini di grandezza delle misure 0.8 7 58 124 Presenza di valori estremi molto scostati 28 34 22.5 299 Presenza di valori estremi indeterminati o infiniti 9 6 4 7 >100 Distribuzioni di frequenza con classe aperte il valore centrale delle classi aperte non si può calcolare Es: Fino a 500 oltre un milione

Medie o indici di posizione Moda Nel caso di dati espressi su scala nominale l’unico criterio per sintetizzare la tendenza centrale consiste nell’individuare il gruppo o il dato che compare maggiormente Si chiama moda di una distribuzione di frequenze il dato che corrisponde alla massima frequenza Es: Distribuzione di 150 famiglie secondo il numero di figli n.°figli f. 0 20 1 60 2 40 3 18 più di 3 12 La moda è 1 a cui corrisponde la massima frequenza 60

Moda per caratteri qualitativi Risposta f. guarigione 144 miglioramento 160 stazionarietà 86 peggioramento 50 morte 10 N = 450 La moda è la risposta miglioramento La moda si può calcolare anche per caratteri qualitativi come nella distribuzione delle “risposte” ad una terapia in 450 pazienti

Moda per distribuzioni in classi La moda è molto influenzata dal numero e dall’ampiezza delle classi Se le classi hanno uguale ampiezza si può valutare la classe modale nella classe a maggior frequenza Nel caso di classi con ampiezza diversa si dovrà considerare la densità di frequenza delle classi e non la frequenza assoluta Moda = L1+ - L1 e c sono il confine inferiore e l’ampiezza della classe modale; - Δ1 e Δ2 sono le differenze, rispettivamente, tra la frequenza della classe modale e la precedente (Δ1) e la successiva (Δ2)

classificate in base al numero di posti letto Esempio di calcolo della classe modale in una distribuzione in classi (ampiezze diverse) densità di frequenza e moda Strutture di degenza classificate in base al numero di posti letto ampiezza di densità di Numero posti letto f classe frequenza 26-50 moda corretta 251 25 10.04 51-100 moda apparente 368 50 7.36 101-150 288 50 5.76 151-200 159 50 3.18 201-300 304 100 3.04 301-500 173 200 0.87 501-800 99 300 0.33 La classe modale corretta è “26-50” 251/25 = 10.04

Caratteristiche della moda La moda si utilizza nel caso di misure qualitative e quando la distribuzione presenta una singola frequenza molto più elevata rispetto alle altre Una distribuzione può non avere una moda (se numericamente modeste) o (con numerose osservazioni) due o più mode (bimodali o plurimodali) a) 3, 7,12, 18 b) 5, 6, 6, 6, 8, 9, 9, 9,16

Mediana In una distribuzione si definisce mediana o valore mediano quel valore che assume la variabile tale per cui si hanno uguali possibilità di trovare valori inferiori o superiori ad essa In una serie di valori ordinati secondo grandezza, si definisce mediana il valore che separa le osservazioni in due parti numericamente uguali, il 50% con valori inferiori e il 50% superiori

quattro valori sono inferiori alla media ! Mediana Caratteristica importante della mediana è di non risentire dei valori di testa e di coda di una serie ordinata. Pertanto è preferibile alla media, quando per il fenomeno osservato o per un numero modesto di osservazioni, in una distribuzione si riscontrano valori estremi particolarmente bassi o, soprattutto, elevati. Es : 20,20,30,30,100 x = 40 quattro valori sono inferiori alla media !

Calcolo della mediana Ordinamento dei dati in modo crescente Calcolo della posizione della mediana Identificazione del valore corrispondente a quella posizione In una serie di misure singole e ordinate la mediana corrisponde al valore in posizione Se il numero di osservazioni è dispari tale posizione coincide con il dato centrale, il cui valore rappresenta la mediana. Se il numero è pari si colloca tra le due posizioni centrali e la successiva

Esempio di calcolo della mediana Per calcolare la mediana dei valori 9 6 15 5 1 7 3 1 12 A)Ordinamento dei dati posizione 1 2 3 4 5 6 7 8 9 misura 1 1 3 5 6 7 9 12 15 B)Calcolo della posizione mediana la posizione mediana è la quinta 9 + 1 / 2 = 5 Se le osservazioni fossero state solo le prime 8 (ordinate) la mediana sarebbe caduta tra la quarta e la quinta osservazione 8 + 1 / 2 = 4.5 C)Identificazione valore della mediana con 9 misure, il valore coincide con la 5° posizione : 6 Con 8 alla posizione 4.5 corrisponde la media dei due valori centrali 5 + 6 / 2 = 5.5

Proprietà della mediana La mediana non cambia o cambia di poco (è “robusta”) in presenza di alcuni dati molto estremi (ad es. con alcuni valori molto alti rispetto agli altri) 173 155 162 165 167 175 171 169 164 178 156 158 166 media =166. 1 Se nel campione i due soggetti più alti diventano sono ancora più alti: 155 156 158 162 164 165 166 167 169 171 173 189 210 1 2 3 4 5 6 7 8 9 10 11 12 13 mediana = 166 La mediana non cambia perché l’ordinamento delle prime n osservazioni non cambia (invece la media cambia perché l’ammontare totale cambia)

Mediana di distribuzioni in classi Nel caso di distribuzioni in classi i dati sono già ordinati e si procede all’identificazione della classe mediana, in cui cade l’osservazione mediana avvalendosi delle frequenze cumulate della distribuzione Se la distribuzione è in classi,identificata la classe mediana, si calcola il valore mediano fra quelli compresi nell’intervallo di classe

Calcolo della mediana di distribuzioni in classi Dove: L1 e c sono il confine inferiore e l’ampiezza della classe mediana; È la posizione della mediana fcum rappresenta la frequenza cumulata delle classi che precedono la classe mediana; fmed è la frequenza della classe mediana

Esempio di calcolo di mediana in classi Classe(cm) fa fcum 150-154 2 2 155-159 6 8 160-164 11 19 165-169 18 37 170-174 25 62 175-179 13 75 180-184 7 82 Σ 82 Mediana: Posizione = (classe 170-174) Valore =

Esempio di calcolo di mediana in classi Classe(cm) fa fcum 150-154 2 2 155-159 6 8 160-164 11 19 165-169 18 37 170-174 25 62 175-179 13 75 180-184 7 82 Σ 82 Moda: Classe modale = 170-174 Valore =

Esemplificazione Quali sono le principali misure di posizione nella seguente serie numerica? xi 3 15 11 4 5 8 6 4 4 Serie ordinata (x(i)) 3 4 4 4 5 6 8 11 15 Valore centrale In una serie ordinata Moda, valore più frequente Media (Σi xi / n) =60/9=6.67

Utilizzo misure di posizione Media Mediana Moda La misura di posizione più usata la misura migliore con la misura migliore distribuzioni asimmetriche quando un valore ha una frequenza relativa elevata Facile da trattare matematicamente Utilizza tutta l’informazione disponibile sulle unità statistiche (Σx/n) È facile calcolare un valore ponderato X = (x1+n1+x2n2)(n1+n2) Proprietà dell’equilibrio delle distanzeΣi(x i - x)=0 Proprietà del minimo delle distanze: Σ│x- me│=min Proprietà del minimo degli scarti quadratici: Σi(x i – x )2=min

Scala di misura indici di tendenza centrale utilizzabili Indici di tendenza centrale utilizzazione in relazione alla scala di misura dei dati Scala di misura indici di tendenza centrale utilizzabili Nominale Moda Ordinale Moda, Mediana Intervallare Moda, Mediana,media aritmetica

Estensione della mediana: Quantili La mediana separa la distribuzione in due parti, ognuna comprendente il 50% delle osservazioni • I quantili separano la distribuzione ad altre frazioni percentuali, ad esempio: – Il 10 quartile (Q1) separa il primo 25% dal restante 75% – Il 30 quartile (Q3) separa il primo 75% dal restante 25% – Il 10 decile separa il primo 10% dal restante 90% – Il 95°percentile è tale che solo il 5% ha un valore superiore a esso

Quantili Sono indicatori di posizione che come la mediana suddividono in modo preordinato una serie di dati, in particolare per serie numerose organizzate in distribuzioni di frequenza I più utilizzati sono i quartili (Qi), i decili (Di), i centili o percentili (Pi) che suddividono una serie ordinata di dati in quattro, dieci e cento parti uguali Il primo quartile Q1 separa il 25% delle osservazioni con valore più basso, il secondo corrisponde alla mediana e il Q3 lascia a sinistra i tre quarti delle osservazioni

Formula per il calcolo dei percentili La posizione i di un dato percentile (p indice del percentile e n la numerosità) Data una distribuzione di 19 valori ordinati, la posizione del 20-esimo percentile sarà Q20 assumerà il valore del quarto dato della distribuzione

Esempio Data la seguente distribuzione 1 3 4 5 8 10 12 13 15 (n=9) Calcolare l’80-esimo percentile