STATISTICA a.a DISTRIBUZIONI DI FREQUENZE

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
SCALA INTERVALLO / A RAPPORTO
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Intervalli di confidenza
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
STATISTICA DESCRITTIVA
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
“Teoria e metodi della ricerca sociale e organizzativa”
Le misure di tendenza centrale informano sul centro della distribuzione 4 - Le medie a.a Le medie a.a
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Statistica descrittiva
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
STATISTICA a.a VARIABILITA’ BIOLOGICA E CASO
Misure di dispersione Giovanni Filatrella
Misurazione Le osservazioni si esprimono in forma di misurazioni
SNV a.s Servizio di valutazione del sistema dellistruzione Incontro provinciale di coordinamento organizzativo a cura del CSA di Treviso Novembre.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
LA SINTESI STATISTICA Una serie di dati numerici è
Fondamenti di informatica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Gli indici di dispersione
Statistica Descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Corso di Analisi Statistica per le Imprese
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La distribuzione campionaria della media
Elaborazione statistica di dati
Accenni di analisi monovariata e bivariata
Misurazione Raccolta sistematica e organizzata di elementi per classificare quantificare.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

STATISTICA a.a. 2003-2004 DISTRIBUZIONI DI FREQUENZE RAPPRESENTAZIONE DEI DATI MISURE DI POSIZIONE: MEDIA, MEDIANA, MODA MISURE DI DISPERSIONE: DEVIANZA, VARIANZA,DEVIAZIONE STANDARD

METODO DELLE DISTRIBUZIONI DI FREQUENZE Rappresentazione dei dati per qualsiasi tipo di misura Serie di rettangoli Ognuno una data osservazione AREA proporzionale al numero di volte in cui l’osservazione viene registrata

METODO DELLE DISTRIBUZIONI DI FREQUENZE Per dati nominali ed ordinali: Ogni rettangolo è una classe di osservazione (Es. colore nero dei capelli) Per dati intervallari e razionali : Prima si determina l’intervallo di variazione (differenza fra valore più alto e più basso) Poi lo si divide in un certo numero di intervalli uguali Le basi dei rettangoli sono uguali Le aree sono proporzionali alle frequenze Quindi le altezze sono proporzionali alle frequenze.

METODO DELLE DISTRIBUZIONI DI FREQUENZE Esempio: Distribuzione di frequenze di 1300 osservazioni di neonati : capelli (scala nominale) condizioni di salute (scala ordinale) temperatura (scala intervallare) peso (scala razionale).

METODO DELLE DISTRIBUZIONI DI FREQUENZE

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI Deve essere curata la comprensibilità, l’indicazione della fonte e la data di rilevamento. IDEOGRAMMI

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI  PIE DIAGRAMS

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI ISTOGRAMMI A CANNE D’ORGANO

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI TABELLE DI CONTINGENZA     E. Coli Klebs S. Aur. Pseud Clostr Bact. Fungi N° 55 12 48 21 5 18 2 % 34.16 7.45 29.81 13.04 3.11 11.18 1.24

SINTESI DEI DATI QUANTITATIVI Si effettua attraverso misure di posizione e misure di dispersione.   MISURE DI POSIZIONE media aritmetica media geometrica mediana moda

SINTESI DEI DATI QUANTITATIVI La media aritmetica rappresenta il valore che ogni dato avrebbe se tutti i dati avessero lo stesso valore e se la somma dei valori dei dati rimanesse la stessa. Il valor medio si rappresenta con ed è pari alla somma dei valori di tutti i dati diviso per il numero dei dati:

SINTESI DEI DATI QUANTITATIVI o se i dati sono raccolti in distribuzioni di frequenza fi numero delle osservazioni che cadono nell’intervallino di cui xi è il valore centrale.

SINTESI DEI DATI QUANTITATIVI

SINTESI DEI DATI QUANTITATIVI   o usando la frequenza percentuale

PROPRIETA’ DELLA MEDIA Sommando o sottraendo un valore k da tutti i dati, la media risulta aumentata o diminuita di quel valore:       Moltiplicando o dividendo tutti i dati per un valore k, la media risulta moltiplicata o divisa per quel valore:

PROPRIETA’ DELLA MEDIA Se chiamiamo scarto di un dato valore dalla media la differenza tra quel valore e la media, avremo che la somma degli scarti di tutti i valori dalla media è uguale a zero:     La somma dei quadrati degli scarti dei valori dalla media è sempre minore della somma dei quadrati degli scarti dei valori da un qualsiasi altro valore v:  

MEDIA GEOMETRICA Altro tipo di media è la media geometrica, ossia la radice ennesima del prodotto degli n dati:           L’importanza della media geometrica emerge nel caso di grandezze che non seguono progressioni lineari ma geometriche.  

MEDIA GEOMETRICA     Progressione aritmetica è una serie di numeri per cui la differenza fra due numeri contigui (d, ragione) è sempre la stessa: an = d + an-1 Una progressione geometrica è una serie di numeri per cui il rapporto fra un numero e il precedente (q, ragione) è sempre uguale : an = q  an-1    

MEDIA GEOMETRICA Mg somm. Aumento ott. Mg. Somm. 15 1U 3 30 2U 9 45 3U  Esempio. Il farmaco A e il farmaco B servono ad aumentare un certo valore fisiologico. Per ambedue i farmaci quanto più alta è la dose tanto maggiore è l’aumento del valore fisiologico: FARMACO A FARMACO B       Mg somm. Aumento ott. Mg. Somm. 15 1U 3 30 2U 9 45 3U 27 60 4U 81 75 5U 243

MEDIA GEOMETRICA    Per il farmaco B i migliori effetti si hanno a basse dosi, mentre ad alte dosi l’aumento è minimo.   Quanti mg di A occorrono per far salire di 3.5 U il valore fisiologico ? Il rapporto dose/effetto è costante, per cui la dose da somministrare sarà la media fra 45 e 60 mg, ossia 52.5 mg.    

MEDIA GEOMETRICA farmaco A      

MEDIA GEOMETRICA     Per il farmaco B: vediamo che l’effetto di B varia come il logaritmo della dose, ossia gli effetti di B seguono una progressione aritmetica mentre le dosi seguono una progressione geometrica. Quindi volendo ottenere un effetto pari a 3.5 U (media fra 3 e 4 U), dovremo usare una dose pari a 46.76 mg (media geometrica fra 27 e 81 mg.    

MEDIA GEOMETRICA   farmaco B      

MISURE DI POSIZIONE La mediana è quella misura di posizione il cui valore è inferiore al valore del 50% dei dati, e superiore al valore dell’altro 50%. Divide i dati in due metà numericamente uguali. Non è precisa come la media perché valori estremi molto grandi o molto piccoli non ne modificano il valore Il valore è determinato solo dai valori centrali.   Se il numero delle osservazioni è dispari, il valore della mediana coincide con il valore del dato (n+1)/2. Se il numero delle osservazioni è pari, viene assunto come valore la media aritmetica dei valori dei dati n/2 e (n+2)/2.      

MISURE DI POSIZIONE Se il campione è più numeroso (es. 3500): Vogliamo trovare il valore della 1750esima osservazione. Costruiamo una tabella che riporti frequenze e frequenze cumulative delle varie classi (somma della frequenza di una classe e delle frequenze di tutte le classi precedenti):        

MISURE DI POSIZIONE Se il campione è più numeroso (es. 3500):      

MISURE DI POSIZIONE Valore Frequenza Freq. Cum. 160-180 106 180-200 271 377 200-220 317 694 220-240 450 1144 240-260 683 1827 260-280 648 2475 280-300 395 2870 300-320 291 3161 340-360 96 3500      

MISURE DI POSIZIONE La 1750esima osservazione sta nella classe 240-260. Se supponiamo le osservazioni uniformemente distribuite della classe,        

MISURE DI POSIZIONE La 1750esima osservazione sta nella classe 240-260. Se supponiamo le osservazioni uniformemente distribuite nella classe,  dovrà valere la seguente proporzione:   (1750 – 1144) : (1827 – 1144) = (x – 240) : (260 – 240) dove x è il valore della 1750esima osservazione. Risulta x = 257.74.      

MISURE DI POSIZIONE Analogamente alla mediana si definiscono e si calcolano: quartili decili percentili   1° quartile: superiore o uguale al 25% delle osservazioni inferiore al restante 75% 2° quartile coincide con la mediana 3° quartile : inferiore o uguale al 25% delle osservazioni e superiore al 75% 1° decile: superiore o uguale al 10% e inferiore al 90% delle osservazioni 1° percentile inferiore o uguale al 99% e superiore all’1% delle osservazioni, ecc.      

MISURE DI POSIZIONE  La moda è il valore più frequente di una distribuzione. Nella distribuzione precedente l’intervallo con il maggior numero di osservazioni era 240-260. Il valore centrale dell’intervallo (media aritmetica degli estremi) viene assunto come valore della moda, in questo caso 250.  La media della distribuzione sarà         quindi i tre valori mediana (257.74), moda (250) e media (258.24) sono molto vicini. Questo vale solo quando la distribuzione è approssimativamente normale (v. avanti).  

MISURE DI DISPERSIONE     Le misure di posizione danno un’idea del valore centrale di una popolazione Le misure di dispersione danno un’idea di quanto i dati si scostano dal valore centrale. RANGE o intervallo di variazione: differenza fra valore massimo e minimo. Se il range è elevato la media non dà una buona indicazione. Tuttavia se anche un solo bambino ha un’altezza molto bassa il range risulta molto grande ma la media è ancora una buona stima: il range non è una misura affidabile. SOMMA DEGLI SCARTI dei valori della media. E’ sempre uguale a zero.    

MISURE DI DISPERSIONE   DEVIANZA o somma dei quadrati degli scarti dalla media.   Ma la devianza è influenzata dalle dimensioni del campione (quanto più grande il campione tanto più numerosi gli scarti) E’ impossibile confrontare due campioni di dimensioni diverse attraverso la devianza.   VARIANZA è la devianza divisa per il numero di osservazioni.  

MISURE DI DISPERSIONE C “termine di correzione”   In genere la si calcola con     C “termine di correzione” perché in questo modo non richiede la conoscenza della media.   Ma la varianza deve misurare la variabilità dei dati: Vanno escluse tutte le costanti.

MISURE DI DISPERSIONE Chiamiamo GRADI DI LIBERTA’ il numero di dati significativi di un campione. Conoscendo la media e n-1 dati, l’n-esimo è ricavabile. Quindi il numero di gradi di libertà è n-1 e la formula corretta è       Quando il campione è numeroso la variazione è minima.

MISURE DI DISPERSIONE   DEVIAZIONE STANDARD è la radice quadrata della varianza:    In questo modo ds ha le stesse dimensioni fisiche delle osservazioni.  In genere si scrive la media di un campione seguita dalla sua deviazione standard, es. 14  3. La deviazione standard della popolazione si indica con s , la varianza con s2 . La deviazione standard del campione si indica con s , la varianza campionaria con s2 .