NOMENCLATURA STATISTICA.

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

I dati Qualsiasi contenuto dell’esperienza.
8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
MISURAZIONE Operazione che permette di associare coerentemente numeri alle caratteristiche di un insieme di oggetti o individui 4 i 5  2 R 3 1 6 3.
I numeri naturali ….. Definizione e caratteristiche
2. Introduzione alla probabilità
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Le rappresentazioni grafiche
Capitolo 1 Caratteri, unità statistiche e collettivo
La divulgazione della statistica
COORDINATE POLARI Sia P ha coordinate cartesiane
6. Catene di Markov a tempo continuo (CMTC)
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
“Teoria e metodi della ricerca sociale e organizzativa”
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
LA STATISTICA By prof. Pietro Rossi.
Lez. 3 - Gli Indici di VARIABILITA’
Il concetto di misura.
Gli errori nell’analisi statistica
6. Catene di Markov a tempo continuo (CMTC)
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Elementi di STATISTICA DESCRITTIVA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Popolazione, campione, parametri e stimatori
Capitolo 9 I numeri indici
Processi Aleatori : Introduzione – Parte I
Corso di Informatica (Basi di Dati)
STATISTICA a.a VARIABILITA’ BIOLOGICA E CASO
Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Statistica sociale Modulo A
I numeri by iprof.
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 4 Probabilità.
Elementi di STATISTICA DESCRITTIVA
“Teoria e metodi della ricerca sociale”
Cai Lin Lin Michela & Guidetti Emanuela presentano:
METODI E CONTROLLI STATISTICI DI PROCESSO
C ONCETTI B ASE DI S TATISTICA. C ONCETTI BASE DI S TATISTICA WWW. CENTROSTUDIGORGIA. COM La statistica studia i fenomeni ripetibili del mondo con determinazione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Lez. 3 - Gli Indici di VARIABILITA’
Statistica La statistica è
Variabili temporali Analisi statistica
La statistica.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
LEZIONE A.2 La produzione del dato TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.
Accenni di analisi monovariata e bivariata
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
ORIENTAMENTO CONSAPEVOLE
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Corso di Statistica Applicata C. L. in Tecnologie forestali e ambientali 4 crediti (32 ore) Docente: Lorenzo Marini DAFNAE, Università di Padova
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
DEFINIZIONE. La statistica è la disciplina che si occupa della raccolta di dati quantitativi relativi a diversi fenomeni, della loro elaborazione e del.
Presentare i dati Corso in Fonti, metodi e strumenti per l’analisi dei flussi turistici A.A Prof.ssa Barbara Baldazzi Corso di Laurea PROGEST.
Transcript della presentazione:

NOMENCLATURA STATISTICA

L’unità statistica L'unità è il soggetto elementare su cui vengono osservati i caratteri oggetto di studio: una persona fisica, un oggetto, un’azienda, o un gruppo di entità che, dal punto di vista dell'indagine, formino un tutt’uno. Le unità devono essere distinguibili e non ambigue. ESEMPI a) Interessi maturati su di un conto corrente (Il conto corrente) b) Tipo di riscaldamento di un appartamento (L’appartamento) c) Numero di testi consigliati in un corso (Il corso) d) Emissione di gas tossici da un automobile (L’automobile) A volte la corretta definizione di unità statistica richiede una definizione convenzionale molto dettagliata. Per definire le famiglie ad es. è possibile utilizzare la definizione fornita dall’ISTAT (censimento 2001): per famiglia si intende un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da altri vincoli affettivi, coabitanti e aventi dimora abituale nello stesso comune (anche se non sono ancora iscritte all’Anagrafe dello stesso comune). Una famiglia può essere costituita anche da una sola persona.

La popolazione La popolazione o UNIVERSO è l'insieme di tutte e solo le unità statistiche omogenee rispetto a una o più caratteristiche. ESEMPIO: Alcuni studenti intendono finanziare le spese di frequenza universitaria avviando un programma di ripetizioni ben fatte ed a basso costo. Quale sarà la popolazione? E’ chiaro che non possono essere tutti gli studenti iscritti. Ci si può limitare agli studenti dei primi 2 anni. Occorre poi determinare le materie per cui esistono le competenze: ad es. i corsi fondamentali di statistica e matematica. La delimitazione dell’universo è chiara: studenti del biennio che non hanno sostenuto statistica e/o analisi. Iscritti nei primi due anni di corso Interessati ad analisi e statistica popolazione

Tipologia di popolazione La popolazione può essere: FINITA Se include oggetti che possono essere contati ed il conteggio, ad un certo punto si interrompe. Esempi: le pagine di un libro, i diplomati di una scuola ENUMERABILE Le unità sono contabili, ma il conteggio non si interrompe mai Esempi: i numeri naturali, i lanci di un dado INFINITA Ogni sottoinsieme di popolazione contiene lo stesso numero di entità contenute nella popolazione. Esempi: le frazioni tra zero ed uno, le nuances di un colore INDETERMINATA L’insieme dei soggetti è finito in quanto esiste un limite fisico non valicabile alla sua crescita, ma le unità sono sparse o rare al punto da rendere impossibile il loro materiale censimento. Esempi: animali selvatici, tifosi di una squadra, gruppi etnici o religiosi particolari

Carattere statistico È l'aspetto si intende studiare nel dato. Può essere una distanza, una numerosità, una forma, un grado, una composizione di caratteristiche da trattare in modo aggregato. Dal punto di vista della definizione statistica qualunque carattere si “articola” in modalità ossia modi di essere, ad es. il sesso in maschio e femmina, l’età in anni … Le modalità devono essere almeno: esaustive (devono rappresentare tutti i possibili modi di manifestarsi del carattere) non sovrapposte (ad ogni unità si può associare una sola modalità) soggette a variazioni ossia presentarsi con almeno due valori o categorie distinte in corrispondenza delle diverse unità statistiche del collettivo.

Classificazione dei caratteri statistici Le modalità di un carattere possono essere: Quantitative ossia espresse da numeri ad esempio l’età in anni compiuti, il reddito in euro, la temperatura in gradi centigradi …, in tal caso il carattere si dice quantitativo o variabile. Qualitative ossia espresse da termini nominali, categorie, attributi, numeri convenzionali ad esempio il sesso, le professioni in libero professionista, dirigente, impiegato, artigiano, i colori, i mesi … in questo caso il carattere si dice qualitativo o mutabile.

Classificazione delle mutabili Un carattere qualitativo viene distinto in: Carattere sconnesso (o con scala nominale) se date due sue modalità è possibile affermare solo se sono uguali o diverse; ad es. sesso, stato civile, religione, razza … Carattere ordinato (o con scala ordinale) se date due modalità è possibile solo dare un ordine, specificando che una precede l’altra; ad es. grado di soddisfazione (poco, abbastanza, molto), titolo di studio (senza titolo, licenza elementare, licenza media, diploma, laurea, dottorato) I caratteri ordinati si dicono: rettilinei se possiedono una modalità iniziale ed una finale ad es. titolo di studio, ciclici se non hanno vere e proprie modalità iniziali e finali ma vengono spesso fissate in modo convenzionale ad es. la direzione del vento o il mese di nascita in questo caso se si elencano le modalità iniziando da gennaio fino a dicembre si nota che le modalità estreme sono in realtà molto prossime tra loro.

Classificazione delle variabili Un carattere quantitativo viene distinto in: quantitativo con scala a intervalli se non esiste uno zero assoluto, naturale e non arbitrario. Ha senso considerare la differenza tra le modalità del carattere ma non il loro rapporto, ad es. la temperatura misurata in gradi centigradi (lo zero utilizzato è convenzionale e l’affermazione “la temperatura 40° è due volte più calda che 20°” non ha senso non potendo fare nessuna affermazione sul loro rapporto poichè 0° non significa “totale assenza di calore”). quantitativo con scala di rapporti se esiste uno zero assoluto, naturale e non arbitrario, ad es. peso, reddito, età, lunghezza di un oggetto Le variabili vengono anche distinte in: Discrete se l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme di numeri interi, per cui le modalità sono in numero finito al più un’infinità numerabile, ad es. il numero di figli, numero di pezzi prodotti, voto ad un esame. Continue se l’insieme delle modalità può essere messo in corrispondenza biunivoca con un sottoinsieme di numeri reali, ad es. il peso, l’altezza.

Ricapitolando … Caratteri Caratteristiche Caratteri qualitativi (Mutabili) Scala nominale (mutabile sconnessa) Operazioni consentite = oppure ≠ nessun ordinamento delle modalità Scala ordinale (mutabile rettilinea e ciclica) Operazioni consentite >< le modalità possiedono un ordinamento semplice (strutture d’ordine) Caratteri quantitativi (Variabili) Scala ad intervalli Operazioni consentite + -, esiste un’unità di misura costante quindi una distanza tra le modalità Scala di rapporti Operazioni consentite × : esiste uno zero assoluto

Caratteri dicotomici I caratteri dicotomici detti anche var. logiche, dummy, var. indicatrici binarie, hanno solo due modalità: maschi e femmine, vivi o morti … Le unità statistiche sono classificate in base alla classificazione per dicotomia: presenza / assenza di un dato attributo. Alle modalità “presenza” si attribuisce convenzionalmente valore a e alle modalità “assenza” valore b con a e b simboli qualsiasi (ad es. 0 e 1). Da un punto di vista del livello di misurazione : possiedono in qualche modo un ordinamento (avere o non avere) ma riguardo alle relazioni d’ordine proprie delle scale ordinali non è possibile dire quale delle due modalità è maggiore o minore, possiedono il requisito dell’unità di misura e quindi la distanza che tuttavia è una sola. Una dicotomia può essere trattata sia come una scala nominale che ordinale che cardinale, secondo la natura del carattere reso dicotomico, pur senza avere pienamente le proprietà di tali scale.

Altre classificazione dei caratteri statistici I caratteri statistici possono distinguersi in base al tempo: invarianti nel tempo (ad es. luogo di nascita, anno di nascita); di stato, rilevabili con riferimento ad un dato momento (età stato civile, …); di flusso, rilevabili con riferimento ad un intervallo di tempo (nascite, reddito, consumi, ...). Un carattere è trasferibile se ha senso immaginare che un’unità statistica possa cedere tutto o parte del carattere posseduto ad un’altra un’unità statistica, ad es. il reddito, i beni posseduti non sono invece caratteri trasferibili il peso, l’altezza, l’età …

L’organizzazione dei dati In una serie non ordinata di dati non è possibile evidenziare o cogliere rapidamente le caratteristiche del fenomeno, ma è necessario, dopo la raccolta dei dati, organizzarli in database per permettere la sintesi e l’analisi delle variabili considerate. Nelle colonne sono riportate le variabili, nelle righe i valori relativi ad ogni osservazione. La colonna “Codice” è riportata allo scopo di codificare le osservazioni. E’ necessario ricordare che bisogna: Codificare uniformemente le variabili, Utilizzare sempre la stessa unità di misura Stabilire a priori la codifica dei dati mancanti Codice Sesso Lunghezza Peso 1 M 59 14 2 F 27 8 3 43 12 4 5 22 80

Distribuzione di frequenze Con le frequenze è possibile ottenere una rappresentazione molto più sintetica detta distribuzione di frequenze. La distribuzione di frequenze semplice associa alle modalità che può assumere un carattere X, qualitativo o quantitativo, le corrispondenti frequenze assolute. La distribuzione di frequenze si dice semplice se è riferita ad un unico carattere, ad es. il sesso; si dice doppia se è riferita a due caratteri congiuntamente, ad es. il sesso e l’età, in generale si dice multipla se si riferisce a più di un carattere.

Frequenza assoluta Dopo aver costruito il database, per potere valutare il fenomeno descritto dal carattere è importante associare a ciascuna modalità la frequenza assoluta, cioè il numero di volte che una modalità si presenta nella popolazione. Es.: Una variabile discreta ottenuta dalle votazioni riportate da 30 studenti all’esame di statistica: 18; 23; 30; 24; 18; 27; 21; 29; 25; 23; 20; 19; 26; 22; 28; 22; 24; 30; 18; 25; 27; 26; 28; 28; 26; 27; 20; 22; 26; 21. Occorre identificare il valore minimo (18) e quello massimo (30), contando quante volte compare ogni modalità (cioè quanti sono gli studenti che hanno avuto la stessa votazione).

Distribuzione di frequenza (Tabella) Le precedenti informazioni sono riportate in maniera più semplice nella tabella. La costruzione delle frequenze assolute permette di fare una prima valutazione sulla variabile osservata, è infatti possibile affermare quali sono le votazioni che si manifestano con maggiore (nell’esempio 26) o minore (il voto 19, 29) frequenza. Le frequenze assolute indicano, quindi, la consistenza numerica effettiva con cui una certa modalità è stata osservata. Voto Freq. assolute 18 3 19 1 20 2 21 22 23 24 25 26 4 27 28 29 30 Totale

Es. nel caso di variabile continua Quando la variabile è continua la distribuzione di frequenza della variabile suddivisa in classi si ottiene selezionando m intervalli della variabile, (x0-x1, …, xi-i +1, xn-1-xn) e contando, per ogni intervallo, il numero di volte che le unità di osservazione presentano un valore in esso compreso. Es.: Si supponga di rilevare la temperatura corporea in un campione di 13 donne: {36.2, 36.6, 37.3, 38.0, 38.2, 36.5, 36.5, 37.3, 38.4, 36.5, 37.4, 38.0} Nella formazione delle classi, il limite inferiore della I classe ed il limite superiore dell’ultima classe non devono essere i valori osservati, ma li devono comprendere. La classe iniziale e terminale non devono essere classi aperte (< 36.2 quella iniziale ≥38.4 quella finale). È necessario definire con precisione il valore minimo e massimo. Nell’esempio, le classi possono essere 36-36.4 la prima, 36.5-36.9 la seconda, e così via fino a 38-38.4 per l’ultima. Poiché la scala è continua i gradi °C riportati devono essere sempre intesi con cifre decimali.

Tabella nel caso di variabili continue Considerando i dati dell’esempio precedente, piuttosto che elencare nella distribuzione di frequenza, le singole modalità, che potrebbero dar luogo ad una tabella molto lunga e difficilmente leggibile, conviene raggrupparle in un certo numero di classi, come fatto, nella tabella successiva: Temperatura Freq. assoluta 36.0-36.4 1 36.5-36.9 4 37.0-37.4 3 37.5-37.9 38-38.4 Totale 13

Frequenze relative e percentuali Le frequenze relative indicano il peso, il contributo relativo di ogni modalità al totale. Sono ottenute dividendo le freq. assolute corrispondenti ad ogni modalità o ad ogni classe di valori, per il totale delle unità osservate: Spesso alle frequenze relative semplici sono preferite quelle percentuali, ottenute moltiplicando le prime per 100:

Frequenze cumulate La frequenza cumulata assoluta (relativa) associata ad una modalità della variabile indica il numero (la proporzione) di osservazioni che presentano un valore minore o uguale rispetto a quello della modalità Si può utilizzare solo se il carattere è misurato almeno su scala ordinale. La distribuzione di frequenze cumulate e retrocumulate consistono nel sommare via via tutte le osservazioni che presentano il valore inferiore (cumulate) o quello superiore (retroculate) ad una data modalità:

Es. di frequenze relative, percentuali e cumulate Si consideri, la seguente distribuzione di frequenza “numero di esami superati” e si calcolino le frequenze relative fi, relative percentuali f% e cumulate. n. esami f fi f% fcum 1 120 0.14 14.05 2 150 0.18 17.56 270 3 180 0.21 21.08 450 4 165 0.19 19.32 615 5 135 0.16 15.81 750 6 104 0.12 12.18 854 Totale 100