Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.

Slides:



Advertisements
Presentazioni simili
Le distribuzioni di probabilità continue
Advertisements

2. Introduzione alla probabilità
Variabili aleatorie discrete e continue
LA VARIABILITA’ IV lezione di Statistica Medica.
Distribuzione Normale o Curva di Gauss
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
LA DISTRIBUZIONE NORMALE
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Statistica descrittiva
Inferenza statistica per un singolo campione
Esercizi x1=m-ts x2=m+ts
Introduzione alla statistica per la ricerca Lezione I
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Processi Aleatori : Introduzione – Parte I
Corso di biomatematica lezione 4: La funzione di Gauss
Esercizi x1=m-ts x2=m+ts
Statistica sociale Modulo A
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 4 Probabilità.
Pedagogia sperimentale
METODI E CONTROLLI STATISTICI DI PROCESSO
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
PROPAGAZIONE DEGLI ERRORI:
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Strumenti statistici in Excell
Martina Serafini Martina Prandi
Calcolo delle probabilità a cura di Maurizio Brizzi
Marta Pinto Stefania Serra Valentina Paravidino
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Elaborazione statistica di dati
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
DEFINIZIONE. La statistica è la disciplina che si occupa della raccolta di dati quantitativi relativi a diversi fenomeni, della loro elaborazione e del.
Gli Indici di VARIABILITA’
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi

DISTRIBUZIONI DI PROBABILITÀ DISTRIBUZIONI DISCRETE DI PROBABILITÀ Sia X una variabile casuale discreta e si supponga che i valori che può assumere siano x1, x2, x3,…, valori che sono disposti in ordine crescente. Si supponga inoltre che tali valori siano assunti con probabilità P(X=xk) = f(xk) con k = 1,2,… (1) È conveniente introdurre la funzione di probabilità, anche nota come distribuzione di probabilità, nel seguente modo: P(X=x) = f(x) (2) Per x = xk l’eq. (2) coincide con l’eq. (1), mentre per tutti gli altri valori di x si ha f(x) = 0.

In generale f(x) è una funzione di probabilità se: a) f(x)  0; b) La rappresentazione grafica di f(x) è detta grafico di probabilità. La f(x) può anche essere rappresentata graficamente mediante un istogramma di probabilità (in questo caso la somma delle aree è pari a 1).

ESEMPIO. Sia X la variabile casuale corrispondente al numero di figli femmina in una famiglia con 2 figli. Si voglia trovare la distribuzione di probabilità per X. X può assumere i valori 0, 1 e 2. Supponendo identiche le probabilità di nascita di un figlio maschio e femmina, la funzione f(x) vale

DISTRIBUZIONI CONTINUE DI PROBABILITÀ Se X è una variabile continua la probabilità che X assuma un valore particolare è di solito zero e quindi non si può definire una funzione di probabilità in modo simile a quanto fatto per una variabile casuale discreta. Tuttavia anche in questo caso è sensato parlare della probabilità che X sia compresa fra due diversi valori. Ciò suggerisce di postulare l’esistenza di una funzione f(x) che, in analogia alla funzione di probabilità per variabili discrete, rispetta i vincoli: a) f(x)  0; b) N.B. La seconda equazione è la formulazione matematica del fatto che la variabile casuale X deve assumere un valore compreso fra – e +.

(Si ricorda che rappresenta, dal punto di vista La probabilità che X cada all’interno dell’intervallo (a,b) sarà allora definita come: (3) (Si ricorda che rappresenta, dal punto di vista geometrico, l’area che compresa fra la curva f(x) e l’asse x, fra i punti a e b). Una funzione f(x) che soddisfi le condizioni poste è una funzione di probabilità di una variabile casuale continua. Più comunemente è detta funzione densità di probabilità o, semplicemente, densità di probabilità.

Matematicamente essa è espressa dalla relazione (4) La funzione densità di probabilità più nota è quella relativa agli errori di misura. Se si esegue una serie molto grande di misure di una grandezza relativa a un determinato oggetto, si otterranno valori diversi e ciò è dovuto agli errori di misura (differenza fra il valore vero e quello misurato), che definiscono una variabile casuale continua. Tale variabile ha una curva di densità di probabilità simmetrica, qualitativamente simile a una campana, che prende il nome di distribuzione normale o distribuzione gaussiana. Matematicamente essa è espressa dalla relazione (4) dove  e  sono i parametri che caratterizzano questa distribuzione. La distribuzione normale assume una notevole importanza anche in medicina, poiché varie variabili biomediche possono essere considerate di tipo gaussiano.

COME RIASSUMERE I DATI Data una variabile casuale X, si possono definire alcune misure che danno informazioni importanti circa la sua distribuzione di probabilità. Le più usate sono: misure di tendenza centrale, misure di dispersione misure di asimmetria misure di curtosi, momenti. In particolare le misure di tendenza centrale e quelle di dispersione danno rispettivamente informazioni circa la localizzazione e la variabilità associate alla variabile casuale oggetto di studio.

L’asimmetria (in inglese skewness) è un valore che fornisce una misura della mancanza di simmetria della distribuzione in esame. Se una funzione densità di probabilità ha “una coda più lunga a destra del massimo centrale”, la distribuzione si dice positivamente asimmetrica. Nel caso opposto la distribuzione è negativamente asimmetrica. Esistono diversi indici di asimmetria. Per ognuno di essi il valore 0 fornisce una condizione necessaria, ma non sufficiente, affinché una distribuzione sia simmetrica. (Ogni distribuzione simmetrica ha indice 0, ma esistono anche distribuzioni non simmetriche con indice 0).

La curtosi (kurtosis) dà una misura del grado di altezza raggiunto dalla distribuzione in esame, generalmente in relazione alla distribuzione normale. Il calcolo dei momenti (di vario ordine) consente in generale di caratterizzare più precisamente la distribuzione in esame. La definizione ed il calcolo di queste misure, a partire dalla conoscenza della distribuzione in esame, può richiedere una buona preparazione matematica relativa al calcolo integrale e quindi, per semplicità, tale problema non verrà affrontato in maniera esaustiva in questa sede. Di seguito ci limiteremo a definire, in maniera semplice, le principali misure di tendenza centrale (localizzazione) e di dispersione (variabilità).

MISURE DI TENDENZA CENTRALE Si supponga di osservare tutti gli elementi relativi ad una popolazione (ad esempio la popolazione dei bambini italiani di 10 anni di età) e di voler studiare una variabile casuale X (ad esempio la statura) di questa popolazione. Per avere un’informazione quantitativa circa la posizione occupata dalla variabile in studio sulla scala delle stature, si può utilizzare una misura, detta valore medio della popolazione (o, più semplicemente, media della popolazione). Il valore medio della popolazione si chiama spesso valore atteso o speranza matematica.

Il valore medio della variabile X nella popolazione è generalmente rappresentato con il simbolo E(x) [expected value] o con la lettera greca  e, nel caso particolare di distribuzioni discrete di probabilità, è semplicemente definito come dove f(x) è la distribuzione di probabilità della variabile discreta X. Se la variabile casuale X è continua il calcolo del valore medio richiede l’uso dell’operatore integrale, in particolare

N.B. Il valore medio è un un indice di localizzazione, poiché fornisce un’informazione circa la posizione occupata dalla variabile casuale X sulla scala di misura. Altre misure di tendenza centrale sono: la mediana, la moda. La mediana è quel valore ξ per cui P(X  ξ ) = P(X  ξ ) = 0,5. Nel caso di una distribuzione continua, la mediana corrisponde all’ascissa che spezza la curva di densità di probabilità in due parti a cui corrisponde un’area sottesa pari a 0,5. È detta moda quel valore di X a cui corrisponde un massimo della distribuzione di probabilità. Una distribuzione può avere più di una moda (distribuzione bimodale, trimodale o multimodale).

MISURE DI DISPERSIONE Una misura di dispersione di una variabile casuale X comunemente impiegata è la varianza e viene di solito rappresentata con il simbolo  2. È definita come il valore medio degli scarti quadratici dalla media  , cioè:  2 = Var(X) = E [(x – )2] La varianza è quindi un numero non negativo. La radice quadrata positiva della varianza è detta deviazione standard (), cioè:

La varianza e la deviazione standard sono entrambi misure di variabilità dei valori della variabile casuale X attorno al suo valore medio . ↓ Se i valori di X sono concentrati vicino al valore medio, sia la varianza sia la deviazione standard sono piccole, mentre esse crescono quando i valori sono dispersi lontano dal valore medio. Può essere utile descrivere la variabilità in percentuale rispetto al valore medio, ottenendo così il coefficiente di variazione (CV) N.B. CV è adimensionale ESERCIZIO: Sia X la variabile casuale corrispondente al numero di figli femmina in una famiglia con 2 figli. Si calcoli il valore medio, la deviazione standard ed il coefficiente di variazione di X.

Una diversa misura di dispersione è il campo interquartile. Per definire questa misura è necessario introdurre prima il concetto di percentile: data una variabile casuale X si definisce K-esimo percentile quel valore x tale che P(X  x) = K e P(X  x) = 100–K. La mediana corrisponde quindi al 50° percentile ed è spesso chiamata secondo quartile ed indicata con Q2. Il 25° e il 75° percentile sono analogamente detti primo quartile (Q1) e terzo quartile (Q3).

L’intervallo di valori compreso fra Q1 e Q3 è detto intervallo interquartile. N.B. L'intervallo interquartile contiene la metà della popolazione, indipendentemente dalla forma della distribuzione della variabile. La differenza Q3 – Q1 è detta campo interquartile e la sua metà campo semi-interquartile. Entrambi queste misure rappresentano indici di dispersione.

ALCUNE CONSIDERAZIONI SULLA DISTRIBUZIONE GAUSSIANA Si noti che  e  sono i soli due parametri che compaiono nell’espressione matematica che definisce la distribuzione gaussiana. In altre parole la densità di probabilità di una variabile casuale X di tipo gaussiano è completamente definita se si conoscono il valore medio e la deviazione standard della popolazione. Di conseguenza, in questo caso particolare, tali indici non costituiscono solo importanti elementi informativi circa la variabile in studio, ma forniscono anche tutti gli elementi necessari per una completa descrizione della popolazione. Ciò non è però generalmente valido se la variabile casuale X ha una distribuzione diversa da quella di Gauss. In questi casi può essere preferibile utilizzare altri indici di tendenza centrale e di dispersione maggiormente informativi. In pratica, quale indice di tendenza centrale conviene utilizzare la mediana e come indice di dispersione il campo interquartile o il campo semi-interquartile.