1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto.

Slides:



Advertisements
Presentazioni simili
8) GLI INTERVALLI DI CONFIDENZA
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Intervalli di confidenza
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Descrizione dei dati Metodi di descrizione dei dati
C – Indici di Asimmetria e Curtosi
Progetto Pilota 2 Lettura e interpretazione dei risultati
Elementi di STATISTICA DESCRITTIVA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Popolazione, campione, parametri e stimatori
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Introduzione alla statistica per la ricerca Lezione I
Come descrivere un fenomeno in ambito sanitario: fondamenti di statistica descrittiva Brugnaro Luca.
Appunti di inferenza per farmacisti
Complementi al Corso di Ecologia - Approfondimenti di statistica
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
STATISTICA La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
La verifica d’ipotesi Docente Dott. Nappo Daniela
Accenni di analisi monovariata e bivariata
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Martina Serafini Martina Prandi
IL CAMPIONE.
“Teoria e metodi della ricerca sociale e organizzativa”
ORIENTAMENTO CONSAPEVOLE
Elementi di statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La distribuzione campionaria della media
Elaborazione statistica di dati
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto di questa classe è in media sufficiente” “quest’anno sono di moda le vacanze in sardegna” Affermazioni di tipo statistico Usualmente con il termine “statistica” si indicano anche i risultati numerici (le come ad esempio PIL, inflazione, disoccupazione etc.) di un processo di sintesi dei dati osservati. Tale studio avviene mediante la RACCOLTA, CLASSIFICAZIONE e ANALISI dei dati che esprimono tali fenomeni I dati devono essere organizzati, riassunti, presentati, analizzati e infine interpretati, trarne conclusioni appropriate.

2 Statistica descrittiva e inferenziale Statistica descrittiva: SCOPO: descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi, ovvero “fotografare” una data situazione e sintetizzarne le caratteristiche salienti METODI: indicatori statistici, indicatori di centralità, di dispersione (varianza, media, moda, quartili, percentili, coefficienti di correlazione, covarianza, etc) rappresentazioni grafiche come tecnica di presentazione dei dati che affianca la presentazione in forma tabellare, con lo scopo di aiutare l'analisi (diagrammi a barre, a torta, istogrammi, boxplot)

3 Statistica descrittiva e inferenziale Statistica inferenziale: SCOPO: utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte: ad esempio esaminando un piccolo campione estratto da una grande popolazione si cerca di valutare la frazione della popolazione che possiede una certa caratteristica. METODI: variabili aleatorie, test statistici, intervalli confidenza, significatività, stimatori, etc

4 Popolazioni, campioni, unità e caratteri Insieme o collezione di oggetti che sono oggetto di analisi e studio (ad esempio misure o osservazioni) Popolazione L’uso della parola Popolazione in statistica deriva storicamente dal fatto che le prime statistiche venivano fatte per descrivere fenomeni demografici o economici origine Parte della popolazione sulla quale si conduce l’indagine Campione Un elemento della popolazione Unità statistica

5 Popolazione Tutti gli studenti iscritti Unità statistica Lo studente Mario Rossi (che è uno degli iscritti) Campione Alcuni studenti selezionati che partecipano al sondaggio Il preside di una Facoltà vuole condurre un sondaggio per conoscere il parere degli studenti sull’organizzazione dei corsi e degli orari. In questo caso Esempio

6 espressione elementare di una qualche proprietà osservabile sperimentalmente che contraddistingue ogni unità statistica. Carattere I valori ammissibili per un carattere sono dette modalità Modalità Lo studio delle proprietà di una popolazione avviene mediante l’analisi caratteri. Popolazioni, campioni, unità e caratteri

7 caratteri qualitativi (mutabili o categoriali) Tipo di attributo non numerico caratteri qualitativi sconnessi non è significativo stabilire un ordine tra le diverse modalità ex. Religione: mussulmano, cristiano, … ex. Nazionalità : italiano, francese,… ex. Sesso: maschio, femmina (… ?) caratteri qualitativi ordinati è possibile stabilire ordinamenti significativi tra le diverse modalità ex. Titolo di studio: diploma < laurea < dottorato ex. Nel feudalesimo: servi della gleba < contadini liberi < valvassori vassalli < Imperatore

8 Popolazioni, campioni, unità e caratteri caratteri quantitativi (variabile) Tipo di attributo numerico discreti L’insieme delle modalità è finito o numerabile Carattere modalità ex. numero di figli: 0,1,2,3,… ∞ ex. Clienti in un negozio: 0,1,2,… ∞ ex. Numero di testa in 5 lanci di una moneta: 0,12,3,4,5 Ex. Numero di atomi nell’universo: 0,1,2,…, ∞ continui L’insieme delle modalità è equipotente a R Carattere modalità ex. Altezza in metri di un individuo: [0,+∞[ ex. Peso in grammi di una trota: [0,+∞[ ex. Reddito in euro di un individuo: [0,+∞[ ex. Conto in banca di un individuo: ]- ∞,+∞[

9 Scale di misura I caratteri possono essere classificati in modo analogo mediante la scala di misura che si usa per rappresentarli Per caratteri qualitativi sconnessi dove l’unico confronto possibile tra unità statistiche avviene verificando se presentano o no la stessa modalità SCALA NOMINALE Per caratteri qualitativi ordinati in cui il risultato della misura è un numero che da indicazioni sul fatto che una certa unità statistica sia più o meno dotata di una certa proprietà, ma dove la differenza tra i valori di modalità non restituisce informazioni significative ex. carattere modalità Titolodiploma, laurea, dottorato Ha senso dire laurea > diploma ma non ha senso definire la differenza laurea – diploma SCALA ORDINALE

Scale di misura SCALA INTERVALLARE Per caratteri quantitativi in cui sono significative le differenze tra i risultati delle misure ma non i rapporti. In sintesi si usano scale intervallari dove non vi è un unico e significativo inizio della scala. ex. Temperatura, Anno Se in una settimana la temperatura a Napoli è passata da 20 a 40 gradi centigradi, ha senso dire che “la temperatura è aumentata di 20 gradi”, ma non ha senso dire che “la temperatura è raddoppiata”. Infatti il risultato dipende dalla scala di misura usata (se si usasse la scala Fahrenheit il rapporto cambierebbe) 10 Per caratteri quantitativi in cui il risultato della misura sono significative anche i rapporti le differenze ovvero è possibile stabilire un inizio assoluto della scala. ex. Reddito, numero di figli, peso, SCALA RAPPORTALE

Perché estrarre un campione ? Campioni statistici si estraggono continuamente Esempi - Il professore interroga un campione di allievi per verificare la preparazione della classe. - Il cuoco assaggia un campione di pasta per valutarne la cottura. - Il ricercatore valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione della popolazione (exit-pool) … 11 I risultati su un campione permettono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama INFERENZA STATISTICA.

Percorso dell’inferenza statistica: 12 Popolazione INFERENZA STATISTICA CAMPIONAMENTO Campione ANALISI DEI DATI (dati grezzi) (MODALITA’ ASSUNTE DAL CARATTERE O CARATTERI) STATISTICHE (STIMATORI) 1.estrazione di un campione della popolazione 2. calcolo delle statistiche a partire dalle modalità osservate sul campione (dati grezzi) 3. stima di un parametro del carattere sull’intera popolazione in base alle statistiche ottenute dal campione

ELEMENTI DI STATISTICA DESCRITTIVA Per l’analisi di dati in statistica esiste attualmente un gran numero di software disponibile. Tra questi uno dei principali è software libero R Premessa Nella stesura di questo materiale didattico è stato usato Matlab Un altro dei principali software per l’analisi di dati (e con molte altre funzionalità) è l’ambiente di risoluzione di problemi Matlab che offre un vasto toolbox statistico

ELEMENTI DI STATISTICA DESCRITTIVA Si vuole studiare un carattere di una popolazione che assume caso discreto carattere con k possibili modalità Y 1 < Y 2 < … < Y h < … < Y k Campione n=8 persone selezionate (M.Rossi, …, F.Bianchi) Esempio Popolazione Italiani 0,1,2,…,100,…,200,… modalità possibili Carattere Peso in kg (approssimato al kg) Modalità osservate I valori assunti dalle unità (dati) possono essere “sistemati” in un vettore (array) Consideriamo un campione di n unità statistiche e denotiamo con D i l’i-esimo dato (modalità osservata per la i-esima unità)

ELEMENTI DI STATISTICA DESCRITTIVA 1° livello di sintesi – Distribuzioni in frequenza Partendo dai dati grezzi (caso discreto - carattere con k modalità) Unità statistica1 2in carattere YD 1 D 2 D i D n il fenomeno può quindi essere sintetizzato in vari livelli …… …… n i Frequenza assoluta della modalità Y i (cioè numero di unità statistiche per le quali si osserva il valore Y i ) Modalità Y 1 Y 2 Y h Y k Frequenze assolute n 1 n 2 n h n k …… …… …… …… …… …… Valori di YY 1 Y 2 Y h Y k Frequenze relative f 1 f 2 f h f k f i Frequenza relativa della modalità Y i (cioè porzione di unità statistiche per le quali si osserva il valore Y i ) I valori assunti dalle unità (dati) possono essere “sistemati” anche in una tabella

ELEMENTI DI STATISTICA DESCRITTIVA Nel caso vengano rilevati più caratteri della popolazione (statistica bivariata o multivariata) i dati grezzi vengono ancora una volta rilevati come segue: Valori di Y Valori di X Y 1 Y 2 Y j Y t X 1 n 11 n 12 n 1j n 1t X 2 n 21 n 22 n 2j n 2t X h n h1 n h2 n hj n ht X k n k1 n k2 n kj n kt … … … …… … … … ……………… ……………… tabella a doppia entrata (matrice k x t ): 1° livello di sintesi – Distribuzione doppia in frequenza n i j Frequenza assoluta della coppia di modalità (X i, Y j) (cioè numero di unità statistiche per le quali si osserva il valore X i sul primo carattere e il valore Y j per il secondo carattere ) …… …… …… …… Unità statistica 12in carattere XD 11 D 21 D i1 D n1 carattere YD 12 D 22 D i2 D n2 ………… D 1i modalità osservata del carattere X per la i-esima unità D 2i modalità osservata del carattere Y per la i-esima unità

Istogramma A partire dalle distribuzioni in frequenza è possibile rappresentare la distribuzione mediante un istogramma Un istogramma è un grafico della distribuzione delle frequenze assolute dei dati del campione Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 unità statistiche modalità

minmax Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 Istogramma

Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 - dividiamo l’intervallo che contiene i valori di modalità osservati in m sottointervalli (eventualmente di uguale ampiezza) dette classi o bins (bins) - gli estremi di tali intervalli sono detti cutoff - si conta il numero di dati del campione in ogni bin (frequenza della classe) e si visualizza una barra verticale per ogni bin con altezza pari alla frequenza bins cutoff Istogramma

Istogramma con 10 bins Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 Istogramma Istogramma con 7 bins

ELEMENTI DI STATISTICA DESCRITTIVA L’analisi statistica dei caratteri quantitativi permette tuttavia un livello di sintesi maggiore cioè quello legato allo studio dei parametri di sintesi dei fenomeni studiati. Una descrizione della popolazione può infatti essere basata anche sulla quantificazione di valori quali media e variabilità del fenomeno di interesse. 2° livello – Parametri della popolazione La conoscenza congiunta dei valori che tali costanti assumono nella popolazione permette di descrivere in maniera molto sintetica il fenomeno osservato nella popolazione. Si può distinguere in:  Indici di posizione  Indici di variabilità:  Indici di forma

Indici di posizione La definizione di molti indici di posizione è legata solo alla posizione che la modalità osservata ha nel campo di variazione di valori (quantili, percentili, mediana, …) altri indici di posizione sono invece legato anche al valore che la modalità assume. si ha …… …… …… …… Valori di YY 1 Y 2 Y h Y k Frequenze relative f 1 f 2 f h f k Dato il campione D=(D 1,D 2,…,D n ) e la sua distribuzione in frequenza relativa Si definisce funzione cumulativa empirica dei dati del campione (o funzione di ripartizione empirica o funzione di distribuzione cumulativa) una funzione F :   [0,1] che ad ogni valore reale x associa la porzione di dati che assume modalità minore o uguale ad x. Definizione:

Indici di posizione funzione cumulativa empirica Circa il 28% dei dati assume un valore minore o uguale a 4.6 cioè F(4.6)=

Indici di posizione Si definisce moda campionaria (o moda del campione o valore modale) la (o le) modalità più frequente nel campione Definizione: Esempio La moda campionaria è 70 La moda campionaria è anche 58 Valori di Y Frequenze assolute

Indici di posizione Esempio Si definisce media campionaria (o media) la media aritmetica dei dati (modalità) del campione Definizione: La media campionaria è data da

Indici di posizione Esempio La media campionaria si può calcolare anche a partire dalla distribuzione in frequenza relativa o assoluta Formula alternativa La media campionaria è f i frequenza relativa della modalità Y i n i frequenza assoluta della modalità Y i Valori di Y Frequenze assolute Valori di Y Frequenze relative

Indici di posizione Proprietà della media  se i dati del campione sono tutti uguali a una costante D allora la media è D  la media è sempre compresa tra il più grande e il più piccolo dei dati del campione  la media di una trasformazione lineare dei dati è uguale alla trasformazione lineare della media campione campione trasformato

Indici di posizione Proprietà della media  la somma delle differenze dei dati dalla media campionaria (gli scarti) è sempre 0  la somma dei quadrati degli scarti da una qualsiasi costante è minima se e solo se la costante è la media campionaria

Indici di posizione Approssimazione della media  Se non si conoscono i dati, ma solo una distribuzione delle loro frequenze (assolute) in m classi (bins) classi frequenze assolute la media può essere approssimata come con

 ordinare i dati  sia O i l’i-simo dato ordinato (parametro ordinale) Indici di posizione La mediana campionaria Md n è il parametro ordinale centrale se n è dispari, la media dei due parametri ordinali centrali se n è pari Definizione: Esempio ordino i dati n pari, considero i parametri ordinali centrali 58 e 70 Md n = (58+70)/2=64

 ordinare i dati  sia O i l’i-simo dato ordinato (parametro ordinale) Indici di posizione Esempio ordino i dati La mediana campionaria Md n è il parametro ordinale centrale se n è dispari, la media dei due parametri ordinali centrali se n è pari Definizione: n dispari la mediana è il parametro ordinale centrale Md n = 70

Indici di posizione  Approssimativamente la mediana Md n è il valore in cui la funzione cumulativa empirica assume valore 0.5, cioè F( Md n )=0.5 Proprietà della mediana  la mediana è un numero che è maggiore o uguale del 50% dei dati del campione e minore o uguale del restante 50%  la somma dei valori assoluti degli scarti da una qualsiasi costante è minima se la costante è la mediana campionaria

Indici di posizione Esempio ordino i dati mediana valore 64 F(64)=0.5 F( Md n )=

 ordinare i dati  sia O i l’i-simo dato ordinato (parametro ordinale) Indici di posizione il campo di variazione campionario è la O n – O 1 Definizione: il midrange campionario è la quantità (O n +O 1 )/2 Definizione: Esempio ordino i dati campo di variazione =950 midrange ( )/2=525

 ordinare i dati  sia O i l’i-esimo dato ordinato (parametro ordinale) Indici di posizione il quantile-p con p in [0,1] è un numero che è maggiore o uguale del 100xp% dei dati del campione e è minore o uguale del restante 100x(1-p)% Definizione: Esempio ordino i dati quantile-0.2 Possibili valori 51, 52.3 il 20% dei dati è a sinistra di 51 e 80% a destra il 20% dei dati è a sinistra di 52.3 e 80% a destra 51, 52.3

Indici di posizione approssimativamente il quantile-p è un qualunque valore in cui la funzione cumulativa empirica assume valore p, cioè F(quantile-p)=p  il quantile-p con p in [0,1] è maggiore o uguale del 100 x p%, cioè ad una porzione pari a p dei dati Proprietà dei quantili-p  il quantile-0.50 è un numero che è maggiore o uguale del 50% dei dati del campione e è minore o uguale del restante 50%, cioè è la mediana Osservazione La definizione data di quantile lascia aperta qualche ambiguità nella sua interpretazione. Ad esempio se i dati sono 10, il quantile 0.25 lascerebbe alla sua sinistra il 25% dei dati ma il 25% di 10 dati è due (dati) e mezzo! Allora quale valore scegliere? In situazioni così ambigue sono possibili vari approcci (che non discutiamo) per il calcolo del quantile, simili per qualche verso al calcolo della mediana nel caso di n pari. Tuttavia è bene osservare che se i dati diventano abbastanza numerosi (n grande) tutti questi metodi calcolano per il quantile approssimativamente lo stesso valore

Indici di posizione Esempio quantile-0.2 Possibili valori 51, 52.3 ordino i dati F(quantile-p)=p F(51)=0.2

Indici di posizione I quantili con p=0,01,..,0,99 sono detti percentili Definizioni: Il quantile-0.25 è detto quartile primo e indicato con Q1 n o solo Q1 Il quantile-0.75 è detto quartile terzo e indicato con Q3 n o solo Q3 La differenza SIQ n =Q3 n -Q1 n è detta scarto interquartile (o range interquartile) Esempio ordino i dati Md n = (58+70)/2 SIQ n = = 24 Q1 n =(50+53)/2=51.5 Q3 n =(71+80)/2=75.5

box & whiskers plot = diagrammi a scatola con baffi A partire dagli indici di posizione è possibile dare una rappresentare grafica della distribuzione dei dati mediante un diagramma a scatola con baffi Il diagramma scatola con baffi (box-and-whiskers plot) è un ideogramma che descrive in modo schematico un insieme di dati Proprietà della scatola con baffi  La scatola corrisponde alla parte centrale della distribuzione (intervallo delimitato dal primo e dal terzo quartile) e comprende circa il 50% dei casi.  La mediana è individuata dalla linea verticale all'interno della scatola.  I baffi corrispondono alle code di sinistra (fino al primo quartile) e di destra ( dal terzo quartile in poi). baffo sotto [Q x SIQ, Q 1 ] baffo sopra [Q 3, Q x SIQ]  I dati (eventuali) esterni all'intervallo [Q SIQ, Q SIQ] sono considerati statisticamente anomali e sono rappresentati individualmente.

box & whiskers plot = diagrammi a scatola con baffi A partire dagli indici di posizione è possibile dare una rappresentare grafica della distribuzione dei dati mediante un diagramma a scatola con baffi mediana Q3Q3 Q1Q1 Q x SIQ Scarto interquartile Q x SIQ campo di variazione outlier

Esempio Md n = (58+70)/2 Q1 n =(50+53)/2=51.5 Q3 n =(71+80)/2= outlier -40 outlier box & whiskers plot = diagrammi a scatola con baffi

Altri esempi box & whiskers plot = diagrammi a scatola con baffi

Indici di variabilità dei dati (dispersione dei dati attorno alla media ) Indici di variabilità Definizione: Si definisce varianza campionaria il valore Definizione: Si definisce deviazione standard campionaria (o scarto quadratico medio, root mean square) il valore

Proprietà della deviazione standard  La deviazione standard di dati trasformati linearmente mediante la funzione f(x)= ax+b è |a| volte la deviazione standard iniziale Indici di variabilità Proprietà della varianza  La varianza di dati trasformati linearmente mediante la funzione f(x)= ax+b è a 2 volte la varianza iniziale  La varianza non risente di traslazioni sui dati (f(x)=x+b)  La deviazione standard non risente di traslazioni sui dati (f(x)=x+b)

Indici di variabilità Definizione: Si definisce coefficiente di variazione il rapporto tra deviazione campionaria standard e media campionaria  Il coefficiente di variazione risente di traslazioni sui dati Proprietà del coefficiente di variazione  Il coefficiente di variazione di dati trasformati linearmente mediante la funzione f(x)= ax coincide con il coefficiente di variazione dei dati non trasformati

standardizzazione dei dati i dati vengono trasformati linearmente mediante la funzione dati standardizzatiDati Proprietà  I dati standardizzati hanno media campionaria nulla e varianza campionaria unitaria

Indici di forma Definizione: Si definisce skewness (asimmetria) la media dei cubi dei dati standardizzati  skewness negativa denota asimmetria verso sinistra (coda verso i valori più bassi) Proprietà  skewness positiva denota asimmetria verso destra (coda verso i valori più alti)

Indici di forma Definizione: Si definisce curtosi la media delle quarte potenze dei dati standardizzati diminuita di 3 Proprietà  curtosi (forma rispetto alla normale) negativa appiattimento positiva picco più pronunciato

STATISTICA DESCRITTIVA MULTIVARIATA Nel caso vengano rilevati più caratteri della popolazione si parla di statistica bivariata (2 caratteri) o multivariata (più di 2 caratteri). D 1i modalità osservata del carattere X per la i-esima unità D 2i modalità osservata del carattere Y per la i-esima unità …… …… …… …… Unità statistica 12in carattere XD 11 D 21 D i1 D n1 carattere YD 12 D 22 D i2 D n2 ………… I dati grezzi possono essere organizzati in una tabella come segue o in una matrice caratteri Unità statistiche D matrice dei dati (nx2)

STATISTICA DESCRITTIVA BIVARIATA persone 1234 X(peso) Y(altezza) Esempio Si considerano il peso in kg e l’altezza in cm di 4 persone (unità st.) Indica la modalità con cui si presenta il j-esimo carattere della i-esima unità statistica

m caratteri (variabili), n unità (dati) per ogni variabile STATISTICA DESCRITTIVA MULTIVARIATA caratteri Unità statistiche D matrice dei dati (nxm) Indica la modalità con cui si presenta il j-esimo carattere della i-esima unità statistica

Cosa si può dire una campione multivariato? 2.Si può indagare sull’esistenza di relazioni (non note a priori) tra caratteri diversi studiando la variabilità di un carattere rispetto all’altro (ad esempio osservare se al crescere della modalità di un carattere cresce o descresce la modalità per l’altro) C 11 media campionaria primo carattere C 22 media campionaria secondo carattere m 2 media campionaria secondo carattere m 1 media campionaria primo carattere 1. Si possono analizzare le singole variabili come nella statistica descrittiva univariata Osserviamo i dati rappresentati su un diagramma di dispersione (Grafico delle coppie (x i,y i ) ) STATISTICA DESCRITTIVA BIVARIATA

Unità statistiche caratteri ( X, Y ) diagramma di dispersione Grafico delle coppie (x i,y i )

Quale statistica usare per misurare questa tendenza dei dati ad allinearsi? Il grafico di dispersione mostra coppie di modalità dei caratteri quasi allineate ovvero osservando ad esempio la modalità del primo carattere con molta probabilità si avrà un carattere grande anche per la modalità del secondo carattere Si definisce matrice di covarianza (o matrice delle varianze e covarianze o matrice di dispersione) la matrice simmetrica 2 x 2 Definizione: Si definisce covarianza campionaria tra la prima e la seconda variabile il valore STATISTICA DESCRITTIVA BIVARIATA

Proprietà della covarianza  C 12 è un indicatore dell’esistenza di una relazione lineare tra le osservazioni delle due variabili STATISTICA DESCRITTIVA BIVARIATA C 12 positivo gli scarti delle modalità dei due caratteri rispetto alle rispettive medie tendono ad avere lo stesso segno C 12 negativo gli scarti delle modalità dei due caratteri rispetto alle rispettive medie tendono ad avere segno opposto L’ordine di grandezza di C 12 non è significativo (da solo)

STATISTICA DESCRITTIVA BIVARIATA X Y Unità statistiche Osservazione Se indichiamo il primo carattere con X e il secondo con Y Dove Z è la matrice

Quale statistica usare per misurare questa tendenza dei dati ad allinearsi? A partire dalla matrice covarianza si può ottenere una matrice 2 x 2 con entrate in modulo non superiori ad uno Definizione: Si definisce coefficiente di correlazione tra la prima e la seconda variabile il valore STATISTICA DESCRITTIVA BIVARIATA Si definisce matrice di correlazione la matrice simmetrica 2 x 2 con R 11 =R 22 =1 Definizione:

STATISTICA DESCRITTIVA BIVARIATA Se indichiamo il primo carattere con X e il secondo con Y Osservazione dev(X) la deviazione standard campionaria di X Poichè segue

Proprietà del coefficiente di correlazione  R 12 è un indicatore dell’esistenza di una relazione lineare tra le osservazioni delle due variabili STATISTICA DESCRITTIVA BIVARIATA R 12 =1 le osservazioni delle due variabili sono in (completa) relazione lineare (diretta) R 12 =0 le osservazioni delle due variabili non sono in relazione lineare R 12 =-1 le osservazioni delle due variabili sono in (completa) relazione lineare (inversa)

STATISTICA DESCRITTIVA BIVARIATA Esempio Si considerano il peso in kg e l’altezza in cm di 4 persone i dati sono “quasi” allineati su una retta con coefficiente angolare positivo R 12 =0.97

STATISTICA DESCRITTIVA BIVARIATA i dati sono “quasi” allineati su una retta con coefficiente angolare negativo

STATISTICA DESCRITTIVA BIVARIATA i dati sono “quasi” allineati su una retta con coefficiente angolare positivo

Cenni di STATISTICA INFERENZIALE Lo strumento di indagine è costituito dagli STIMATORI esempi - media campionaria (stimatore della media del carattere) - varianza campionaria (stimatore della varianza del carattere) Lo scopo dell’indagine campionaria è far luce su una o più costanti parametri che descrivono il carattere ignoto per una popolazione Il carattere può essere pensato come una v.a. con una sua media e varianza

Cenni di STATISTICA INFERENZIALE Un classico modo di fare inferenza statistica è quello di cercare stime puntuali e stime per intervallo dei parametri stime per intervallo identificare una regione di valori che contenga con una certa “confidenza” (fiducia) il vero valore del parametro (che non può essere con certezza quello stimato) proprietà incognita: stima puntuale (ad esempio uno dei valori osservati per la media campionaria una stima puntuale della media incognita) con una certa probabilità intervalli fiduciari (confidence interval)

Come stabilire gli estremi dell’intervallo di confidenza? Si usano conoscenze ci calcolo delle probabilità: Sotto opportune ipotesi è nota la distribuzione di probabilità dello stimatore Ovvero sono noti i valori che lo stimatore può assumere e le relative probabilità Teorema 1 ( correttezza e coerenza della media campionaria ) Se si estraggono n campioni da una popolazione avente media μ e varianza σ 2 La media campionaria M n ha valore atteso E[M n ]=μ e varianza Var[M n ]= σ 2 /n Standardizziamo la media campionaria e otteniamo una nuova variabile Il Teorema del limite centrale e stime per intervalli

Si dimostra un teorema fondamentale in statistica Osservazione 1 Empiricamente si verifica che un campione con n >29 unità è sufficiente per usare l’approssimazione Teorema del limite centrale Se si estraggono n campioni da una popolazione X avente media E[X] e varianza σ 2 La v.a. ottenuta standardizzando la media campionaria M n è una v.a. La cui distribuzione di probabilità tende alla distribuzione normale standard, ovvero Se i campioni provengono da una popolazione normale X allora Z n è normale anche per ogni valore di n (anche minore di 30) Il Teorema del limite centrale e stime per intervalli Osservazione 2

Il Teorema del limite centrale e stime per intervalli Il TCL risultato precedente può essere usato così - Fissiamo a=0.01 valore che riteniamo improbabile, ovvero il nostro procedimento ci porterà a conclusioni sbagliate solo nel 1% dei casi - Usando la tabella della normale standard determiniamo il quantile z = z 1-a/2 per il quale risulta z 1-a/2 = 2.57 Area z 1-a/2 = Area Dalla simmetria della normale standard N S osservando il grafico si ha

= probabilità che la media incognita vera u si trovi nell’intervallo INTERVALLO DI CONFIDENZA PER LA MEDIA AL 99% (1-a)*100 % Il Teorema del limite centrale e stime per intervalli Il TCL risultato precedente può essere usato così Il Teorema del limite centrale e stime per intervalli

INTERVALLIDI CONFIDENZA PER LA MEDIA esempio determinare un intervallo fiduciario per la media di una variabile casuale X con distribuzione normale (media incognita, deviazione standard =3) usando il seguente campione casuale Teor. centrale ha distribuzione normale, con media 0 e var 1 Il Teorema del limite centrale e stime per intervalli

non dipende dal parametro incognito E [ X ] si può calcolare la probabilità che Z assuma un valore compreso tra due numeri scelti arbitrariamente INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli

per es. INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli

per es. INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli

intervalli fiduciari del 95% INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli per es.

l’intervallo (-0.24, 5.64) è il valore dell’intervallo casuale quando M 4 =2.7 La probabilità che l’intervallo casuale contenga la media incognita E [ X ] è 0.95 Il Teorema del limite centrale e stime per intervalli