Alcuni richiami e definizioni (1)

Slides:



Advertisements
Presentazioni simili
Intervalli di confidenza
Advertisements

Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Genetica delle Popolazioni a.a prof S. Presciuttini DIMENSIONE EFFETTIVA DELLA POPOLAZIONE Questo documento è pubblicato sotto licenza Creative.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
Effetto scuola o Valore aggiunto
ING. MAURIZIO TORRES MERCOLEDI’ 14 SETTEMBRE 2016
Distribuzioni limite La distribuzione normale
Introduzione a Statistica e Probabilità
Precorso di Statistica per le Lauree Magistrali
Valutazione dell’incertezza associata alla mappa acustica dinamica di Milano Giovanni Zambon; Roberto Benocci; Maura Smiraglia; H. Eduardo Roman.
Qualità dei dati Fabio Murena.
RICHIAMI DI INFERENZA:
GLI STRUMENTI AUSILIARI
Corso di Laurea Magistrale in Economia e Professione
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Algoritmi di stima con perdita di pacchetti in reti di sensori wireless: modellizzazione a catene di Markov, stima e stima distribuita Chiara Brighenti,
L’analisi monovariata
L’Ispettorato Generale per i Rapporti Finanziari con l’Unione Europea
Misure Meccaniche e Termiche - Università di Cassino
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
Confronto fra 2 popolazioni
La dimensione del campione
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Algoritmi Avanzati Prof.ssa Rossella Petreschi
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Precorso di Statistica per le Lauree Magistrali
Equazioni differenziali
Obiettivi e fasi dell’indagine
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Sulla complessità Lezione n°2
Introduzione a Statistica e Probabilità
Precorso di Statistica per le Lauree Magistrali
Corso di Finanza Aziendale
Relazione sulla statistica
IL CAMPIONAMENTO NELLA
misure di eterogeneità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
La dimensione del campione
L’analisi monovariata
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Un esempio Una casa farmaceutica dichiara che un nuovo antidolorifico che sta per immettere sul mercato fa effetto mediamente in un tempo pari a 12,75.
L’indagine statistica
La distribuzione campionaria: principi generali
Intervalli di confidenza
PROCEDURA per la misura e la relativa stima
Corso di Laurea Magistrale in Economia e Professioni
Interpretare la grandezza di σ
ANALISI DI REGRESSIONE
Test per campioni appaiati
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
Esercizio 2 Un gruppo di persone con DCA ha partecipato per tre mesi ad una psicoterapia di gruppo per aumentare la propria autostima. Verificare che la.
Precorso di Statistica per le Lauree Magistrali
RICHIAMI DI INFERENZA:
RICHIAMI DI INFERENZA:
Corso di Analisi Statistica per le Imprese
Precorso di Statistica per le Lauree Magistrali
Test per campioni indipendenti
La dimensione del campione
Corso di Analisi Statistica per le Imprese
Interazioni tra v.i.: analisi di moderazione
Corso di programmazione, Simulazione, ROOT, code, ecc. ecc.
Transcript della presentazione:

Alcuni richiami e definizioni (1) Popolazione: è l’insieme finito o infinito di unità, definito nei contenuti, nello spazio e nel tempo, oggetto dell’indagine Campione: data una popolazione, è l’insieme delle n unità, selezionate tra le N che compongono la popolazione, al fine di rappresentarla, quanto a caratteri oggetto di studio Campione statistico è detto casuale (o probabilistico) La casualità si ottiene: attribuendo ad ogni unità una probabilità positiva di essere selezionata utilizzando in modo appropriato le tecniche per la selezione casuale del campione

Alcuni richiami e definizioni (2) Popolazione N unità Campione n unità Probabilità di estrazione pi Probabilità di inclusione nel campione pi =n pi Frazione di campionamento f = n/N Fattore di correzione per popolazioni finite (1-f) Fattore di riporto all’universo 1/f

Schema di campionamento: << probabilità di selezione >> In un campionamento casuale le probabilità di selezione delle unità possono essere : costanti variabili La probabilità di selezione pi varia tra 0 e 1:

Schema di campionamento: << regole per la selezione >> TECNICHE PER LA SELEZIONE CASUALE: Tavole dei numeri casuali Algoritmi di generazione di numeri pseudo-casuali TIPI DI SELEZIONE CASUALE: Bernoulliana, o con reinserimento o con ripetizione N.B. f = 0 In blocco, o senza reinserimento o ripetizione N.B. f = 0

Schema di campionamento: << probabilità di inclusione >> La probabilità di inclusione pi è la probabilità di includere nel campione l’i-esima unità: pi =npi Se la probabilità iniziale è costante (pi=1/N), la probabilità totale è Si dimostra che, se la probabilità di selezione è costante, sia nel campionamento bernoulliano, sia nel campionamento in blocco pi =n/N Infatti: I estrazione p=1/N II estrazione = … n-esima estrazione

Schema di campionamento: << selezione sistematica >> Si mettono in sequenza le unità e se ne seleziona una ogni tante, a partire da una, scelta casualmente Il passo di campionamento si determina sulla base del rapporto k=N/n La posizione dell’unità da cui partire r è: 1  r  k Si includono nel campione le n unità nelle posizioni: r; r + k; r + 2k; … ; r + (n-1)k

Schema di campionamento: << la numerosità campionaria >> La numerosità ottima di un campione è quella che permette di ottenere gli obiettivi dell’indagine al minimo costo (e nel minor tempo) Sarà data, quindi, dal più piccolo numero in base al quale le stime raggiungono il livello di attendibilità desiderato dal ricercatore Nel seguito vedremo come determinare la numerosità campionaria all’interno dei diversi tipi di campionamento probabilistico

Schema di campionamento: << struttura del campione >> campionamento casuale semplice campionamento stratificato campionamento su più stadi campionamento per aree campionamento ruotato … La STRUTTURA del campione è data dall’insieme delle LISTE che si adoperano per formarlo Se la lista della popolazione è unica, il campione ha una struttura semplice, se sono necessarie più liste ha una struttura complessa

Campionamento casuale << SEMPLICE >> (1) Probabilità di estrazione pi =1/N i{1, …, N} Probabilità di inclusione nel campione pi =n/N Fattore di espansione all’universo: N/n Frazione di campionamento f=n/N Fattore di correzione per popolazioni finite (1-f)=(N-n)/N La precisione delle stime dipende da n quando N è molto grande, mentre f è determinante quando N è piccolo E’ il campione della teoria statistica Nella pratica è spesso troppo dispendioso

Ricordando che la varianza dello stimatore media campionaria è pari a: Campionamento casuale << SEMPLICE>> (2) Determinazione della numerosità campionaria Problema: stimare la media m di una caratteristica X della popolazione, nel caso di un campionamento casuale semplice, con reimmissione. Ricordando che la varianza dello stimatore media campionaria è pari a: si ha, quindi: Dato s2, basta quindi fissare un valore massimo accettabile per (o, in altri termini, l’ampiezza accettabile per l’intervallo di confidenza, ad un livello a fissato) per determinare n

Campionamento casuale << SEMPLICE>> (3) Determinazione della numerosità campionaria Nei casi in cui lo stimatore media campionaria si distribuisce normalmente, allora la metodologia statistica ci viene in aiuto. Infatti, si ha che: Il problema è che generalmente s2 non è noto prima della rilevazione e occorre, quindi, fare riferimento o ad indagini similari, oppure porre in essere una indagine pilota e controllare il valore nel corso dell’indagine

Campionamento casuale << SEMPLICE>> (4) Determinazione della numerosità campionaria Nelle indagini di mercato è più frequente il caso in cui si voglia stimare una proporzione di soggetti, piuttosto che una media. In questo caso la teoria statistica consente di semplificare ulteriormente la soluzione di questo problema Il problema può essere formalmente rappresentato, per ciascun soggetto, in termini di possesso, o meno dell’attributo di interesse (oppure favorevole, o contrario ad una certa affermazione, ecc.) e, quindi, attraverso una v.c. Bernoulliana Ricordando le caratteristiche di una distribuzione bernoulliana, è noto che se Y~Ber(p), allora Var(Y)=p(1-p) e poiché p è la probabilità di successo, e varia fra 0 e 1, ha come massimo 0,25, situazione di massima incertezza

Campionamento casuale << SEMPLICE>> (5) Determinazione della numerosità campionaria Questo significa che, in assenza di informazioni su s2, la numerosità campionaria può cautelativamente essere calcolata ponendo p=0,5 Considerando l’intero campione, la proporzione di interesse sarà quindi descritta da una binomiale di parametri n e p. Nei casi di applicabilità del teorema di de Moivre-Laplace e, quindi, di approssimazione alla normale, avremo, quindi (fissato un a=0,05):

Campionamento casuale << SEMPLICE>> (6) Determinazione della numerosità campionaria In genere, un’indagine si pone obiettivi di conoscenza relativi a più caratteristiche del collettivo oggetto di analisi «Come si procede quando gli obiettivi della rilevazione riguardano più variabili?» Soluzione prudenziale: si adotta la numerosità più grande Soluzione riduttiva: si riduce la precisione della stima di alcune variabili Soluzione ponderata: si assegna alla varianza di stima delle diverse variabili dei pesi che esprimono l’importanza della precisione attesa per la statistica stimata (Kish, 1976):

Per determinare la numerosità si pone: Campionamento casuale << SEMPLICE>> (7) Un esempio (Fabbris, 1989) Viene commissionata una indagine longitudinale su 2000 persone sottoposte a cobalto terapia Obiettivo: Rilevare la frazione di sopravvissuti a uno, a due, a cinque anni A distanza di un anno dalla dimissione dell’ospedale, stimare la media dei giorni di letto nel periodo Per determinare la numerosità si pone: Un errore di campionamento delle frazioni di sopravvisuti non superiore al 5% del valore della frazione Un errore di campionamento per il numero medio dei giorni di letto  0,5

Campionamento casuale << SEMPLICE>> (8) Un esempio (Fabbris, 1989) Conoscenze a priori: Si suppone che le sole informazioni in possesso provengano da uno studio straniero, da cui si ricava questa curva di sopravvivenza 1 0,8 0,6 0,4 0 1 2 3 4 5 6 7 8 9 10 Per il numero di giorni letto, l’esperienza passata dello stesso ospedale committente porta a ritenere che la varianza sia di 40 giorni2 in un anno

Campionamento casuale << STRATIFICATO>> (1) «Stratificare significa ripartire la popolazione in sottopopolazioni dette strati » PERCHE’ Stratificare ? Evidenziare insiemi di unità particolari (unità rare, gruppi estremali o devianti, come le grandi imprese) Separare dagli altri, strati fisicamente isolati o con caratteristiche speciali Individuare unità da osservare con tecniche particolari Introdurre sulla selezione il massimo controllo, pur mantenendo la casualità

Campionamento casuale << STRATIFICATO>> (2) INDIVIDUARE SOTTOPOPOLAZIONI AL MASSIMO OMOGENEE RISPETTO ALLA VARIABILE (o alle variabili) DA RILEVARE STIME PIU’ EFFICIENTI di quelle ottenibili con un campionamento casuale semplice (di pari numerosità)

Campionamento casuale << STRATIFICATO>> (3) Ogni strato Ph è una popolazione Se la popolazione P è suddivisa in H strati allora Il campione Ch estratto dallo strato h è idoneo a rappresentarlo Rappresenta l’intera popolazione P

Ogni unità statistica deve appartenere ad uno e ad un solo strato Campionamento casuale << STRATIFICATO>> (4) REGOLE per la stratificazione Le CARATTERISTICHE per la stratificazione devono essere note prima della selezione Ogni unità statistica deve appartenere ad uno e ad un solo strato STRATIFICATO è un campione estratto da una popolazione STRATIFICATO

Campionamento casuale << STRATIFICATO>> (5) Selezione di un campione stratificato OTTIMALE La frazione di campionamento che permette di raggiungere l’obiettivo è più elevata negli strati in cui la variabilità è maggiore, rispetto a quelli in cui i valori si addensano attorno ai valori medi A parità di varianza, si campionerà negli strati in cui il costo unitario di rilevazione è più basso: dove sh è lo scarto quadratico medio della variabile scelta come fattore di stratificazione all’interno dell’h-esimo strato

Campionamento casuale << STRATIFICATO>> (6) Selezione con ALLOCAZIONE OTTIMA secondo Neyman (1934) e Chuprov (1923) Quando non si hanno vincoli di costo, o quando il costo è uguale in tutti gli strati, la numerosità ottima per l’h-esimo strato è data da: N.B. può accadere che nh > Nh. Si campioneranno, allora le Nh unità e si aumenterà la numerosità da attribuire agli altri (H-1) strati, ignorando l’h-esimo

Campionamento casuale << STRATIFICATO>> (7) STIMA con ALLOCAZIONE OTTIMA Il campione stratificato con allocazione ottima delle unità non è autoponderante Occorre, quindi, introdurre un sistema di pesi wi nel calcolo delle stime per tener conto delle differenti probabilità di inclusione pi delle singole unità (schema di campionamento con probabilità variabili)

Campionamento casuale << STRATIFICATO>> (8) STIMA con ALLOCAZIONE OTTIMA della MEDIA m della variabile X Chiamiamo: mh la media della variabile X, all’interno dell’h-esimo strato della popolazione la media della variabile X, all’interno dell’h-esimo strato del campione s2h la varianza della variabile X, all’interno dell’h-esimo strato della popolazione s2h la varianza della variabile X, all’interno dell’h-esimo strato del campioni

Campionamento casuale << STRATIFICATO>> (9) STIMA con ALLOCAZIONE OTTIMA della MEDIA m della variabile X La MEDIA m della variabile X è corretta stimata dalla media aritmetica ponderata delle medie stimate nei singoli strati:

Campionamento casuale << STRATIFICATO>> (5) Selezione di un campione stratificato OTTIMALE La frazione di campionamento che permette di raggiungere l’obiettivo è più elevata negli strati in cui la variabilità è maggiore, rispetto a quelli in cui i valori si addensano attorno ai valori medi A parità di varianza, si campionerà negli strati in cui il costo unitario di rilevazione è più basso: dove sh è lo scarto quadratico medio della variabile scelta come fattore di stratificazione all’interno dell’h-esimo strato