Calcolo della Numerosità

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Corso di esperimentazione di fisica 1 Il metodo dei minimi quadrati
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Come organizzare i dati per un'analisi statistica al computer?
Intervalli di confidenza
Proprietà degli stimatori
Lanalisi della varianza Obiettivo: studiare le relazioni tra variabili discrete, che definiscono delle categorie e variabili continue. Esempi: Confronti.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
COORDINATE POLARI Sia P ha coordinate cartesiane
“Teoria e metodi della ricerca sociale e organizzativa”
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Analisi dei dati per i disegni ad un fattore
Residuo = yi – (bxi + a) La linea costruita con il metodo dei minimi quadrati è tale da minimizzare la somma dei quadrati dei residui corrispondenti a.
Sesso = fattore between (indicato dal fattore A)
ANALISI DELLA COVARIANZA
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.
Corso di biomatematica lezione 6: la funzione c2
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a LA STATISTICA INFERENZIALE
Modello di regressione lineare semplice
Lezione 4 Probabilità.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Linee guida per la Chimica Analitica Statistica chemiometrica
Analisi della varianza
Verifica delle ipotesi su due campioni di osservazioni
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Le distribuzioni campionarie
Uso dei Modelli in Statistica
Teorie e Tecniche di Psicometria
MODELLI NON PARAMETRICI
Regressione e correlazione
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
Analisi Bivariata: Test Statistici
Regressione Lineare parte 2 Corso di Misure Meccaniche e Termiche David Vetturi.
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Test basati su due campioni Test Chi - quadro
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Transcript della presentazione:

Calcolo della Numerosità

Calcolo della Numerosità

Calcolo della Numerosità

T-Test test sulla media di un gruppo 1. H0:  = o ² nota viene utilizzata la distribuzione normale N(o,²/n) ² ignota si utilizza

T-Test

T-Test confronto fra le medie di due gruppi 2. H0: 1 = 2 1² = 2² ignote si utilizza

T-Test osservazioni correlate 3. H0: d = 0 Si calcolano per ogni soggetto le differenze d

Analisi della Varianza Quando i gruppi sono più di due non è più possibile applicare il t‑test per il confronto fra due medie Bisogna allora ricorrere all'analisi della varianza. Il suo presupposto fondamentale è che, se è vera l'ipotesi nulla che non vi sia differenza fra i gruppi, la variabilità all'interno dei gruppi è uguale alla variabilità fra i gruppi

Analisi della Varianza Si tratta quindi di un confronto di varianze che può essere saggiato con la distribuzione F Per ciascun soggetto i del gruppo j lo scarto dalla media generale può essere scomposto in uno scarto dalla media di gruppo più uno scarto della media di gruppo dalla media generale

Analisi della Varianza Vale cioè la relazione: xij - x.. = (xij - x.j) + (x.j - x..) La stessa scomposizione può essere fatta anche sulle somme degli scarti al quadrato (SSQ) SSQtot = SSQintgr + SSQtragr

Analisi della Varianza La somma dei quadrati degli scarti totali è calcolata sui valori di tutti i soggetti del campione rispetto la media generale La somma dei quadrati degli scarti tra i gruppi si ottiene attribuendo a ciascun soggetto il valore medio del suo gruppo e calcolando gli scarti dei valori così modificati dalla media generale La somma dei quadrati degli scarti all'interno dei gruppi si ottiene per differenza

Analisi della Varianza Le relative varianze si ottengono dividendo le somme dei quadrati degli scarti per i rispettivi gradi di libertà. La varianza all'interno dei gruppi è nota anche come varianza residua La variabile statistica su cui viene effettuato il test è data dal rapporto:

Analisi della Varianza Gruppo 1 Gruppo 2 16 12 14 14 17 11 13 13 15 15 17 12 14 11 15 13 N Mean Std. Deviation Std. Error Mean Gruppo 1 10 15.1 1.370 .433 Gruppo 2 12.7 1.337 .423

Analisi della Varianza t-test Punteggi t df Sig (2-tailed) Mean Difference 95% Confidence Interval of the Difference Equal variances assumed 3.963 18 .001 2.4 1.28 3.672 Equal variances not assumed 17.989 ANOVA Sum of Squares df Mean Square F Sig Beteewn Groups 28.8 1 28.800 15.709 .001 Within Groups 33.0 18 1.833

Analisi della Varianza L'interazione rappresenta l'effetto di particolari combinazioni degli effetti principali non imputabili semplicemente alla somma degli effetti componenti. Essa può anche essere vista come una mancanza di parallelismo tra un fattore e l 'altro.

EFFETTI PRINCIPALI E INTERAZIONE DISEGNO SPERIMENTALE Definisce il modo di dividere in gruppi il campione sperimentale Trattati Controlli Trattati M Controlli M Trattati F Controlli F

EFFETTI PRINCIPALI E INTERAZIONE CRITERI DI CLASSIFICAZIONE Definiscono i modi di raggruppamento e quindi gli effetti studiati Trattati Controlli M 31 39 35 41 34 43 32 38 36 40 F 37 33

Parametri descrittivi EFFETTI PRINCIPALI E INTERAZIONE Parametri descrittivi Mean Std. deviation n Trattati M 33.6 2.074 5 F 36.4 Controlli 40.2 1.924 38.2 2.775 Totale 37.1 3.227 20

EFFETTI PRINCIPALI E INTERAZIONE Analisi della Varianza Source SS df MS F Sig constant 27528.2 1 5505.64 .000 trattamento 88.2 17.64 .001 sesso .8 .16 .694 Tratt x Sesso 28.8 5.76 .029 Within factor 80.0 16 5.0

Analisi della Varianza Calcolo dell’interazione Valori Sperimentali trattati controlli media Maschi 33.6 40.2 36.9 Femmine 36.4 38.2 37.3 35.0 39.2 37.1

EFFETTI PRINCIPALI E INTERAZIONE

Analisi della Regressione Lineare Permette di analizzare la relazione fra due o più variabili quantitative gaussiane utilizzando un modello di riferimento costruito a partire dai dati sperimentali. Può essere Lineare semplice o Lineare Multipla

Analisi della Regressione Lineare Nel caso in cui la variabile indipendente sia una sola il modello utilizzato è di tipo lineare semplice e l’equazione che lo determina e l’equazione della retta: y=a+bx La determinazione dei parametri a e b è fatta con il metodo dei minimi quadrati

Analisi della Regressione Lineare Dove:

Analisi della Regressione Lineare

Analisi della Regressione Lineare Coefficiente di Determinazione R2 SSQ modello R2 = SSQ totale Coefficiente di Correlazione Parametro F varianza modello F = varianza residua

Analisi della Regressione Lineare SH DE SV

Modello Lineare Generale (GLM) yijk =  + i + j + ij + b·x + eijk dove yijk rappresenta la variabile dipendente misurata e  e  e  rappresentano i parametri relativi agli effetti e all’interazione che influenzano la variabile dipendente. Il coefficiente b rappresenta la relazione fra x e y. Il parametro e rappresenta il termine errore dovuto alla variazione casuale dei dati.

Modello Lineare Generale (GLM) Di ogni parametro viene data la significatività I parametri vengono calcolati eliminando gli effetti di tutti gli altri parametri Si possono calcolare contrasti multipli ortogonali

Modello Lineare Generale (GLM) Permette: l’uso di fattori qualitativi e quantitativi il confronto fra prove ripetute, di dati correlati l’uso di più variabili dipendenti (analisi multivariata)

Modelli Non Parametrici Accuracy and certainty are competitors: The surer we want to be, the less we must demand. Basic Ideas of Scientific Sampling di Alan Stuart, Griffin, London, 1968

Modelli Non Parametrici Una serie di dati binomiale chi quadrato runs (numero di valori consecutivi superiori o inferiori a un valore soglia) Due serie di dati correlati McNemar (proporzioni) Sign (distribuzione dei valori) Wilcoxon Più serie di dati correlati Friedman Due serie di dati indipendenti Mann-Whitney Kolmogorov-Smirnov Più serie di dati indipendenti Kruskall-Wallis

Modelli Non Parametrici Misure di associazione Tavole di contingenza: associazione fra due variabili qualitative Modelli Log-Lineari: associazione fra più variabili qualitative Modelli Log-Lineari Gerarchici: associazione fra più variabili qualitative Modelli Regressivi Regressione Logistica: modello generale in cui è possibile esprimere una variabile qualitativa (dicotomica) come funzione di una o più variabili sia qualitative che quantitative.

Tavole di Contingenza Permettono di analizzare la relazione fra due variabili di tipo qualitativo. L’ipotesi nulla (assenza di relazioni) corrisponderà alla proporzionalità fra le diverse condizioni delle variabili.

Tavole di Contingenza Un esempio…

Tavole di Contingenza Per confrontare le frequenze sperimentali con l’ipotesi nulla si crea una corrispondente tabella per l’H0 costituita dalle frequenze teoriche che rappresentano la condizione di proporzionalità. In formule…

Tavole di Contingenza Calcolo dei valori teorici Ti nell’ipotesi di proporzionalità (Ho) Valutazione della differenza fra i valori teorici e i valori sperimentali applicando la formula del 2

Tavole di Contingenza Calcolo i valori teorici T nell’ipotesi di proporzionalità (Ho vera)

Tavole di Contingenza Valuto l’entità della differenza fra i valori teorici e i valori sperimentali applicando la formula del 2 . 2= (41-53.9)2 /53.9 + (64-51.1)2 /51.1 + (216-203.1)2 /203.1+ + (180-192.9)2 /192.9 = 7.978

Tavole di Contingenza Valuto la significatività: se p<0.05 posso concludere che c’è differenza nei due gruppi rispetto ai risultati positivi/negativi. Confronto il valore di 2 ottenuto con il limite di falsificazione per (r‑1)(c‑1) gradi di libertà che in questo caso corrisponde a 2.05,1=3.84 < 7.978 Posso Respingere H0

Test del Segno Utilizzato per confrontare due serie di dati correlati, ad esempio fra due prove misurate con punteggi che vanno da 1 a 10. Il confronto si effettua sulle differenze fra seconda e prima prova, applicando la Distribuzione Binomiale per valutare la diversità fra miglioramenti e peggioramenti.

Un esempio... Escludendo le situazioni di assenza di differenze, confronto i 7 miglioramenti sui 12 casi. Attraverso il Test del Segno la differenza non è significativa in quanto p=0.344.

Se avessimo applicato il t-test per prove ripetute... t= 2.382 che, con 11 gradi di libertà, fornisce una significatività di 0.036. Il valore del parametro t viene calcolato dalla media delle differenze e dalla loro deviazione standard.

Una soluzione alternativa: il Test dei Ranghi di Wilcoxon Si basa sulla classificazione dei soggetti in base alla differenza ottenuta nelle due prove e utilizza il numero d’ordine (rango) dei soggetti come nuova variabile da sottoporre a verifica statistica. Attraverso un’opportuna elaborazione di tale variabile si ottiene un parametro con una distribuzione prossima ad una distribuzione normale standard che viene utilizzata per eseguire il test.

Test dei Ranghi di Wilcoxon Per effettuare il test si parte mettendo i dati sia del primo che del secondo gruppo in ordine crescente in un unico elenco. Si associa a ogni dato il suo numero d'ordine nella scala così ottenuta. L'ipotesi nulla, come al solito, è che non vi sia differenza fra i due gruppi. Se questo è verificato i dati del primo gruppo saranno dispersi in modo uniforme nella scala costruita. Se l'ipotesi nulla è falsa essi saranno concentrati nella parte alta o bassa della scala. Nel caso precedente p=0.039.

Test di McNemar Misura la concordanza fra due variabili.

Test di McNemar Questo test considera solo le risposte discordanti dei due metodi e formula l’ipotesi nulla che non vi sia differenza fra i due metodi, nel senso che si possono avere indifferentemente soggetti classificati ottimisti dal primo metodo ma non dal secondo o l’opposto di questo. Il test non considera cioè quanto i due metodi sono concordi ma solo se le discordanze hanno una direzione preferenziale.

Test di McNemar Nell’esempio in corso abbiamo 10 soggetti con risposta discorde. L’ipotesi nulla è che di questi 5 siano ottimisti col primo metodo ma non con il secondo e che 5 siano nella situazione opposta. In realtà per questi due gruppi abbiamo ottenuto 8 e 2.

Test di McNemar Utilizzando la distribuzione binomiale, valutiamo se i valori ottenuti sono significativamente diversi dai valori attesi. La distribuzione binomiale ci permette di ottenere un test esatto e, data la bassa numerosità del campione, rappresenta il metodo idoneo. Per numerosità maggiori viene spesso utilizzata la distribuzione 2 che, pur essendo un test approssimato, necessita di calcoli più semplici. La significatività che si ottiene da questi dati è di 0.109 che non ci permette di falsificare l’ipotesi nulla e di sostenere una reale differenza fra i due metodi.

Regressione Logistica Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il parametro odds 1.Variabile 0,1 2.Probabilità 0 1 3.Odds 0 

Regressione Logistica ODDS

Regressione Logistica Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione logarimica che prende il nome di logit Odds logit (valore - --- 0 --- +)

Regressione Logistica La variabile può essere vista come funzione dei fattori in un modello regressivo: logit (variabile)= b0 + b1  x1 + b2  x2 + b3  x3 ….

Regressione Logistica Stima dei Parametri (b) viene fatta con metodo a successive approssimazioni. Il loro significato si può dedurre dall’odds ratio:

Odds Ratio e Rischio relativo Disease Non Disease Exposed Non Exposed RR= a/(a+b) c/(c+d) OR= a/b c/d

Regressione Logistica La regressione logistica fornisce le significatività per: il modello globale i singoli parametri, togliendo gli effetti dei parametri già considerati

Analisi fattoriale ridurre il numero delle variabili in esame; trasformare le variabili in studio in variabili mutuamente indipendenti; individuare le fonti delle variabili sperimentali; assegnare ad esse un significato reale.

Analisi fattoriale Il punto di partenza dell’analisi fattoriale è la matrice di correlazione delle variabili esaminate, attraverso la quale vengono calcolate nuove variabili, dette fattori, fra loro indipendenti. Vi sono diversi metodi matematici per ottenere queste nuove variabili. Un metodo, noto come metodo delle componenti principali, si avvale del calcolo degli autovalori e autovettori della matrice di correlazione.

Analisi fattoriale capacità argomentativa desiderabilità sociale coinvolgimento emotivo ricerca della certezza atteggiamento di intransigenza

Analisi fattoriale

ND D TP/(TP+FN) ‘ND’ TN/(TN+FP) ‘D’ TP/(TP+FP) TN/(TN+FN) (TN+TP)/ALL ‘D’ ‘ND’