La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Recap on Measure Theory and Statistical Inference Carola Aiello

Presentazioni simili


Presentazione sul tema: "Recap on Measure Theory and Statistical Inference Carola Aiello"— Transcript della presentazione:

1 Recap on Measure Theory and Statistical Inference Carola Aiello

2 Strumenti di statistica inferenziale Richiami di teoria della misura Strumenti di Statistica Inferenziale INDICE

3 Strumenti di statistica inferenziale Non puoi controllare ciò che non puoi misurare [T. De Marco, 1982] Le misure si effettuano ad esempio per: verificare l'aderenza di alcuni parametri di qualità a dei valori di riferimento (esterni/interni) rilevare delle deviazioni relative alla pianificazione temporale/ allocazione di risorse raccogliere vari indici di produttività validare l'effetto di strategie tese a migliorare un processo produttivo (qualità/ produttività / aderenza alla pianificazione / controllo dei costi) Nel processo di misura la fase progettuale assume la stessa importanza della fase di raccolta e di analisi dei dati vera e propria Durante la fase progettuale devono essere chiariti i seguenti aspetti Definizione requisiti Selezione della metrica Definizione dei criteri di valutazione...e solo in seguito MISURA Richiami di teoria della misura

4 Processo di misura ISO/IEC 9126 Qualità del SW Misura e analisi dei dati

5 Strumenti di statistica inferenziale Definizione dei criteri di valutazione Rating (definizione dei livelli di riferimento) A carico dell organizzazione Le metriche forniscono valori quantitativi che non sono di per sé una valutazione della qualità, dobbiamo mappare i dati quantitativi su una scala qualitativa

6 Strumenti di statistica inferenziale Le misure, a loro volta, posseggono delle qualità che, in alcuni casi, è possibile quantificare in modo formale. Affidabilità (reliability). L'affidabilità è relativa ai valori che si ottengono effettuando più volte la stessa misura. Se i valori ottenuti sono vicini tra loro la metrica è affidabile. Tipicamente si caratterizza questa qualità analizzando la varianza s 2 di misure ripetute. Più piccolo è questo valore più la metrica è affidabile. Validità (validity). La validità indica se la metrica misura effettivamente cosa vogliamo misurare. Per misure poco astratte (peso, volume) la validità coincide con l'accuratezza. Si noti che anche per misure poco astratte i concetti di affidabilità e validità sono differenti: un orologio fermo è perfettamente affidabile ma ha una validità molto ridotta... Qualità di una misura Affidabile ma non valida Valida ma non affidabile Affidabile e Valida

7 Strumenti di statistica inferenziale Errori di misura (1) Il risultato di unoperazione di misura è un numero reale x che esprime il valore vero (incognito) del fenomeno in esame ed è detto misura analitica La successione delle operazioni effettuate per ottenere la misura, secondo un complesso di istruzioni che costituiscono il metodo analitico, è detta procedimento analitico. Lesperienza indica che, se si eseguono più misurazioni di una stessa quantità, raramente le misure coincidono I valori misurati (x) sono in genere diversi dal vero valore () La differenza tra il valore misurato e quello vero è detta errore totale (E T ) X = + E T misura valore vero errore totale Θ X procedimento analitico valore vero misura

8 Strumenti di statistica inferenziale La Variabile Casuale Normale E la distribuzione statistica più famosa ed utilizzata: si adatta bene alla rappresentazione grafica di moltissimi fenomeni reali; è fondamentale in inferenza statistica perché approssima molte altre distribuzioni di probabilità; Anche detta: variabile casuale Gaussiana, curva di Gauss, Campana di Gauss, curva degli errori, curva a campana, ogiva. curva degli errori perché che questa curva serve a rappresentare la legge con cui si distribuiscono gli errori di natura accidentale. La formula matematica che descrive la funzione della densità di probabilità normale è la seguente: dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard). L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1.

9 Distribuzione normale

10

11 Strumenti di statistica inferenziale Errori di misura (2) La misurazione non consente di determinare con certezza il vero valore della quantità misurata, ma produce stime la cui capacità di approssimare il vero valore ( attendibilità ) dipende dal metodo analitico e da come è stato eseguito il procedimento analitico. È necessario considerare la natura degli errori di misura E T = E grossolani + E sistematici + E casuali Si prevengono con unaccorta organizzazione dellanalisi Costituiscono oggetto tipico della metodologia statistica E sistematici E casuali Influenzano la validità Influenzano laffidabilità

12 Strumenti di statistica inferenziale Ma qual è il legame tra statistica e misura?

13 Strumenti di statistica inferenziale Per validare le ipotesi è necessario introdurre l'unità di analisi (componente o progetto), effettuare analisi statistiche (e.g., analisi della varianza), validare gli indicatori scelti, ovvero effettuare ed interpretare delle misure ESEMPIO: Se presso una software house ottenessimo i seguenti dati tramite 9 esperimenti (3 al 50%, 3 al 70%, 3 al 90%) : Copertura linee di codice Media errori trovati durante il test di sistema 50%20/KLOC 70%15/KLOC 90%12/KLOC Senza una corretta analisi dei dati quale l'analisi della varianza (ANOVA) non potremmo essere sicuri della significatività statistica di quanto ottenuto Ad esempio se 20 è la media di {19, 20, 21}, 15 di {15, 15, 15}, e 12 di {11, 12, 13} ci sentiremmo abbastanza sicuri Se invece 20 è la media di {10, 10, 40}, 15 di {1, 4, 40} e 12 di {3, 3, 30}... Esempio

14 Strumenti di statistica inferenziale Fornisce informazioni sintetiche sulla popolazione osservata nellipotesi di disporre di misurazioni che ne riguardano la totalità Data una popolazione di N elementi (noti) su cui si effettua una misura (e.g., il peso delle persone in italia) {x 1,...,x N }, si definiscono i seguenti parametri: media m= (x 1 + x x N )/N varianza var=[(x 1 -m) 2 + (x 2 -m) (x N -m) 2 ]/N spesso la varianza si indica con s 2 deviazione standard s=var 1/2 tipicamente gli N elementi si distribuiscono secondo una distribuzione normale (o gaussiana) Richiami di statistica descrittiva

15 Strumenti di statistica inferenziale Costi (economici e di tempo) Popolazione non nota Limiti della statistica descrittiva

16 Strumenti di statistica inferenziale Si analizza una popolazione di M elementi ( M non è noto ) tramite un campione di N elementi {x 1,...,x N } e si definiscono i seguenti parametri: media m= (x 1 + x x N )/N varianza var=[(x 1 -m) 2 + (x 2 -m) (x N -m) 2 ]/(N-1) deviazione standard σ=var 1/2 spesso la varianza si indica con σ 2 tipicamente gli elementi del campione si distribuiscono secondo una distribuzione normale (o gaussiana) o, se così non è, si assume che lo sia… L'inferenza statistica è il procedimento per cui si deducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione Richiami di statistica inferenziale

17 Strumenti di statistica inferenziale Esempio (1) Assumiamo, per semplicità espositiva, che in una software house si conducano attività di test per tre differenti percentuali prefissate: 50 %, 70%, 90% e che, per ciascuna di esse, siano stati osservati per un anno 5 pacchetti software. Calcoliamo la media di DR ed otteniamo la seguente tabella Codice ispezionato Difetti Riscontrati (KT) (e/KLOC) 50%20 70%15 90%12 Il problema è: le medie sono differenti, ma questo accade perchè effettivamente esiste una relazione tra KT e DR, oppure i dati vengono così, "per caso"?

18 Strumenti di statistica inferenziale Esempio (2) KT DR 50%20 70%15 90%12 Losservazione acritica di questi dati porterebbe a concludere che laumento del KT implichi la diminuzione del DR Daltra parte è possibile che le medie della popolazione complessiva (tutti i programmi sw del mondo) siano uguali, ossia che calcolando l'andamento di DR su un numero molto più alto di casi si scopra che KT non abbia nessuna influenza su DR

19 Strumenti di statistica inferenziale Test statistici Molto spesso nellambito della ricerca sperimentale è necessario confrontare tra loro serie di misure ripetute (es. confronto di risultati di due o più metodi) Il confronto può essere condotto mediante appropriati test statistici (F di Fisher, t-Student, etc.) I test statistici consistono nel mettere alla prova lipotesi formulata su certi parametri delle popolazioni (es. medie o varianze) e nel verificare se con i dati a disposizione è possibile rifiutarla o no: se il campione fornisce risultati fortemente in contrasto con lipotesi formulata, questa viene rifiutata in favore dellipotesi alternativa Il test viene condotto fissando a priori la probabilità di errore che può essere commesso ( α )

20 Strumenti di statistica inferenziale Ipotesi statistica Unipotesi statistica è una asserzione o supposizione sulla distribuzione di una o più variabili casuali e si indica con la lettera H Generalmente si mettono a confronto due ipotesi, contrarie tra loro : Ipotesi H 0 (IPOTESI NULLA). Costituisce loggetto della verifica: specifica i valori dei parametri della popolazione da cui si suppone provenga il campione in esame H 0 : = 0 Dove indica il parametro della popolazione e 0 il parametro che ci si attende. Ipotesi H 1 (IPOTESI ALTERNATIVA). È lipotesi contraria alla precedente H 1 : 0

21 Strumenti di statistica inferenziale Test di verifica delle ipotesi Definizione: Un test di ipotesi è una regola attraverso la quale si decide se accettare o meno l'ipotesi formulata sulla base delle risultanze campionarie. Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme C in due sottoinsiemi disgiunti C 0 e C 1 = C – C 0 in modo tale che si decida di rifiutare l'ipotesi H 0 se il punto campionario cade in C 1, di accettare l'ipotesi se il punto campionario cade in C 0. Lo spazio C 1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si dice regione di accettazione lo spazio C 0.

22 Il test migliore minimizza la probabilità di commettere un errore di seconda specie β. Strumenti di statistica inferenziale Test di ipotesi REALTA H o VERAH o FALSA DECISIONE Accetto H o Decisione giusta (1-α, Protezione) Errore di Tipo II (β) Rifiuto H o Errore di Tipo I (α, significatività) Decisione giusta (1-β, Potenza)

23 Strumenti di statistica inferenziale Scelta dellipotesi nulla La progettazione delle ipotesi è fondamentale nel processo di test Per come è costruito il test, lerrore di I tipo è quello considerato più grave

24 Strumenti di statistica inferenziale Significatività e potenza del test La probabilità di commettere un errore di I tipo, e cioè la probabilità di rifiutare una ipotesi quando essa è vera, è indicata usualmente con α. dove α viene detto livello di significatività del test e X rappresenta il punto campionario. La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare un'ipotesi quando essa è falsa, è indicata con β ( Η1 ) Lunico aspetto su cui possiamo intervenire è sul confine fra regione di accettazione e regione di Rifiuto CoCo

25 Strumenti di statistica inferenziale Costruzione del test Errore di Tipo I ( α ) rappresenta la probabilità di fare un errore decidendo di rifiutare H o cioè di affermare che vi è una differenza quando in realtà non esiste tale differenza. Viene generalmente posta ad un valore basso ( α ). Errore di Tipo II (Errore β) Rappresenta la probabilità di commettere un errore assumendo Ho vera anche quando in realtà è falsa. E la capacità del test di individuare lipotesi alternativa quando è vera. Dipende da α ( α = 1- β). Così posto il problema la migliore soluzione è rappresentata da un test che minimizzi simultaneamente le probabilità di commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire un tale obbiettivo. La procedura che si segue generalmente è quella di fissare la misura della probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di significatività α ) e nell'individuare poi il test che minimizza la probabilità di commettere un errore di II tipo. In sintesi: fissato il livello di significatività α (arbitrariamente), si cerca il test più potente (test MP dallinglese Most Powerful), cioè, quello che minimizza β Se il test statistico dimostra che la probabilità α favore di H o è inferiore ad α, si può affermare che fra le due misure esiste una differenza statisticamente significativa.

26 Strumenti di statistica inferenziale ) la potenza di un test è influenzata: dal livello di significatività α prescelto (generalmente α = 0,05(5%), o α = 0,01(1%); dalla specificazione dell'ipotesi alternativa; dalla numerosità del campione. Relazione tra la forza di un test e livello di significatività : un test è tanto più potente quanto più è elevata la probabilità dell'errore di I tipo. REALTA H o VERAH o FALSA DECISIONE Accetto H o Decisione giusta (1-α, Protezione) Errore di Tipo II (β) Rifiuto H o Errore di Tipo I (α, significatività) Decisione giusta (1-β, Potenza) lincremento di α (probabilità dell'errore di I tipo), comportando un allargamento dell'intervallo di rifiuto (regione critica), determina una riduzione della probabilità dell'errore di II tipo e di conseguenza un aumento della potenza del test

27 Strumenti di statistica inferenziale AN alysis O f VA riance Lanalisi della varianza (ANOVA) è un insieme di tecniche statistiche facenti parte della statistica inferenziale utilizzato per la verifica dipotesi e nato nellambito della ricerca sperimentale per valutare leffetto di determinati fattori, variabili indipendenti - di tipo continuo o categoriale, sulla variabile dipendente - di tipo continuo. assume nomi diversi a seconda di quante sono le variabili dipendenti e indipendenti: anova ad una via (one-way) quando si ha una sola variabile dipendente e una sola variabile indipendente. anova fattoriale quando si ha una sola variabile dipendente, ma piu variabili indipendenti. manova (multivariate analysis of variance) quando ce + di una dipendente e + di una indipendente. Permette di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra gruppi Lipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso Il confronto si basa sullidea che se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi è soltanto il risultato della variabilità interna. Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come la variabile casuale F di Snedecor Requisiti: Osservazioni di ogni trattamento devono essere distribuite normalmente Varianza costante

28 Strumenti di statistica inferenziale AN alysis O f VA riance Il metodo utilizza il rapporto tra varianze ma lo scopo dellanalisi riguarda la verifica dellipotesi nulla tra medie. Consiste nella scomposizione della varianza totale dellesperimento in varianze parziali (corrispondenti a diverse e ben determinate fonti di variazione). La fonte delle variazioni dei dati viene chiamata fattore sperimentale (o trattamento) e può essere: a più livelli quantitativi (e.g. dosi crescenti dello stesso farmaco) a diverse modalità qualitative (e.g. somministrazione di farmaci differenti) Ogni unità od osservazione del gruppo sperimentale viene detta replicazione (o replica) NellANOVA le ipotesi sono: H 0 : μ 1 = μ 2 =…μ K H 1 : almeno 2 delle medie sono differenti

29 Strumenti di statistica inferenziale Come funziona Per confrontare i risultati dei diversi esperimenti (es. per controllare leffetto dei diversi livelli di controllo del sw, ossia per testare la differenza tra le medie dei gruppi sottoposti ai diversi livelli di controllo), separiamo la variabilità complessiva della variabile dipendente in due fonti di variabilità: Varianza Between ( Var B ): attribuibile alla varianza tra gruppi Varianza Within ( Var W ): residua allinterno dei gruppi, varianza entro i gruppi Dal confronto delle due varianze possiamo decidere se le differenze osservate nei diversi esperimenti sono significative, ossia se rappresentano effettivamente due popolazioni differenti (es. i controlli diversi hanno avuto effetto oppure no) oppure sono una manifestazione casuale NB: lavoriamo sulla scomposizione della varianza, ma stiamo facendo inferenza sulle medie

30 Strumenti di statistica inferenziale Come funziona LANOVA, si applica nel caso si vogliano confrontare gli effetti medi di una variabile su I campioni distinti: { C 1,…, C I }. Ciascun campione è assunto avere lo stesso numero J di soggetti (ma non è obbligatorio) Y ij è la j -esima osservazione sull i -esimo campione Dove: Media del campione i : media generale:

31 Strumenti di statistica inferenziale Requisiti dei dati Prima dellapplicazione di questo test parametrico, occorre verificare se ne esistono le condizioni. Le assunzioni di validità del test F dipendono dagli errori ε ij, che: devono essere tra loro indipendenti : ogni dato deve avere la stessa possibilità di essere influenzato dai fattori noti (effetto trattamento) e da quelli ignoti (effetto ambiente statistico) devono essere distribuiti normalmente intorno alla media le varianze dei vari gruppi devono essere omogenee (varianza vera σ 2 )

32 Strumenti di statistica inferenziale Come funziona IDENTITA PRINCIPALE DELLANOVA (somma dei quadrati) SS totale = SS W + SS B Ovvero: Dove:

33 Strumenti di statistica inferenziale Test di Fisher Dalla teoria dei valori attesi si ricava: ~ È stato dimostrato che questo test ha una distribuzione campionaria F di Snedecor con (I-1) e (I(J-1)) gradi di libertà ( F (I-1),(I(J-1)) ) noti tali gradi di libertà (numeratore e denominatore) è possibile valutare la probabilità associata ai valori di F per un valore prefissato, solitamente =0.05, questo test ci dice quando lipotesi nulla è accettata ( F F (I-1),(I(J-1)) ) Se il valore di F calcolato supera quello tabulato, alla probabilità prefissata, si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: almeno una media è diversa dalle altre

34 Strumenti di statistica inferenziale Test di Fisher Criterio decisionale:

35 Strumenti di statistica inferenziale Esempio Zona di Rifiuto Zona di Accettazione

36 Strumenti di statistica inferenziale Esempio Supponiamo di aver sviluppato due prototipi sw e di volerli testare su un campione di possibili utenti Intervistiamo 7 utenti che hanno utilizzato il prototipo P1 e 7 utenti che hanno usato il prototipo P2 Analizziamo in questesempio le risposte alla domanda che indaga la soddisfazione del cliente in merito alla funzione help implementata le risposte ammissibili sono valori da 1 a 6 dove 1 indica un basso grado di soddisfazione e sei un alto grado di soddisfazione Nella tabella che segue sono riportate le risposte ottenute con le due indagini

37 Strumenti di statistica inferenziale Esempio Prototipo P1P2 Questionario Q115 Q263 Q311 Q416 Q562 Q664 Q721

38 Strumenti di statistica inferenziale Esempio << Accetto H o

39 Strumenti di statistica inferenziale Esempio con excel Zona di Rifiuto Zona di Accettazione

40 Strumenti di statistica inferenziale Riferimenti Ronald Aylmer Fisher, Statistical Methods for Research Workers. 13th ed. Hafner, New York, W. G. Cochran, George W. Snedecor, Statistical Methods 7th ed. Iowa State University Press, Ames, Iowa Metrics and Models In Software Quality Engineering - Second Edtion, Stephen H.Kan, Addison Wesley


Scaricare ppt "Recap on Measure Theory and Statistical Inference Carola Aiello"

Presentazioni simili


Annunci Google