La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

Presentazioni simili


Presentazione sul tema: "3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007."— Transcript della presentazione:

1 3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007

2 LE SORGENTI DI INFORMAZIONE Una sorgente di informazione invia messaggi che sono processi aleatori dotati di variabilità. La variabilità è la condizione propria del processo. Lincertezza è invece lo stato soggettivo di colui che riceve il messaggio. La sorgente è stazionaria se ha proprietà probabilistiche stabili nel tempo ed è ergodica se le sue leggi possono essere ricavate mediante osservazioni ripetute dei suoi messaggi che (se) si ripetono nel tempo. Esperimenti e misure si possono programmare proprio allo scopo di conoscere le proprietà statistiche delle sorgenti. Il messaggio ricevuto è sostanzialmente una misura il cui risultato è a sua volta una variabile con proprietà aleatorie.

3 DISTRIBUZIONI PROBABILISTICHE E MOMENTI Una sorgente di informazione è definita, come già detto, quando sono noti gli alfabeti e le leggi probabilistiche che ne governano i segnali, simboli e gli aggregati di simboli. Le leggi probabilistiche sono definite dalle probabilità dei segnali e dei simboli emessi. Condizione necessaria e sufficiente per conoscere le funzioni di distribuzione di probabilità della sorgente è conoscerne i parametri che sono tutti i momenti di qualsiasi ordine, definiti come valori attesi della serie delle potenze successive degli scarti: M 1 = = E(x); M = E(x- )

4 MODELLI STATISTICI Si definisce modello statistico di un processo aleatorio la collezione di tutte le p.d.f. necessarie e sufficienti per definirne le proprietà statistiche; Le p.d.f. possono essere stimate a partire da opportuni depositi di dati di processo (Database), tanto con approcci parametrici, che richiedono la stima dei parametri di funzioni predefinite, un vettore parametrico, quanto non parametrici (distribution free); Mediante lapproccio non parametrico o distribution free, lo sperimentatore dispone di una pdf stimata direttamente a partire dai dati campionari. Tale approccio si complica al crescere della dimensione p del vettore delle misure.

5 STATISTICHE Definiamo statistica una qualsiasi funzione dei dati ricevuti/misurati. Nellapproccio bayesiano ogni statistica è una variabile aleatoria essa stessa, regolata da una propria pdf che in alcuni casi può essere derivata dalla pdf dei dati, posto che sia nota. Sono esempi di statistiche le medie, le varianze, le distanze da un target etc. La legge che regola i dati, una pdf nel caso continuo, può essere in alcuni casi espressa mediante una funzione di una stringa o vettore parametrico ; 1 2, … k. Come si è visto, per le distribuzioni normali monovariate si tratta di due soli parametri e, posizione (displacement) e varianza.

6 MEDIA PARAMETRI E MOMENTI DEL I ORDINE La media campionaria su n dati: Lo scarto dalla media che ha media nulla: La mediana di un insieme di n dati ordinati in ordine di grandezza crescente è il valore centrale dei dati, se il numero di dati è dispari, o la media aritmetica dei due valori centrali, se il numero dei dati è pari. La moda è il valore o la classe a cui corrisponde la massima frequenza o la massima probabilità. I massimi relativi possono essere più duno.

7 VARIANZA PARAMETRI E MOMENTI DEL II ORDINE La varianza campionaria su n dati: La deviazione standard campionaria: Sono detti indici di dispersione o indici di variabilità, perché misurano la dispersione dei dati attorno alla media. La varianza è tanto più grande quanto più i dati si discostano dalla media. I valori di s e s 2, poiché misurano leffettiva variazione assoluta presente in un insieme di dati, dipendono dallunità di misura dei dati.

8 PARAMETRI E MOMENTI DI ORDINE SUPERIORE La asimmetria (skewness) dei dati è il valore campionario del momento di terzo ordine. Un valore positivo indica una distribuzione in cui i valori sono raggruppati nel range dei valori bassi con una lunga coda che si estende verso I valori maggiori. Un valore negativo indica la situazione opposta. Il momento campionario del quarto ordine misura la curtosi (flatness) campionaria dei dati. Una curtosi positiva indica che ci sono piu` valori agli estremi della distribuzione di quanto aspettato. Una curtosi negativa indica ci sono meno avlori agli estremi della distribuzione di quanto aspettato

9 STATISTICHE SUFFICIENTI Una statistica di un campione t( x ), come media, varianza, momenti, ricavata da una sequenza campionaria x, è detta sufficiente per se la funzione di verosimiglianza è fattorizzabile: L( |x) = g(t(x), )h(x); h non negativa. Si definisce funzione di score, s: s(x; ) = l / dove E(s)=0 La matrice di covarianza di s, E (ss), è la Matrice informativa di Fisher, F = E( 2 l / 2 ). Vale la diseguaglianza di Cramér-Rao: E(t,t) F -1

10 IL CASO NORMALE Riprendiamo il modello statistico associato ad un campione di dati aleatori normale N(, σ 2 ). In questo caso la verosimiglianza è fattorizzabile: e quindi estratti i dati e quindi noti i valori assunti dalle statistiche: y i, y i 2 la verosimiglianza è univocamente determinata. Si tratta dunque di statistiche congiuntamente sufficienti.

11 USO DELLE STATISTICHE SUFFICIENTI Effettuato un esperimento statistico con lestrazione di un campione X cerchiamo le statistiche t tali che il calcolo del valore da esse assunto sia del tutto equivalente ai fini dellinferenza su alla conoscenza di tutto il campione x. Dato un modello statistico, una statistica t(x) viene detta sufficiente per se assume lo stesso valore in corrispondenza di campioni diversi solamente quando essi hanno verosimiglianze proporzionali. Data una statistica sufficiente t abbiamo verosimiglianze diverse solo se t assume valori diversi. Il valore assunto da una statistica sufficiente sintetizza quindi tutta linformazione che cè nellintero campione.

12 PIANIFICAZIONE DEGLI ESPERIMENTI Il concetto di popolazione in statistica si discosta dunque dal senso comune. La popolazione è un insieme reale di soggetti con caratteristiche comuni, in statistica è invece linsieme di tutte le misure possibili di un determinato parametro (multivariato, vettoriale) regolato da una comune legge probabilistica. Quando si tratta di un insieme molto grande può non essere possibile né economicamente conveniente raccogliere tutti i dati. Si esegue in tal caso un esperimento consistente nellestrazione di un campione che costituirà un sottoinsieme di dimensioni trattabili della popolazione.

13 CAMPIONAMENTO STATISTICO Linformazione viene raccolta a campione per: risorse limitate, alto costo del campionamento; pochi dati disponibili per ragioni fisiche; impossibilità di compiere il campionamento perché distrugge loggetto in esame o per difficoltà di natura sociale. Si può contare, il più delle volte, su un campione composto da un numero limitato di dati, e si trae da essi per inferenza statistica quanto serve per sviluppare un esperimento. La teoria dei campioni è lo studio delle proprietà di una popolazione mediante i campioni che la costituiscono.

14 ESTRAZIONE DEI DATI La via migliore per evitare di estrarre campioni non rappresentativi di una popolazione è il campionamento casuale, nel quale deve essere identica la probabilità di estrazione di ciascun dato. Ciò richiede che il campione delle misure X sia costituito da vettori X indipendenti ed identicamente distribuiti (iid). Le fasi del campionamento sono: Definizione della popolazione Specificazione del quadro sperimentale Definizione del metodo di campionamento Determinazione della dimensione del campione Predisposizione logistica della misura Effettuazione della misura Esame dei dati.

15 GRADI DI LIBERTA Dato un campione di dimensione n ed un set di k statistiche, il massimo numero di elementi del campione liberi di variare senza alterare le k statistiche già calcolate è il numero dei gradi di libertà, dgf, del campione stesso. Si tratta del numero di informazioni indipendenti che fanno il campione. Dimensionare i dgf di un campione è questione delicata sulla quale operano esigenze contrastanti, leconomia di risorse e di tempo da un lato, la disponibilità di buoni dati di qualità effettivamente indipendenti dallaltro, lopportunità di trattare grandi campioni per avere buone inferenze e buone stime dallaltro ancora.

16 DIMENSIONE DEL CAMPIONE, GRADI DI LIBERTA Per dimensionare un esperimento occorre dare una figura di merito. Si può trattare di limiti di disponibilità, di spesa o di tempo. Se si assegna viceversa una performance di possono calcolare i dgf necessari. Nel più classico dei test sulla media di una popolazione sia lerrore di I specie, di falsa reiezione dellipotesi nulla x=0 rispetto allipotesi alternativa = z, e sia 1- la potenza del test, cioè sia lerrore massimo ammesso di falsa accettazione, di II specie. Si dimostra che ( è la cumulativa normale):

17 IL PARLATORE Dobbiamo supporre che il parlatore sia una sorgente di informazione stazionaria ed ergodica poiché il campione può essere formato solo con dati estratti in tempi successivi. Lipotesi ha delle limitazioni evidenti. Le misure (formantiche, etc.) accessibili costituiscono il campione di una popolazione di vettori acustici mediante i quali eseguiamo inferenze sui parametri della pdf del parlatore (FUB SPREAD) o sulla intera distribuzione (Rossi). Nellapproccio FUB si suppone per di più che i parametri di secondo ordine della pdf siano indipendenti dal parlatore. Linferenza campionaria si semplifica alla sola determinazione della posizione nello spazio (displacement) del valore medio.

18 LA POPOLAZIONE DEI PARLATORI Vedremo che nei processi di decisione occorre il modello statistico della o delle popolazioni di appartenenza dei parlatori (ad esempio i maschi adulti italiani. La definizione di popolazione di appartenenza (taluni usano la denominazione di riferimento) è questione delicata, controversa e causa di errori anche gravi. Basti dire che i parametri delle probabilità di errore sono direttamente dipendenti dal modello di tale popolazione. Alle proprietà statistiche della popolazione dei parlatori si perviene ancora una volta per campionamento, ma con procedimenti reiterati di accumulazione progressiva nei quali è fondamentale la qualità delle procedure.

19 INFERENZE Dal campione intendiamo ricavare informazioni e statistiche che ci servono per il processo decisionale mediante operazioni denominate inferenze. Tipicamente ci attendiamo dallinferenza informazioni sulla distribuzione di probabilità dei dati o sui suoi momenti di vario ordine, seguendo approcci distribution-free o parametrici (a distribuzione data). Nellapproccio FUB IDEM-SPREAD le distribuzioni sono supposte essere multivariate normali e linferenza viene condotta sulle matrici dei momenti del primo e del secondo ordine, medie e covarianze.

20 STIME DI MASSIMA VEROSIMIGLIANZA Un parametro incognito di una p.d.f. può essere stimato a partire da un campione di dati x. Le stime di massima verosimiglianza di un vettore parametrico si ottengono dalla soluzione del sistema S=0 e godono della proprietà di essere asintoticamente normalmente distribuite con media (stime unbiased) e varianza (nF) -1 (stime consistenti). In base alla diseguaglianza di Cramér-Rao le stime MLE sono a varianza minima. Per la distribuzione normale, p=1, si ha: = x = 1/n i x i 2 = 1/n i (x i -x) 2

21 LE MATRICI DEI DATI FORMANTICI Struttura delle matrici di dati X = (x i,j,k )

22 PROPRIETA STATISTICHE DEI DATI I dati fonoacustici derivano da campagne sperimentali di acquisizione ed elaborazione dati con tecniche di Digital Signal Processing; La qualità dei dati deve essere assicurata. Il trattamento statistico non può compensare la mancanza di qualità dei dati se non in maniera marginale (filtraggio degli outliers, correzione di alcuni tipi di errori, etc …); Le misure devono essere statisticamente indipendenti. Un errore da non fare e una doppia misura formantica sulla stessa vocale;

23 PROPRIETA STATISTICHE DEI DATI Le funzioni di densità di probabilità (p.d.f.) dei processi coinvolti nellesperimento devono essere note, ovvero identificate e ricavata dai dati stessi. Esse sono funzioni multivariate, continue e differenziabili, che, integrate su un dominio p- dimensionale D, danno la probabilità che il campione cada in quel dominio. Deve in particolare essere nota e statisticamente definita la popolazione di appartenenza delle voci, ad esempio i maschi adulti italiani. La distribuzione di probabilità della popolazione deve quindi essere nota e verificata.

24 PROPRIETA STATISTICHE DEI DATI Si fa lipotesi che lemissione vocale sia, con buona approssimazione, un processo aleatorio e che i parametri acustici, frutto di misure spettrali o temporali affidabili e ripetibili, siano variabili aleatorie continue regolari, well behaving, dotate di funzioni di densità di probabilità; Lipotesi accreditata dal progetto FUB IDEM- SPREAD, adeguatamente confortata dai risultati sperimentali, e che i dati siano regolati dafunzioni di distribuzione multivariate normali; In alcuni casi si dovrà ricorrere allipotesi che la p.d.f. di parlatori diversi si differenzi solo per il momento del primo ordine (displacement factor), media o centroide.

25 LE STATISTICHE: MEDIE CAMPIONARIE Matrice delle medie dei parlatori : X k = (x ik ) foglio k-esimo (k = 1, … K) FF0a FF1a FF3u 1/n 1k j x 1jk, 1/n 2k j x 2jk, … 1/n pk j x p,j,k x Vettore media delle medie: X = (x i ) FF0a FF1a FF3u 1/K k x * 1k, 1/K k x * 2k, … 1/K k x * pk

26 COVARIANZE E CORRELAZIONI CAMPIONARIE Matrice delle covarianze dei parlatori W k = n k S k /(n k -1) foglio k-esimo (p * p), n ik = n k, i w iik = 1/(n k -1) j (x ijk x ijk - x * ik x * ik ) Matrice delle covarianze pooled W, (N= k n k ) W = 1/(N - K) k (n k -1) W k Matrice delle correlazioni ii = w ii /(w ii* w ii ) ½ Varianza generalizzata = Det (W)

27 MANOVA, ANALISI MULTIVARIATA DELLA VARIANZA Matrice delle covarianze totali del campione, T (N-1) T = k j (x jk - x) (x jk - x) Matrice delle covarianze intraparlatori pooled, W (N - K) W = k (n k -1) W k Matrice delle covarianze della popolazione, P (K-1) P = k n k (x * k - x ** ) (x * k - x ** ) Identità MANOVA (N-1) T = (N - K) W + (K-1) P

28 LE COMPONENTI PRINCIPALI Sussiste il Teorema: Se x ha una distribuzione multivariata normale N( ; ), la y = (y 1, y 2, …, y p ) = -1/2 (x- ) è costituita da p variabili indipendenti distribuite come N(0,1). Di analoga proprietà godono le Componenti principali z =(x- ), dove la matrice diagonalizza la matrice di covarianza: =. La matrice diagonale contiene le varianze delle p componenti principali che hanno distribuzione N(0, i ). La trasformazione ruota e centra sugli assi coordinati ed ordina nel senso delle varianze decrescenti i punti di una popolazione avente la distribuzione N( ; ).

29 FORME QUADRATICHE Il kernel della p.d.f. Multivariata Normale è una forma quadratica che ha le caratteristiche geometriche di una distanza normalizzata. Per ogni misura x si definisce una f.q.: Fq = (x - ) S -1 (x - ) che gode di proprietà interessanti. Tra esse: Se x~N( ; ), Fq(x, ) ~ 2 p. Fq è invariante per ogni operazione lineare di traslazione o rotazione in S p. Fq = cost è lequazione in S p delle sezioni isoprobabili si una p.d.f. Multivariata Normale N p.

30 LA DISTANZA DI MAHALANOBIS In analogia formale con Fq, indipendentemente dalla distribuzione di probabilità del dato, si definiscedistanza di Mahalanobis tra due punti in uno spazio S p con matrice di normalizzazione come: D 2 (x 1,x 2 ) = (x 1 - x 2 ) -1 (x 1 - x 2 ) Se X 1,X 2 sono campioni multivariati normali iid di dimensione n 1, n 2, di due parlatori Spk 1, Spk 2 e la covarianza è la stessa, la statistica: D 2 (x 1,x 2 ) = (x 1 - x 2 ) -1 (x 1 - x 2 ) ha una distribuzione di probabilità nota: se è incognita si tratta di una T 2 di Hotelling a due campioni, versione multivariata della t di Student; se invece è nota si tratta di una chi-quadratica 2 p

31 I TEST CON LA DISTANZA DI MAHALANOBIS Assegnata una ipotesi, ad esempio Spk 1 = Spk 2, eseguito lesperimento ed estratto il campione, la distribuzione (pdf) della statistica della D 2 (x 1,x 2 ) può essere ricavata dai dati stessi (Rossi). Per la stima della covarianza con dati scarsi si usano generalmente gli approcci bootstrap con la ripetizione dei dati. Se X 1,X 2 sono campioni multivariati normali iid di dimensione n 1, n 2, n in totale, di due parlatori Spk 1, Spk 2 e la covarianza è la stessa, vale la importante legge: n 1 n 2 (n-p-1) D 2 /[n(n-2)p] ~ F p, n-p-1 dove F è la distribuzione di Fisher che per n, cioè per nota si semplifica nella : n 1 n 2 D 2 /n ~ 2 p.

32 IL MODELLO FUB SP99 Ogni anno viene aggiornato presso la Fondazione Ugo Bordoni un database che contiene vettori parametrici di voci telefoniche maschili italiane adulte ricavate da casi di reale interesse giudiziario. In Enea vengono estratti da esso i modelli statistici aggiornati. Il Database è denominato SP seguito dallanno di aggiornamento. Lultimo è dunque SP99. Le sue specifiche sono: Popolazione: Maschi italiani adulti n° parlatori K = 179 n° di realizzazioni = 3983, p = 20 n° di vettori vocalici = 14176

33 DATABASE SP99 Grafici di scatter dei parlatori: formanti 1 e 2 della a

34 DATABASE SP99 Grafici di scatter dei parlatori: formanti della a e della e

35 IL MODELLO SP99: LA COVARIANZA W INTRAPARLATORE Poiché le vocali sono statisticamente indipendenti, il modello W può essere descritto mediante 4 tabelle separate comprendenti le varianze e le matrici di correlazione. Il modello W descrive la dinamica intraparlatore alle ipotesi di normalità multivariata e di stabilità del modello al variare del parlatore.

36 IL MODELLO SP99: LA COVARIANZA P DELLA POPOLAZIONE Il modello generale della popolazione dei maschi italiani adulti, supposto normale, è descritto mediante il vettore delle medie (centroide) della popolazione e la matrice di covarianza delle medie (varianze e correlazioni) a dimensioni.


Scaricare ppt "3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007."

Presentazioni simili


Annunci Google