Pattern Recognition Lez.14: Miscugli di Gaussiane.

Pattern Recognition Lez.14: Miscugli di Gaussiane

Raggruppare tenendo presente un modello I gruppi di record di una popolazione possono essere formati in maniera sensata se uno ha un “modello” matematico di come essi sono distribuiti. Una ipotesi spesso adottata è che ogni singolo “cluster” obbedisce ad una distribuzione gaussiana, con media M e varianza s 2. Se sappiamo che ci sono k cluster gaussiani possiamo cercare di individuare la scelta migliore per gli M i e gli s i in modo da “interpretare” la popolazione complessiva come un “miscuglio” di gaussiane.

Gli ingredienti Il problema si può formalizzare come segue. k classi: ω 1,…, ω k ; Ciascuna abbia probabilità (da determinare) “a priori” P(ω i ); Ciascuna abbia media M i e varianza s i (grandezze da determinare); Se ciascuna classe obbedisce ad una legge gaussiana si può definire per ciascun record x h della popolazione la probabilità P(x h | ω i ). Si ha quindi che P(x h )= ∑ i=1…k P(x h | ω i ) P(ω i ); La probabilità di osservare i dati x 1,…x n è data allora dalla formula P(x| M, s) = π P(x h ) Si osservi che in tale quantità le M e le s giocano un ruolo importante in quanto esse definiscono le probabilità a posteriori di osservare i vari dati. Si tratta di scegliere il vettore delle medie M e delle varianze s e delle probabilità p in modo da massimizzare questa funzione. Purtroppo questo è un problema matematicamente troppo complesso!

Una soluzione: l’algoritmo EM Proposto nel 1977 da Dempster-Laird e Rubin. E = Expectation M = Maximization Si tratta di un algoritmo di natura iterativa. Si assume che tutti i cluster abbiano la stessa varianza s che rimarrà eguale nel corso di tutto l’algoritmo (essa dovrà essere quindi stimata con altri metodi)

Algoritmo EM: fase iniziale Sono assegnati i record dati; Si sceglie una “ipotesi” di partenza, cioè un vettore di medie, varianze e probabilità a priori di ciascuna classe: L (0) = (M 1,…, M k, p 1,…,p k ) Si procede determinando ad ogni passo una ipotesi L (t+1) “più aggiornata” rispetto alla L (t) sulle medie e sui p i

Idea base dell’algoritmo Se per ogni record x h si conosce P(ω i |x h ) (cioè se posso assegnare il record xh alla classe ω i con probabilità nota) posso giungere a stimare la media M i della classe ω i. Infatti: M i =∑ (su tutti i record x) P(ω i |x h ) x h / ∑ (su tutti i record x) P(ω i |x h ) Per determinare la quantità in rosso si dovrebbe conoscere con esattezza la “legge gaussiana” che governa il cluster ω i. Ora noi conosciamo il valore s e abbiamo una ipotesi M i (t) sul valore medio. Partendo da tale ipotesi otteniamo una nuova stima M i (t+1).

Algoritmo EM: passo Expectation (calcolo di P(ω i |x h )) Cerchiamo di calcolare per ciascun x h : P(ω i |x h ) = P(ω i |x h, L (t) ) = per la regola di Bayes: P(x h |ω i, L (t) ) P(ω i |L (t) ) / P(x h |L (t) ) = usando il “guess” L (t) : P(x h |M i,s)p i / (∑ h=1..k P(x h |M h,s)p h ) Si osservi che tale numero può essere dedotto solo a partire dai dati x e dal vettore L stimato nell’istante t.

Algoritmo EM: passo Maximization Conoscere la quantità P(ω i |x) ci abilita adesso a calcolare una migliore stima per il vettore L. Costruiremo così un vettore L (t+1) che potrà essere iterativamente riutilizzato per una nuova stima. L’algoritmo è convergente verso una soluzione ottimale (fuori dagli obiettivi di questo corso). E’ però utile riportare esplicitamente come si può procedere alla stima di L (t+1)

Aggiornameto di L (t) : le medie Usando le formule delle slide precedenti le medie possono essere aggiornate come segue: M i (t+1) = ∑ (su tutti i record x) P(ω i |x h ) x h / ∑ (su tutti i record x) P(ω i |x h ) Si osservi che le quantità in rosso sono state calcolate nel passo E utilizzando le medie M i (t) stimate fino a questo momento dall’algortimo.

Aggiornameto di L (t) : le p i Usando le formule delle slide precedenti le probabilità a priori per ciascun cluster possono essere aggiornate come segue: P i (t+1) = ∑ (su tutti i record x) P(ω i |x h )/N record. Si osservi che le quantità in rosso sono state calcolate nel passo E.

In pratica… (note critiche) L’algoritmo assomiglia molto al clustering iterativo nello stile hard C-means. Come in quell’algoritmo un “guess” iniziale evolve verso una soluzione ottimale costruendo ad ogni passo un “guess” migliore basandosi sul guess precedente. Nell’hard C-means però non è necessario fare ricorso esplicitamente al “modello probabilistico” di ciascun cluster e tale algoritmo rimane la scelta più valida quando la distribuzione di ciascun cluster non è nota. D’altro canto se ci sono ragioni per ritenere che i cluster presenti nei nostri dati hanno tutti la medesima varianza e obbediscono ad una legge gaussiana questa preziosa osservazione consente, con l’algoritmo EM di pervenire ad una classificazione migliore.

In bocca al lupo Io ho finito Restano i seminari dei dottorandi… E gli esami!

Pattern Recognition Lez.14: Miscugli di Gaussiane.

Presentazioni simili

Presentazione sul tema: "Pattern Recognition Lez.14: Miscugli di Gaussiane."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Pattern Recognition Lez.14: Miscugli di Gaussiane.

Presentazioni simili

Presentazione sul tema: "Pattern Recognition Lez.14: Miscugli di Gaussiane."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back