Pattern Recognition Lez.14: Miscugli di Gaussiane.

Slides:



Advertisements
Presentazioni simili
Premessa: si assume di aver risolto (correttamente
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Chiara Mocenni – Analisi delle Decisioni a.a Analisi delle Decisioni Probabilita condizionate e Teorema di Bayes Chiara Mocenni.
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Fondamenti di Informatica I CDL in Ingegneria Elettronica - A.A CDL in Ingegneria Elettronica - A.A Il Problema dellordinamento.
Fondamenti di Informatica I CDL in Ingegneria Elettronica - A.A CDL in Ingegneria Elettronica - A.A Il Problema dellordinamento.
8. Problemi ricorrenti: ordinamento e ricerca Ing. Simona Colucci
Lez. 41 Universita' di Ferrara Facolta' di Scienze Matematiche, Fisiche e Naturali Laurea Specialistica in Informatica Algoritmi Avanzati Programmazione.
Variabili casuali a più dimensioni
Analisi delle Decisioni Funzioni di utilita’ e lotterie
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 2 Chiara Mocenni Corso di laurea L1.
ANALISI DELLA COVARIANZA
Il ragionamento classico
Iterazione enumerativa (for)
TEORIA RAPPRESENTAZIONALE DELLA MISURA
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Apprendimento Non Supervisionato
INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)
DIFFERENZA TRA LE MEDIE
Abbiamo visto un esempio di applicazione del teorema, ma a noi interessa l’applicazione del Teorema di Bayes alla combinazione delle informazioni, ovvero.
Corso di biomatematica lezione 9: test di Student
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Apprendimento di movimenti della testa tramite Hidden Markov Model
STATISTICA a.a PARAMETRO t DI STUDENT
L’indagine OCSE-PISA: il framework e i risultati per la matematica
Stima dei parametri di una distribuzione
Modelli probabilistici
Studente Claudia Puzzo
PATTERN RECOGNITION.
Heap allocation e garbage collector di Oberon Algoritmo Quick Fit e garbage collector mark and sweep.
Qualche esempio di tableaux
Il calcolo di radiosity
Propagazione degli errori
IPOTESI DI LAVORO GRUPPO n° 3: LEO, RIBATTEZZATO, ROSSI, SCIANGUETTA
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Algoritmi e Strutture Dati
Statistica Che cos’è?.
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
il problema dei problemi
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Metodi matematici per economia e finanza. Prof. F. Gozzi
PROPAGAZIONE DEGLI ERRORI:
Lez.13: Unsupervised classification: clustering gerarchico
La ricorsione.
La verifica d’ipotesi Docente Dott. Nappo Daniela
R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Il problema della ricerca Algoritmi e Strutture Dati.
Analisi discriminante lineare - contesto
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
DATA MINING.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
La Matematica a tavola: concetto di misura
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
MASSIMO COMUNE DENOMINATORE (M.C.D)
Algoritmi e Strutture Dati Luciano Gualà
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
La numerazione ottale. Il sistema di numerazione ottale ha ampio utilizzo in informatica E’ un sistema di numerazione posizionale La base è 8 Il sistema.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
10/5/061 Lez. 12 Previsioni di traffico Generalità Previsioni di scenario.
Logica Lezione 11, Annuncio Non si terrà la lezione di Lunedì 16 Marzo.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Lezione n. Parole chiave: Corso di Laurea: Insegnamento: Docente: A.A Salvatore Cuomo La ricorsione 15 Approccio ricorsivo, esercizi sulla.
Transcript della presentazione:

Pattern Recognition Lez.14: Miscugli di Gaussiane

Raggruppare tenendo presente un modello I gruppi di record di una popolazione possono essere formati in maniera sensata se uno ha un “modello” matematico di come essi sono distribuiti. Una ipotesi spesso adottata è che ogni singolo “cluster” obbedisce ad una distribuzione gaussiana, con media M e varianza s 2. Se sappiamo che ci sono k cluster gaussiani possiamo cercare di individuare la scelta migliore per gli M i e gli s i in modo da “interpretare” la popolazione complessiva come un “miscuglio” di gaussiane.

Gli ingredienti Il problema si può formalizzare come segue. k classi: ω 1,…, ω k ; Ciascuna abbia probabilità (da determinare) “a priori” P(ω i ); Ciascuna abbia media M i e varianza s i (grandezze da determinare); Se ciascuna classe obbedisce ad una legge gaussiana si può definire per ciascun record x h della popolazione la probabilità P(x h | ω i ). Si ha quindi che P(x h )= ∑ i=1…k P(x h | ω i ) P(ω i ); La probabilità di osservare i dati x 1,…x n è data allora dalla formula P(x| M, s) = π P(x h ) Si osservi che in tale quantità le M e le s giocano un ruolo importante in quanto esse definiscono le probabilità a posteriori di osservare i vari dati. Si tratta di scegliere il vettore delle medie M e delle varianze s e delle probabilità p in modo da massimizzare questa funzione. Purtroppo questo è un problema matematicamente troppo complesso!

Una soluzione: l’algoritmo EM Proposto nel 1977 da Dempster-Laird e Rubin. E = Expectation M = Maximization Si tratta di un algoritmo di natura iterativa. Si assume che tutti i cluster abbiano la stessa varianza s che rimarrà eguale nel corso di tutto l’algoritmo (essa dovrà essere quindi stimata con altri metodi)

Algoritmo EM: fase iniziale Sono assegnati i record dati; Si sceglie una “ipotesi” di partenza, cioè un vettore di medie, varianze e probabilità a priori di ciascuna classe: L (0) = (M 1,…, M k, p 1,…,p k ) Si procede determinando ad ogni passo una ipotesi L (t+1) “più aggiornata” rispetto alla L (t) sulle medie e sui p i

Idea base dell’algoritmo Se per ogni record x h si conosce P(ω i |x h ) (cioè se posso assegnare il record xh alla classe ω i con probabilità nota) posso giungere a stimare la media M i della classe ω i. Infatti: M i =∑ (su tutti i record x) P(ω i |x h ) x h / ∑ (su tutti i record x) P(ω i |x h ) Per determinare la quantità in rosso si dovrebbe conoscere con esattezza la “legge gaussiana” che governa il cluster ω i. Ora noi conosciamo il valore s e abbiamo una ipotesi M i (t) sul valore medio. Partendo da tale ipotesi otteniamo una nuova stima M i (t+1).

Algoritmo EM: passo Expectation (calcolo di P(ω i |x h )) Cerchiamo di calcolare per ciascun x h : P(ω i |x h ) = P(ω i |x h, L (t) ) = per la regola di Bayes: P(x h |ω i, L (t) ) P(ω i |L (t) ) / P(x h |L (t) ) = usando il “guess” L (t) : P(x h |M i,s)p i / (∑ h=1..k P(x h |M h,s)p h ) Si osservi che tale numero può essere dedotto solo a partire dai dati x e dal vettore L stimato nell’istante t.

Algoritmo EM: passo Maximization Conoscere la quantità P(ω i |x) ci abilita adesso a calcolare una migliore stima per il vettore L. Costruiremo così un vettore L (t+1) che potrà essere iterativamente riutilizzato per una nuova stima. L’algoritmo è convergente verso una soluzione ottimale (fuori dagli obiettivi di questo corso). E’ però utile riportare esplicitamente come si può procedere alla stima di L (t+1)

Aggiornameto di L (t) : le medie Usando le formule delle slide precedenti le medie possono essere aggiornate come segue: M i (t+1) = ∑ (su tutti i record x) P(ω i |x h ) x h / ∑ (su tutti i record x) P(ω i |x h ) Si osservi che le quantità in rosso sono state calcolate nel passo E utilizzando le medie M i (t) stimate fino a questo momento dall’algortimo.

Aggiornameto di L (t) : le p i Usando le formule delle slide precedenti le probabilità a priori per ciascun cluster possono essere aggiornate come segue: P i (t+1) = ∑ (su tutti i record x) P(ω i |x h )/N record. Si osservi che le quantità in rosso sono state calcolate nel passo E.

In pratica… (note critiche) L’algoritmo assomiglia molto al clustering iterativo nello stile hard C-means. Come in quell’algoritmo un “guess” iniziale evolve verso una soluzione ottimale costruendo ad ogni passo un “guess” migliore basandosi sul guess precedente. Nell’hard C-means però non è necessario fare ricorso esplicitamente al “modello probabilistico” di ciascun cluster e tale algoritmo rimane la scelta più valida quando la distribuzione di ciascun cluster non è nota. D’altro canto se ci sono ragioni per ritenere che i cluster presenti nei nostri dati hanno tutti la medesima varianza e obbediscono ad una legge gaussiana questa preziosa osservazione consente, con l’algoritmo EM di pervenire ad una classificazione migliore.

In bocca al lupo Io ho finito Restano i seminari dei dottorandi… E gli esami!