ANALISI DEI GRUPPI seconda parte

Slides:



Advertisements
Presentazioni simili
Premessa: si assume di aver risolto (correttamente
Advertisements

Le distribuzioni di probabilità continue
MATEMATICA PER L’ECONOMIA
Capitolo 8 Sistemi lineari.
Vettori e matrici algebrici
Autovalori e autovettori
Determinanti del primo ordine
LE MATRICI.
Macchine sequenziali Capitolo 4.
Algoritmi e Strutture Dati
Lez. 3 - Gli Indici di VARIABILITA’
2ab2 2b4 4x − 2y a 3b2y3 3b2y3b Definizione e caratteristiche
Algebra delle Matrici.
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
ANALISI DELLA COVARIANZA
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Esercitazioni su circuiti combinatori
PROGETTO LAUREE SCIENTIFICHE
Teoria e Tecniche del Riconoscimento
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.
Algoritmo di Ford-Fulkerson
ALBERI DECISIONALI terza parte
La matrice dei dati E’ possibile organizzare i dati in forma di matrice se: l’unità di analisi è unica (ad esempio non si possono includere individui e.
PER FUNZIONI DI PIÙ VARIABILI - 3.
PER FUNZIONI DI PIÙ VARIABILI - 2.
Sistemi di equazioni lineari
Modelli e Algoritmi della Logistica
Seminario su clustering dei dati – Parte II
Modelli e Algoritmi della Logistica
Metodi statistici per l'analisi del cambiamento 5/3/ Notazione (simboli) Obbiettivo: occorre che si mantengano le tracce, in merito al punteggio,
Analisi dei gruppi – Cluster Analisys
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Le matrici e I Sistemi lineari.
MATRICI classe 3 A inf (a.s ).
CALCOLO COMBINATORIO.
Definizione di determinante
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Passo 3: calcolo del costo minimo
La Classificazione non supervisionata
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
1- Orientamento testo 2- Calcolo dell iva 3- Nascondi e scopri 1- Orientamento testo 2- Calcolo dell iva 3- Nascondi e scopri 4- Prezzo+iva, guadagno.
Diagrammi 2D e 3D Funzioni di ordine superiore
TEOREMA Se due rette, tagliate da una trasversale, formano una coppia di angoli alterni interni congruenti, allora, gli angoli esterni sono congruenti,
Cammini minimi tra tutte le coppie
1 CALCOLO COMBINATORIO Principio fondamentale del calcolo combinatorio Se un evento E 1 si può presentare in n 1 modi e un secondo evento E 2 si può manifestare.
Classificazione (aka Cluster Analysis)
Similarità, distanza, associazione
HAUFBAU.
Gli algoritmi del minimo percorso
Lez. 3 - Gli Indici di VARIABILITA’
Corso di Matematica (6 CFU) (4 CFU Lezioni +2 CFU Esercitazioni)
Modulo 5 - Database. Contenuti della lezione 5.1.1Concetti Fondamentali 5.1.2Organizzazione di un Database 5.1.3Relazioni 5.2.1Lavorare con i database.
MATRICI.
Lez.13: Unsupervised classification: clustering gerarchico
ANALISI DEI DATI STATISTICI
Università degli Studi di Roma Tor Vergata
Claudio Arbib Università dell’Aquila Ricerca Operativa Metodo del simplesso per problemi di distribuzione single-commodity.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Flusso di Costo Minimo Trasformazioni Equivalenti e Trasformazioni Inverse Viene data la seguente rete di flusso, in cui i valori riportati vicino agli.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
Reti Logiche A Lezione 2.1 Sintesi di reti combinatorie a due livelli
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
La scrittura decimale Quando un numero è scritto in forma decimale, vi è un numero finito di cifre dopo la virgola. Ma sappiamo che ci sono divisioni “che.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
ARGOMENTI DELLA LEZIONE  Le distribuzioni di frequenza in classi  Le distribuzioni di frequenza in classi  Le tabelle di frequenza  La rappresentazione.
Algoritmi Avanzati a.a.2013/2014 Prof.ssa Rossella Petreschi Albero ricoprente di costo minimo Lezione n°12.
Algoritmi Avanzati a.a.2014/2015 Prof.ssa Rossella Petreschi Lezione n°10.
Prof. Cerulli – Dott. Carrabs
Transcript della presentazione:

ANALISI DEI GRUPPI seconda parte

Argomenti della lezione Distanze Metodi gerarchici: legame singolo e legame completo

Per i dati di tipo quantitativo si ricorre alle distanze

Una distanza possiede le seguenti proprietà: identità dii = 0 simmetria dij = dji non negatività dij ≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij

Distanza di Minkowski  = p k=1 rdij xik - xjk r 1/r

Per r = 2 si ha la distanza euclidea  = p k=1 2dij xik - xjk 2 1/r

Distanza di Mahalanobis  = p k=1 dij (xik - xjk) (xih - xjh) 1/2 h=1 shk in cui shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le p variabili

Matrice delle dissomiglianze = D d21 dn1 dn2 d2n d1n d12 …

Algoritmi gerarchici Gli algoritmi gerarchici procedono sia per mezzo di una serie di aggregazioni successive o una serie di successive divisioni. Gli algoritmi aggregativi iniziano con tutte le unità distinte, così vi sono tanti gruppi quanti sono gli oggetti da classificare

I passaggi di un algoritmo aggregativo gerarchico applicato ad un insieme di n unità sono i seguenti:

1 Si inizia con n gruppi contenenti ciascuno una sola unità e una matrice di distanze simmetrica nxn 2 Si individua nella matrice delle distanze la coppia più vicina (più simile), ad esempio quella formata dai gruppi U e V

3 Si raggruppano U e V in un unico gruppo etichettato come (UV). Si aggiorna la matrice delle distanze cancellando le righe e le colonne corrispondenti ai clusters U e V e aggiungendo una riga e una colonna che riporta le distanze tra il gruppo (UV) e i restanti clusters

Si ripetono i passi 2 e 3 per un totale di n-1 volte Si ripetono i passi 2 e 3 per un totale di n-1 volte. Tutti gli oggetti sono raggruppati in un unico gruppo al termine della procedura. 4

Metodi di aggregazione gerarchica: legame semplice legame completo legame medio di Ward

Distanza tra gruppi (dissimilarità) per (a) legame singolo, (b) legame completo, e (c) legame medio

d24 d15 Cluster distance (a) (b) (c) 6 3 1 4 5 2 3 1 4 5 2 3 1 4 5 2 d13+ d14 + d15 + d23 + d24 + d25 6 (c) 1 2 3 4 5

Legame semplice d(UV)W = min [ dUW , dVW] Le distanze tra i gruppi sono formate considerando la più piccola delle distanze istituibili a due a due tra tutti gli elementi dei due gruppi: d(UV)W = min [ dUW , dVW]

Esempio Passo 1 individui A B C D E 9 3 6 11 7 5 10 2 8

I due individui più vicini sono l'individuo C e l'individuo E min ij (dij) = dCE = 2

Passo 2 Le distanze tra il gruppo (CE) e i rimanenti oggetti sono calcolate con il metodo del legame singolo: d(CE),A = min [ d CA, d EA] = min [3,11] =3 d(CE),B = min [ d CB, d EB] = min [7,10] =7 d(CE),D = min [ d CD, d ED] = min [9,8] =8

Si ottiene quindi la nuova matrice delle dissomiglianze B D (CE) 7 8 9 6 5 3

Passo 3 La distanza minima è ora quella d(CE)A = 3 e quindi uniamo il gruppo A al gruppo CE. Procediamo successivamente a calcolare le nuove distanze: d (ACE)B = min [d(CE)B, d AB] = min[7,9] = 7 d (ACE)D = min [d(CE)D, d AD] = min[8,6] =6

La nuova matrice delle dissomiglianze è la seguente: B D (ACE) 6 5 7

d(ACE)(BD) = min [d(ACE)B, d(ACE),D] = = min [7,6] = 6 Passo 4 Ora la distanza minore tra i cluster è dBD =5, e a questo punto otteniamo due gruppi, (ACE) e (BD). La loro distanza secondo la regola del legame singolo è d(ACE)(BD) = min [d(ACE)B, d(ACE),D] = = min [7,6] = 6

La matrice finale è la seguente: (BD) (ACE) 6

La fusione finale avviene quindi ad una distanza pari 6 Passo 5 La fusione finale avviene quindi ad una distanza pari 6

I risultati di una procedura di cluster gerarchica possono essere rappresentati dal dendrogramma o diagramma ad albero I rami dell'albero rappresentano i cluster. I rami si uniscono in nodi le cui posizioni lungo l'asse delle distanze (o delle dissomiglianze) indicano il livello in cui avviene la fusione

Dendrogramma della procedura di aggregazione con il legame singolo Distanza 2 4 6 1 3 5 4 Individui

Legame completo

Ad ogni passo la distanza (similarità) tra i gruppi è stabilita considerando i due elementi più lontani (dissimili) nei due gruppi. In questo modo la procedura del legame completo assicura che tutti gli elementi all'interno di un gruppo siano comprese ad una distanza massima (o somiglianza minima) l'uno dall'altro d(UV)W = max [dUW, dVW]

Esempio Passo 1 individui A B C D E 9 3 6 11 7 5 10 2 8

I due individui più vicini sono l'individuo C e l'individuo E min ij (dij) = dCE = 2

Passo 2 Calcoliamo le distanze tra il gruppo (CE) e i restanti con il metodo del legame completo d(CE),A = max [ d CA, d EA] = max [3,11] =11 d(CE),B = max [ d CB, d EB] = max [7,10] =10 d(CE),D = max [ d CD, d ED] = max [9,8] =9

La nuova matrice delle distanze è la seguente: B D (CE) 10 9 6 5 11

d(BD)(CE) = max [d B(CE), d D(CE)] = = max =[10,9] =10 Passo 3 La fusione successiva avviene tra i gruppi B e D. Le nuove distanze da calcolare sono le seguenti: d(BD)(CE) = max [d B(CE), d D(CE)] = = max =[10,9] =10

e la matrice delle distanze è la seguente: (BD) A (ACE) 11 9 10

Il dendrogramma che rappresenta la procedura di aggregazione Passo 4 La fusione seguente produce il gruppo (ABD). Nel passo finale i gruppi (CE) e (ABD) sono raggruppati nella fusione finale. Il dendrogramma che rappresenta la procedura di aggregazione è il seguente

Dendrogramma della procedura di aggregazione con il legame completo

1 Individui Distanze 2 4 6 8 10 12 3 5