Analisi dei gruppi – Cluster Analisys

Slides:



Advertisements
Presentazioni simili
Il senso dei dati: Elaborazione e Interpretazione.
Advertisements

Progettazione concettuale
Autovalori e autovettori
Time Sharing Il termine “Time Sharing” proviene dall'inglese e significa letteralmente “partizione di tempo”. Questa è una tecnica sviluppatasi negli.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi Fattoriale Esplorativa
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Gli errori nell’analisi statistica
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Apprendimento Non Supervisionato
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
ANALISI DEI GRUPPI seconda parte
COSA VUOL DIRE FARE STATISTICA
Sistemi di equazioni lineari
MODELLAZIONE DELLA RISPOSTA NON LINEARE
Studente Claudia Puzzo
PATTERN RECOGNITION.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
Misurazione Le osservazioni si esprimono in forma di misurazioni
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
MEDIE STATISTICHE.
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
STATISTICA PER LE DECISIONI DI MARKETING
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
Classificazione (aka Cluster Analysis)
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Statistica La statistica è
Gli indici di dispersione
Progettazione Logica Il prodotto della progettazione logica è uno schema logico che rappresenta le informazioni contenute nello schema E-R in modo corretto.
ANALISI DEI DATI STATISTICI
COSA VUOL DIRE FARE STATISTICA
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Strumenti statistici in Excell
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Il residuo nella predizione
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
IL CAMPIONE.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Tecniche di analisi matematica. Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Le funzioni.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
I modelli di offerta per i sistemi di trasporto Corso di Progettazione dei Sistemi di Trasporto Prof. B. Montella a. a. 2015/16.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
Gli Indici di VARIABILITA’
Transcript della presentazione:

Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare i casi (le unità) di una matrice di dati ad un numero ristretto di gruppi, massimizzando l’omogeneità all’interno dei gruppi e massimizzando l’eterogeneità tra i gruppi Ciò è possibile attraverso l’uso di variabili discriminanti o variabili criterio e attraverso l’individuazione del metodo per arrivare a questa classificazione in gruppi.

Analisi dei gruppi (adg) La scelta delle variabili criterio sulle quali operare la classificazione è il momento cruciale dell’adg Sta al ricercatore scegliere le variabili adatte: il ricercatore deve fare ricorso alla sua conoscenza del fenomeno in esame. A livello computazionale e matematico i software applicano tutte le tecniche di analisi multivariata generando dei risultati. Sta al ricercatore valutare se i risultati sono buoni e se la tecnica applicata porta dei miglioramenti per l’interpretazione del fenomeno.

Analisi dei gruppi (adg) A livello computazionale esiste una difficoltà di calcolo: applicare una adg su una matrice di 1000/2000 unità e 200/300 variabili risulta poco possibile. Per questo solitamente si opera una riduzione sulle variabili e si applica la adg sui risultati dall’analisi delle componenti principali o sui risultati dell’analisi delle corrispondenze multiple. Se l’acm ha operato una riduzione delle variabili (passando da m variabili a pochi fattori, di solito 3 o 4), l’adg opera una riduzione sulle unità passando da n unità a k gruppi Si raggiunge così la massima economia di rappresentazione dei risultati

Fasi dell’adg Scelta delle variabili con le quali discriminare i casi (le unità) Costruzione di una matrice di distanza (quadrata e simmetrica) dove si riportano tutte le distanze tra i casi. Scelta della tecnica per aggregare i casi Interpretazione di risultati Ci sono centinaia di tecniche di aggregazione e possono essere usate anche diversi tipi di distanza. Nelle tecniche classiche, l’assegnazione delle unità ai gruppi è univoca o mutuamente esclusiva (una unità appartiene ad un solo gruppo) ed esaustiva (ogni unità deve essere assegnata ad un gruppo) Nelle tecniche basate sulla logica fuzzy gli insiemi possono essere sfocati e le appartenenze possono essere multiple.

Famiglie di tecniche di adg Le varie tecniche che si possono utilizzare si basano su: Il coefficiente usato per calcolare la matrice di distanza Il criterio per la costruzione dei gruppi La distanza tra i casi è calcolata soltanto sulle variabili inserite nell’analisi. La più comune distanza utilizzata per le variabili quantitative è la distanza euclidea. Generalizzando la distanza euclidea tra due casi (due unità) rispetto ad un numero m di variabili si calcola come radice quadrata della somma di tutte le differenze tra i valori dei due casi per ogni m variabile

Proprietà della distanza Altre distanze, che sono leggere variazioni della distanza euclidea sono la distanza di Manhattan, la distanza di Mahalanobis, la distanza di Minkovski. In ogni caso la distanza ha le seguenti proprietà: La distanza di una unità da se stessa è nulla La distanza tra due casi è speculare (la distanza tra a e b è uguale alla distanza tra b e a) Tra le distanze vale la disuguaglianza triangolare

Tecniche di classificazione Una volta decisa la distanza si deve decidere la tecnica di clustering da applicare. Si hanno tecniche gerarchiche e tecniche non gerarchiche Le tecniche gerarchiche procedono: per aggregazioni successive partendo da n unità (n gruppi di partenza) fino ad arrivare ad un gruppo unico che contiene tutte le unità. Un gruppo formato non si può più sciogliere - tecniche gerarchiche aggregative per scissioni successive partendo da un gruppo unico che contiene tutte le unità fino ad arrivare a n gruppi (ossia alle n unità della matrice di dati) - tecniche gerarchiche scissorie

Tecniche gerarchiche aggregative Si costruisce la matrice delle distanza Si considerano all’inizio n gruppi = n unità Si aggregano i gruppi che risultano più vicini e, dopo ogni aggregazione, si ricalcola la matrice delle distanze Si reitera il processo fino a n-1 volte, ossia fino a formare un unico gruppo La rappresentazione grafica di questi passaggi si chiama dendogramma Sarà il ricercatore a scegliere la partizione di gruppi migliore

Criterio di aggregazione I criteri di aggregazione possono essere di vario tipo: Criterio del legame singolo: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un nuovo gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo formato e i gruppi sarà data dalla distanza minore tra le distanze dei gruppi che si sono aggregati. Criterio del legame completo: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo e i gruppi sarà data dalla distanza maggiore tra le distanze dei gruppi che si sono aggregati.

Criterio di aggregazione I criteri di aggregazione possono essere di vario tipo: Criterio del legame medio: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. Per determinare la distanza tra i gruppi si calcola la media delle distanze tra tutte le coppie (considerate una sola volta) di casi che appartengono ai gruppi. Es. gruppo formato da AB e gruppo formato da CD, la distanza sarà la media tra le distanze (A da C), (A da D), (B da C), (B da D).

Criterio di aggregazione Criterio della media dentro i gruppi: unisce i gruppi facendo si che la distanza media tra tutti i casi a due a due interni ad un gruppo sia la minore possibile. Criterio della mediana: calcola la mediana all’interno di ogni gruppo; la distanza tra i gruppi è pari alla distanza tra le mediane dei gruppi Criterio di Ward: ogni nuova aggregazione porta una aumento della varianza per ogni variabile. Si aggregano quindi i casi che minimizzano questo incremento di varianza. Criterio del centroide: per ogni gruppo si calcola il centroide (baricentro) che è la media delle coordinate di tutti i casi che fanno parte del gruppo: si calcola la distanza tra i centroidi.

Vantaggi e svantaggi tecniche gerarchiche Danno una visione di insieme dei casi Non richiedono una scelta a priori del numero di gruppi, posso scegliere in un secondo tempo il numero Non possono trattare gran numero di casi Non è possibile scindere i gruppi una volta che si sono formati

Tecniche di aggregazione non gerarchiche Le tecniche non gerarchiche, dette anche a partizioni ripetute, conducono direttamente da n casi a k gruppi, con k fissato a priori. Si possono usare tecniche migliorative di riallocazione delle unità. Il ricercatore stabilisce a priori la partizione iniziale, imponendo i centri dei gruppi iniziali. Se la nuvola di punti unità presenta dei cluster naturali (cioè dei gruppi separati tra loro) è facile definire e indicare i gruppi di partenza. In caso contrario (solitamente il più frequente) si possono scegliere casualmente i centri di partenza. Se non esistono cluster naturali è meglio procedere con delle tecniche esplorative iniziali per vedere le relazioni tra i gruppi.

Tecniche di aggregazione non gerarchiche Le tecniche per spostare casi da un gruppo all’altro sono: Tecniche di aggregazione intorno a centri mobili (o k-medie): si calcolano i centroidi dei gruppi e si spostano via via le unità che si trovano più vicine ad un centroide di un altro gruppo. Il procedimento di interrompe quando non ci sono più spostamenti. Tecniche delle nuvole dinamiche: è simile al precedente soltanto che invece di definire il gruppo con un solo punto, ossia il centroide, si definisce il gruppo in base ad un nucleo centrale costituito da più casi e individuato a priori perché significativo del gruppo. Tecniche che si basano sull’ottimizzazione di una funzione obiettivo: si realizzano gli spostamenti tra unità nei gruppi fino a quando si registra un miglioramento nella funzione obiettivo. Le funzioni obiettivo servono a costituire gruppi il più possibile omogenei al loro interno, ossia dove sia minima la varianza, mentre sia massima l’eterogeneità tra i gruppi e quindi la varianza tra i gruppi (la varianza totale del collettivo esaminato è data dalla varianza interna ai gruppi più la varianza esterna)

Vantaggi e svantaggi tecniche non gerarchiche Possono trattare grandi matrici di dati Bisogna determinare a priori il numero di gruppi

operativamente Quando si ha una matrice di dati in cui le unità non sono gli individui ma sono ad esempio, le regioni, i comuni, gli stati ecc. si parla di dati su unità ecologiche e si parla di tipologie macro. Il ricercatore ha in questo caso molte notizie in più che possono indirizzarlo nell’analisi Quando si ha una matrice di dati in cui le unità sono gli individui si parla di tipologia micro. La lettura micro e macro dei risultati è leggermente diversa

Lettura dei risultati Per ogni gruppo si individuano: a livello macro - le unità che ne fanno parte; a livello micro – la % di individui nel gruppo Si individuano per ogni gruppo le caratteristiche peculiari del gruppo attraverso le seguenti frequenze: La percentuale Mod/Cla cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento al numero di casi nel gruppo; La percentuale Cla/Mod cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento a quanti la presentano nel collettivo totale; La percentuale Global cioè la % della modalità nel collettivo.