Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare un insieme di classi Marradi (1990) propone di distinguere, dal punto di vista terminologico, il procedimento dal prodotto, adottando il termine schema di classificazione per indicare il risultato del processo di classificazione (ossia l’elenco delle classi individuate)
Cluster Analysis La classificazione basata su un unico fondamento della divisione deve rispettare i principi della mutua esclusività (in base alla quale un oggetto non può essere assegnato a due classi) e dell’esaustività (ogni oggetto, nessuno escluso, deve poter essere assegnato ad una classe)
Cluster Analysis Obiettivo della tecnica: assegnare i casi della matrice dei dati a un numero ristretto di tipi o gruppi, massimizzando l’omogeneità fra i casi collocati all’interno dei gruppi e l’eterogeneità tra i casi collocati in gruppi diversi
Cluster Analysis Rispetto a che cosa viene valutata l’omogeneità/eterogeneità? Insieme di variabili usate con funzione discriminatoria
Cluster Analysis La scelta delle variabili-criterio è il momento fondamentale di ogni procedura di CA Differenti variabili-criterio produrranno differenti tipologie Per giungere a risultati soddisfacenti, di solito, non è sufficiente un flusso lineare dall’input all’output, ma ce ne vuole uno circolare (input, output, input, ecc.)
Cluster Analysis L’obiettivo è anche quello di ridurre in maniera controllata e di sintetizzare delle informazioni raccolte Differenza ACM e CA: La prima viene utilizzata per sintetizzare le variabili (colonne della matrice dei dati), mentre la seconda per sintetizzare i casi (righe della matrice dei dati)
Cluster Analysis Di solito (e con il software SPAD è obbligatorio), è prassi comune effettuare una CA solo dopo aver ridotto l’insieme delle variabili con tecniche quali ACP o ACM Ciò permette una semplificazione del processo e l’eliminazione della ridondanza che di solito è presente nella matrice dei dati
Cluster Analysis Si ottiene così la massima economia di rappresentazione dei risultati della ricerca
Cluster Analysis Le tecniche di clustering: gerarchiche non gerarchiche
Cluster Analysis Le tecniche gerarchiche producono una sequenza di partizioni in tipi secondo un ordine gerarchico fino ad massimo di n-1 iterazioni (con n uguale al numero dei casi). Esse procedono per aggregazioni successive a partire da un numero di n gruppi unitari (tanti quanti sono i casi da aggregare) fino ad arrivare ad un unico gruppo che aggrega tutti i casi (oppure per scissioni successive partendo da un unico gruppo per arrivare a n gruppi con un solo individuo)
Cluster Analysis Nelle tecniche gerarchiche, un cluster formato non si separa più, si può solo unire ad altri casi o ad altri gruppi già formati Possono inoltre essere suddivise in tecniche aggregative e scissorie
Cluster Analysis Le aggregative procedono nel modo seguente: si produce la matrice delle distanze o delle similarità si considerano n gruppi per n casi si aggregano successivamente i gruppi che risultano essere più vicini (secondo diversi criteri) e ogni volta si ricalcola la matrice delle distanze si ripete per n-1 volte
Cluster Analysis Un metodo gerarchico aggregativo produce quindi un certo numero di partizioni successive che vengono rappresentate graficamente in un dendrogramma (diagramma ad albero). Sarà il ricercatore a valutare e a scegliere la partizione più soddisfacente da utilizzare
Cluster Analysis Vantaggi tecniche gerarchiche: danno una visione d’insieme della struttura dei casi in termini di coefficienti di distanze non richiedono una scelta a priori del numero di gruppi da formare: questo si sceglie in un secondo momento dopo aver esaminato i risultati Limite: non trattano grandi matrici di dati e inscindibilità dei gruppi via via che si formano
Cluster Analysis
Cluster Analysis Group/Categories (Grp/Cat), o esclusività della classe: indica la percentuale di casi con la modalità considerata sul totale del campione, che rientrano nel cluster Categories/Group (Cat/Grp), o omogeneità interna alla classe: indica la percentuale di casi, sul totale del cluster, con la modalità considerata Global: indica la percentuale di ciascuna modalità sul totale dei casi
Cluster Analysis: esempio I cinque cluster finali sono stati così denominati: 1) “La sensualità” (201 annunci pari al 40,94% degli annunci totali); 2) “L’intimità” (56 annunci pari all’11,41% degli annunci totali ; 3) “Il prodotto” (41 annunci pari all’8,35% degli annunci totali); 4) “Il piacere di piacersi” (88 annunci pari al 17,92% degli annunci totali); 5) “Provare per credere” (105 annunci pari al 21,38% degli annunci totali)
Cluster Analysis