Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.

Slides:



Advertisements
Presentazioni simili
Analisi dei gruppi – Cluster Analisys
Advertisements

Forme di governo e sistemi elettorali I modelli. Sistemi elettorali proporzionali Criterio ispiratore: - Le forze politiche che partecipano alle elezioni.
I metodi di Classificazione automatica
2a + 10b abx2 3a + 1 y 2 a + 1 x + 2y a − Espressioni algebriche
Unità di apprendimento 6 Dal problema al programma.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
1 Elementi DI INFORMATICA Università degli Studi di Cagliari Corso di Laurea in Ingegneria Elettronica Linguaggio C A.A. 2011/2012
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Tecnica AID Dal Database N, ossia quello dell’intero campione, vado a individuare il database degli f. Il database degli f lo ottengo inserendo nella.
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Il trattamento statistico dei dati
© 2007 SEI-Società Editrice Internazionale, Apogeo
Analisi monovariata: frequenze
Le operazioni relazionali
Statistica Prima Parte I Dati.
Il trattamento statistico dei dati
Dal problema al processo risolutivo
x : variabile indipendente
(7x + 8x2 + 2) : (2x + 3) 8x2 + 7x + 2 2x + 3 8x2 + 7x + 2 2x + 3 4x
Informazioni generali
4 < 12 5 > −3 a < b a > b a ≤ b a ≥ b
DIRIGERE L’INNOVAZIONE
L’analisi del comportamento delle imprese (seconda parte)
Dal problema al processo risolutivo
Basi di Dati: Introduzione
x : variabile indipendente
Unità di apprendimento 7
Insiemi di punti: altre caratteristiche
Strutture di controllo
Corso di Laurea in Scienze e tecniche psicologiche
FORMULE E FUNZIONI SU EXCEL
La Statistica si occupa dei modi
Tipo di dato: array Un array è un tipo di dato usato per memorizzare una collezione di variabili dello stesso tipo. Per memorizzare una collezione di 7.
il problema dei problemi
INTERVENTO EDUCATIVO SUL COMPORTAMENTO PROBLEMA - 1
La Statistica Istituto Comprensivo “ M. G. Cutuli”
SAS® OnDemand for Academics SAS Studio
Università degli Studi di Teramo Facoltà di Agraria
I MONOMI.
Ammortamento anticipato
L’indagine statistica
Programmare.
PRIMA PARTE DEL PRIMO PROGETTO DI DIDATTICA DELLA MATEMATICA
Progettazione concettuale
Strutture di Controllo
Gli automi.
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
La formulazione delle politiche pubbliche
Viale Morgagni 67/A Firenze
Ricorsione 16/01/2019 package.
© 2007 SEI-Società Editrice Internazionale, Apogeo
Lezione N° 6 L’organizzazione
A cura di Cristiana ricci Ufficio formazione Cgil Genova
Lezione N° 6 L’organizzazione
Scrutini a.s Analisi dei risultati
…la contabilità generale si basa sull’uso del conto.
Fogli di Calcolo Elettronici
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Unità 1 Programmi base.
Esempi di network analysis
Matrici e determinanti
Lezione N° 6 L’organizzazione
Algoritmi.
Lezione N° 6 L’organizzazione
Corso di Fondamenti di Informatica
1Il processo produttivo
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Transcript della presentazione:

Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare un insieme di classi Marradi (1990) propone di distinguere, dal punto di vista terminologico, il procedimento dal prodotto, adottando il termine schema di classificazione per indicare il risultato del processo di classificazione (ossia l’elenco delle classi individuate)

Cluster Analysis La classificazione basata su un unico fondamento della divisione deve rispettare i principi della mutua esclusività (in base alla quale un oggetto non può essere assegnato a due classi) e dell’esaustività (ogni oggetto, nessuno escluso, deve poter essere assegnato ad una classe)

Cluster Analysis Obiettivo della tecnica: assegnare i casi della matrice dei dati a un numero ristretto di tipi o gruppi, massimizzando l’omogeneità fra i casi collocati all’interno dei gruppi e l’eterogeneità tra i casi collocati in gruppi diversi

Cluster Analysis Rispetto a che cosa viene valutata l’omogeneità/eterogeneità? Insieme di variabili usate con funzione discriminatoria

Cluster Analysis La scelta delle variabili-criterio è il momento fondamentale di ogni procedura di CA Differenti variabili-criterio produrranno differenti tipologie Per giungere a risultati soddisfacenti, di solito, non è sufficiente un flusso lineare dall’input all’output, ma ce ne vuole uno circolare (input, output, input, ecc.)

Cluster Analysis L’obiettivo è anche quello di ridurre in maniera controllata e di sintetizzare delle informazioni raccolte Differenza ACM e CA: La prima viene utilizzata per sintetizzare le variabili (colonne della matrice dei dati), mentre la seconda per sintetizzare i casi (righe della matrice dei dati)

Cluster Analysis Di solito (e con il software SPAD è obbligatorio), è prassi comune effettuare una CA solo dopo aver ridotto l’insieme delle variabili con tecniche quali ACP o ACM Ciò permette una semplificazione del processo e l’eliminazione della ridondanza che di solito è presente nella matrice dei dati

Cluster Analysis Si ottiene così la massima economia di rappresentazione dei risultati della ricerca

Cluster Analysis Le tecniche di clustering: gerarchiche non gerarchiche

Cluster Analysis Le tecniche gerarchiche producono una sequenza di partizioni in tipi secondo un ordine gerarchico fino ad massimo di n-1 iterazioni (con n uguale al numero dei casi). Esse procedono per aggregazioni successive a partire da un numero di n gruppi unitari (tanti quanti sono i casi da aggregare) fino ad arrivare ad un unico gruppo che aggrega tutti i casi (oppure per scissioni successive partendo da un unico gruppo per arrivare a n gruppi con un solo individuo)

Cluster Analysis Nelle tecniche gerarchiche, un cluster formato non si separa più, si può solo unire ad altri casi o ad altri gruppi già formati Possono inoltre essere suddivise in tecniche aggregative e scissorie

Cluster Analysis Le aggregative procedono nel modo seguente: si produce la matrice delle distanze o delle similarità si considerano n gruppi per n casi si aggregano successivamente i gruppi che risultano essere più vicini (secondo diversi criteri) e ogni volta si ricalcola la matrice delle distanze si ripete per n-1 volte

Cluster Analysis Un metodo gerarchico aggregativo produce quindi un certo numero di partizioni successive che vengono rappresentate graficamente in un dendrogramma (diagramma ad albero). Sarà il ricercatore a valutare e a scegliere la partizione più soddisfacente da utilizzare

Cluster Analysis Vantaggi tecniche gerarchiche: danno una visione d’insieme della struttura dei casi in termini di coefficienti di distanze non richiedono una scelta a priori del numero di gruppi da formare: questo si sceglie in un secondo momento dopo aver esaminato i risultati Limite: non trattano grandi matrici di dati e inscindibilità dei gruppi via via che si formano

Cluster Analysis

Cluster Analysis Group/Categories (Grp/Cat), o esclusività della classe: indica la percentuale di casi con la modalità considerata sul totale del campione, che rientrano nel cluster Categories/Group (Cat/Grp), o omogeneità interna alla classe: indica la percentuale di casi, sul totale del cluster, con la modalità considerata Global: indica la percentuale di ciascuna modalità sul totale dei casi

Cluster Analysis: esempio I cinque cluster finali sono stati così denominati: 1) “La sensualità” (201 annunci pari al 40,94% degli annunci totali); 2) “L’intimità” (56 annunci pari all’11,41% degli annunci totali ; 3) “Il prodotto” (41 annunci pari all’8,35% degli annunci totali); 4) “Il piacere di piacersi” (88 annunci pari al 17,92% degli annunci totali); 5) “Provare per credere” (105 annunci pari al 21,38% degli annunci totali)

Cluster Analysis