ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

LA VARIABILITA’ IV lezione di Statistica Medica.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
COORDINATE POLARI Sia P ha coordinate cartesiane
La teoria di portafoglio: cap.7-9
Variabili casuali a più dimensioni
Lez. 3 - Gli Indici di VARIABILITA’
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
C – Indici di Asimmetria e Curtosi
La logica della ricerca sociale
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Esercizio 1 In una indagine statistica si vuole rilevare il numero di cellulari posseduti dagli studenti iscritti alla facoltà di economia. Si dica: -
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Teoria e Tecniche del Riconoscimento
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
ANALISI DEI GRUPPI seconda parte
ALBERI DECISIONALI prima parte
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
COVARIANZA e CORRELAZIONE.
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
Similarità, distanza, associazione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Lez. 3 - Gli Indici di VARIABILITA’
Scomposizione della devianza
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Gli Indici di VARIABILITA’
accertamento e valutazione degli esiti di apprendimento
Statistica La statistica è
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Altri coefficienti di correlazione
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
STATISTICHE DESCRITTIVE
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
EPG di Metodologia della ricerca e Tecniche Multivariate dei dati A.A
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Gli Indici di VARIABILITA’
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Transcript della presentazione:

ANALISI DEI GRUPPI I

La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.

Impieghi della Cluster Analysis  segmentazione del mercato  analisi della concorrenza

La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate

Punto di partenza di ogni applicazione di Cluster Analysis è la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili

La matrice dei dati X = x 11 x 12 … x 1p x 21 x 22 … x 2p …... x n1 x n2 … x np

Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a p dimensioni.

Fasi del processo di segmentazione

 selezione degli elementi del collettivo  scelta delle variabili ed eventuale trasformazione  scelta del criterio di valutazione della dissomiglianza  scelta dell'algoritmo di raggruppamento  determinazione del numero di gruppi

Scale di misurazione delle variabili:  nominale  ordinale  ad intervallo  a rapporti

Contributo informativo delle variabili

 variabili quantitative: coefficiente di correlazione di Bravais- Pearson  variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini  variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi

Trattamento preliminare delle variabili

Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza

Standardizzazione (variabili quantitative)

xixi xixi zizi zizi xx xx       dove z i è il valore della variabile standardizzata per l'unità i-ma, x i è il valore originario della variabile per l'unità i-ma,  è la media aritmetica del carattere  x è lo scarto quadratico medio

misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa Coefficienti di associazione

Tabella tetracorica individuo j individuo i a a 0 0 c c 0 0 b b d d

Misure di associazione: A A coefficiente di Jaccard B B coefficiente di Dice c c b b a a a a J s ij           c c b b 2a D s ij  

Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower: Œ Œ   p p k=1 ij G G w k s kij s s Œ Œ p p k=1 wkwk wkwk

dove s kij è un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j

con R k che è il campo di variazione della variabile k w k è un peso arbitrario RkRk RkRk x ik     1 1 x jk

Esempio di calcolo dei coefficienti di associazione Variabili Unità i Unità j

Tabella tetracorica individuo j individuo i

Coefficiente di Jaccard = 1/2 Coefficiente di Dice = 2/3 Coefficiente di associazione semplice = 3/5

Per i dati di tipo quantitativo si ricorre alle distanze

Una distanza possiede le seguenti proprietà: identità d ii = 0 simmetria d ij = dji non negatività d ij ≥ = 0 disuguaglianza triangolare d il + d lj ≤ = d ij

Distanza di Minkowski Per r = 2 si ha la distanza euclidea     p p k=1 r d ij x ik - x jk r r 1/r   2 d ij   p p k=1 x ik - x jk 2 2 1/r

Distanza di Mahalanobis in cui s hk indica il generico elemento della matrice inversa delle varianze- covarianze tra le p variabili     p p k=1 d ij (x ik - x jk ) (x ih - x jh ) 1/2   p p h=1 s hk