ANALISI DEI GRUPPI I.

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Advertisements

ANALISI DEI GRUPPI seconda parte
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Similarità, distanza, associazione
Gli indici di dispersione
Altri coefficienti di correlazione
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
I metodi di Classificazione automatica
Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.
1 Variabili. 2 Tipi di variabili Una variabile è qualche proprietà di un evento che è stata misurata. Le variabili sono attributi dei fenomeni e pertanto.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Il trattamento statistico dei dati
Precorso di Statistica per le Lauree Magistrali
LA STATISTICA DESCRITTIVA
Lezione 2 CARATTERI DEI DATI: approfondimento (Borra-Di Ciaccio, cap
Distribuzioni limite La distribuzione normale
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Il trattamento statistico dei dati
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Quantitative Market Research Set-up Protocol
L’analisi del comportamento delle imprese (seconda parte)
Indici di variabilità Gli indici di variabilità misurano
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Confronto tra diversi soggetti:
Accenni di analisi monovariata e bivariata
Classificazione dei dati
Precorso di Statistica per le Lauree Magistrali
Misurazione Raccolta sistematica e organizzata di elementi per
Misurazione Raccolta sistematica e organizzata di elementi per
Misurazione Raccolta sistematica e organizzata di elementi per
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Fisica: lezioni e problemi
L’analisi monovariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI IN COMPONENTI PRINCIPALI
Corso di Analisi Statistica per le Imprese 2
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Momenti e valori attesi
Disegno con il piano cartesiano
Misurazione Raccolta sistematica e organizzata di elementi per
Esercizi Sapendo che l’indicatore % di disoccupati in alcune province considerate varia da 1.74 a 28.15, applicando il metodo dei numeri indice utilizzato.
Confronto tra diversi soggetti:
Università degli Studi di Modena e Reggio Emilia
Quantitative Market Research Set-up Protocol
PROCEDURA per la misura e la relativa stima
Statistica descrittiva bivariata
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Raccolta sistematica e organizzata di elementi per
Riduzione dei Dati.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Precorso di Statistica per le Lauree Magistrali
Misurazione Raccolta sistematica e organizzata di elementi per
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Associazione tra due variabili
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Similarità e dissimilarità
Associazione tra variabili qualitative
13/11/
Transcript della presentazione:

ANALISI DEI GRUPPI I

La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.

Impieghi della Cluster Analysis segmentazione del mercato analisi della concorrenza analisi della concorrenza

La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate

Punto di partenza di ogni applicazione di Cluster Analysis è la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili

La matrice dei dati x11 x12 … x1p x21 x22 … x2p X = ... ... … ... xn1 xn2 … xnp

Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a p dimensioni.

Fasi del processo di segmentazione

selezione degli elementi del collettivo scelta delle variabili ed eventuale trasformazione scelta del criterio di valutazione della dissomiglianza scelta dell'algoritmo di raggruppamento determinazione del numero di gruppi

Scale di misurazione delle variabili: nominale ordinale ad intervallo a rapporti

Contributo informativo delle variabili

variabili quantitative: coefficiente di correlazione di Bravais- Pearson variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi

Trattamento preliminare delle variabili

Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza

Standardizzazione (variabili quantitative)

m è la media aritmetica del carattere xi zi sx m - = dove zi è il valore della variabile standardizzata per l'unità i-ma, xi è il valore originario della variabile per l'unità i-ma, m è la media aritmetica del carattere sx è lo scarto quadratico medio

Coefficienti di associazione misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

Tabella tetracorica individuo j individuo i 1 a c b d

Misure di associazione: coefficiente di Jaccard c b a Jsij + = B coefficiente di Dice + c b 2a Dsij =

Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower: Œ = p k=1 ij G wkskij s wk

dove skij è un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j

con Rk che è il campo di variazione della variabile k xik - 1 xjk con Rk che è il campo di variazione della variabile k wk è un peso arbitrario

Esempio di calcolo dei coefficienti di associazione Variabili Unità i Unità j 1 2 3 4 5

Tabella tetracorica individuo j individuo i 1 2

Coefficiente di Jaccard = 1/2 Coefficiente di Dice = 2/3 Coefficiente di associazione semplice = 3/5

Per i dati di tipo quantitativo si ricorre alle distanze

Una distanza possiede le seguenti proprietà: identità dii = 0 simmetria dij = dji non negatività dij ≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij

Per r = 2 si ha la distanza euclidea Distanza di Minkowski  = p k=1 rdij xik - xjk r 1/r Per r = 2 si ha la distanza euclidea = 2dij  p k=1 xik - xjk 2 1/r

Distanza di Mahalanobis  = p k=1 dij (xik - xjk) (xih - xjh) 1/2 h=1 shk in cui shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le p variabili