Analisi delle corrispondenze

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Rappresentazione tabellare dei dati
STATISTICA DESCRITTIVA
Capitolo 8 Sistemi lineari.
Cinematica diretta Un manipolatore è costituito da un insieme di corpi rigidi (bracci) connessi in cascata tramite coppie cinematiche (giunti). Si assume.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi Fattoriale Esplorativa
Descrizione dei dati Metodi di descrizione dei dati
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Gli errori nell’analisi statistica
C – Indici di Asimmetria e Curtosi
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.
ALBERI DECISIONALI prima parte
Analisi della varianza (a una via)
Sistemi di equazioni lineari
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi dei gruppi – Cluster Analisys
Misurazione Le osservazioni si esprimono in forma di misurazioni
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Quale valore dobbiamo assumere come misura di una grandezza?
Regressione Logistica
MOMENTI DI SECONDO ORDINE
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
La programmazione lineare
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Associazione tra due variabili
Le rappresentazioni grafiche
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Gli indici di dispersione
La statistica.
Accenni di analisi monovariata e bivariata
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Il residuo nella predizione
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
EPG di Metodologia della ricerca e Tecniche Multivariate dei dati A.A
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
Luoghi di punti In geometria il termine
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
Gli Indici di VARIABILITA’
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Transcript della presentazione:

Analisi delle corrispondenze È una tecnica che permette una rappresentazione sintetica di un numero elevato di variabili in un numero ridotto di nuovi costrutti chiamati fattori. La sintesi avviene attraverso la combinazione delle variabili di partenza. Scopo è semplificare un insieme ricco e complesso di dati. Le variabili che si usano per l’analisi delle corrispondenze semplici o binarie (e multipla) sono variabili categoriali. Se sono presenti variabili quantitative bisogna ridurle in classi cioè trasformarle in variabili qualitative ordinabili

Analisi delle corrispondenze semplici Il caso più semplice di AC: ho 2 variabili categoriali con un numero elevato di modalità inserite in una tabella di contingenza Requisito: presenza di valori positivi nelle celle Obiettivo: analisi della dipendenza fra le modalità delle due variabili. Si studia la somiglianza o la diversità tra le modalità attraverso la costruzione dei profili riga (frequenze relative di riga) e dei profili colonna (frequenze relative di colonna)

Analisi delle corrispondenze semplici I profili (riga o colonna) si considerano le coordinate di uno spazio a più dimensioni pesate però per la rispettiva massa data dalla frequenza relativa (in questo caso facendo l’analisi sui profili riga, ossia come unità le testate e come variabile i tipi di articoli, la massa sarà data dalla percentuale di articoli scritti) I profili riga: posso proiettarli in un piano a c dimensioni (dove c = numero di modalità della variabile in colonna) Il profilo riga medio (quello calcolato sul totale) è il baricentro della nuvola di punti che si staglia sull’iperpiano (spazio a più dimensioni) Andremo a calcolare le distanze tra i profili riga e il profilo riga medio attraverso una metrica della distanza: utilizziamo la distanza del chi- quadrato χ2 che tiene conto anche del peso (massa) delle modalità

Analisi delle corrispondenze semplici Scopo è sintetizzare in uno spazio a meno dimensioni (2 massimo 3) la nuvola di punti. Le due (max 3) dimensioni nuove dovranno essere dei fattori che intersecano meglio la nuvola di punti, cioè si individua un sottospazio ottimale che consente di rappresentare al meglio le distanze tra i profili riga e il profilo medio attraverso l’individuazione di fattori che esprimono il massimo della variabilità espressa dalle variabili originarie. Lo spazio migliore è quello che massimizza l’inerzia (o variabilità) iniziale

La scelta dei fattori Nuovi fattori (che sono combinazione lineare dei profili riga di partenza): per ogni fattori viene indicato quanta inerzia riescono a riprodurre. Il massimo numero di fattori prodotto è uguale al numero delle modalità. Se utilizzassi tutti i fattori avrei riprodotto il 100% della variabilità. Quanta variabilità riprodotta accetto? Identifico una soglia a priori (solitamente il 70% di inerzia) Scelgo un numero fisso di fattori (ad esempio 2) Prendo solo valori di inerzia spiegata maggiori della media Utilizzo lo scree test, baso la scelta sul grafico

Lettura dei risultati Per ogni fattore scelto ho degli indici statistica calcolati in base alle variabili di partenza che hanno contribuito a crearlo Contributo assoluto: rappresenta la parte di inerzia del fattore dovuta alla modalità di riferimento. Per ogni fattore la somma di tutti i contributi assoluti è uguale a 100. il contributo assoluto di una modalità è proporzionale alla sua massa. Si valuta quanto una modalità ha influenzato il fattore in esame.

Lettura dei risultati Contributo relativo (o coseno quadrato): permette di valutare il contributo che un fattore fornisce alla riproduzione della dispersione (inerzia) di ogni modalità. Se è basso la modalità non è ben rappresentata dal fattore, se è alto è vero il contrario.

Lettura dei risultati Coordinata fattoriale: stabiliscono la posizione della modalità sul fattore e possono avere segno positivo e negativo. Il valore 0 rappresenta la media delle coordinate sul fattore. Più il valore è distante dallo 0 più la modalità è significativa per il fattore.

Analisi delle corrispondenze multiple L’analisi delle corrispondenze multiple (ACM) consente di ridurre la rappresentazione delle osservazioni da uno spazio a k dimensioni ad uno spazio a k* dimensioni in cui k* k, procedendo per combinazioni lineari di variabili e avendo come obiettivo la minor perdita di variabilità possibile. Le k* dimensioni costituiscono dei fattori ciascuno dei quali sintetizza un aspetto dell’insieme multivariato di informazione raccolta eliminando al tempo stesso la ridondanza di informazione. L’ACM richiede la costruzione di una matrice disgiunta dei dati, essendo stata ideata per essere applicata a variabili di qualsiasi scala (anche nominale). Per questo motivo l’ACM è particolarmente utile quando si abbiano dati qualitativi.

Analisi delle corrispondenze multiple Per ogni variabile categoriale si definisce un insieme di nuove variabili dette variabili indicatrici che assumono valori 0/1 di presenza o assenza. Con una semplice operazione algebrica i software trasformano la matrice dei dati nella matrice di Burt o matrice delle corrispondenze multiple che è una distribuzione multipla di frequenze: contiene tutte le tabelle di contingenze che si possono ottenere incrociando tutte le variabili immesse nell’analisi. L’analisi prosegue sulla matrice di Burt.

Scelta delle variabili Le variabili possono essere attive nell’analisi e contribuire alla formazione dei fattori oppure illustrative, proiettate sui piani fattoriali, ma non inserite all’inizio dell’analisi (cioè non contribuiscono alla formazione degli assi) Nell’analisi delle corrispondenze multiple (e non nell’ac) la vicinanza tra modalità di variabili diverse può essere interpretata in termine di associazione tra variabili.

Configurazioni grafiche Ci sono alcune configurazioni grafiche tipiche: A forma di ellisse intorno all’asse principale (al primo fattore) Con nuvole separate: gli insieme non si compenetrano, si può fare una analisi separata tra due insiemi distinti A ferro di cavallo, a parabola: il secondo fattore incide poco A triangolo Si possono inserire anche le traiettorie sulle modalità della stessa variabile

Critiche: Emerge ciò che è facilmente vedibile già dai dati grezzi Producono risultati instabili (i dati anomali rischiano di influenzare il modello) Sono tecniche esplorative Possibili soluzioni: Eliminazione dei casi anomali Riclassificazione di alcune variabili per ridurre le modlaità con pochi valori Avere matrici di dati abbastanza grandi