L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

STRUTTURA DELL'ATOMO Protoni (p+) Neutroni (n°) Elettroni (e­) Gli atomi contengono diversi tipi di particelle subatomiche.
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Variabili casuali a più dimensioni
Il concetto di misura.
Descrizione dei dati Metodi di descrizione dei dati
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
TEORIA RAPPRESENTAZIONALE DELLA MISURA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
Processi Aleatori : Introduzione – Parte I
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Misurazione Le osservazioni si esprimono in forma di misurazioni
“Teoria e metodi della ricerca sociale”
MOMENTI DI SECONDO ORDINE
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Accenni di analisi monovariata e bivariata
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Il residuo nella predizione
Martina Serafini Martina Prandi
Il trattamento statistico dei dati
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Elaborazione statistica di dati
NB: La lettura delle slide è solo un supporto allo studio che non sostituisce i testi di esame Metodi e tecniche della ricerca sociale - Prof. Flavio Ceravolo.
Corso di Laurea in Scienze e tecniche psicologiche
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
L’Acl nel caso America’s Cup Napoli UNIVERSITÀ DEGLI STUDI DI NAPOLI “FEDERICO II” Dipartimento di Scienze Sociali Corso di Laurea Magistrale in Comunicazione.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
ARGOMENTI DELLA LEZIONE  Le distribuzioni di frequenza in classi  Le distribuzioni di frequenza in classi  Le tabelle di frequenza  La rappresentazione.
Analisi delle osservazioni
Multidimensionale dei Dati
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis

L’analisi dei dati Analisi delle corrispondenze multiple: tipo di analisi fattoriale basato sulla costruzione di nuove variabili “sintetiche” (dette fattori), ottenute da combinazioni delle variabili originarie Tratta variabili categoriali e/o ordinali

L’analisi dei dati Fu introdotta intorno agli anni Settanta da J.P. Benzecri (1973) per lo studio di tabelle di contingenza generate dall’incrocio di due variabili qualitative, nominali e/o ordinali. In seguito fu estesa ai casi con un numero qualsiasi di variabili. Attualmente è tra le più potenti tecniche per l’analisi descrittiva di dati qualitativi

Tipi di proprietà Diversi tipi di proprietà su cui è possibile applicare determinate operazioni di ricerca e determinate procedure di analisi dei dati e non altre. Proprietà discrete Proprietà continue

Tipi di proprietà Proprietà discreta: assume un numero finito di stati nettamente distinti l’uno dall’altro (ad es. genere sessuale, titolo di studio, ecc.) Proprietà continua: assume teoricamente un numero infinito di stati lungo un ideale continuum che va da un minimo ad un massimo d’intensità con cui la proprietà si presenta nei casi in esame (ad es. atteggiamento nei confronti della pubblicità, grado di accordo/disaccordo, grado di soddisfazione)

Tipi di proprietà Proprietà discreta categoriale: presenta un numero finito e, generalmente limitato, di stati non ordinabili lungo una determinata dimensione concettuale La variabile categoriale costruita per questa proprietà avrà modalità che corrispondono a categorie non ordinate, a ciascuna delle quali viene attribuito un valore numerico per designarla in base alla sola condizione che questo valore sia diverso da quello attribuito alle altre.

Tipi di proprietà Possono essere stabilite relazioni di uguaglianza tra i casi che presentano la stessa modalità e relazioni di diversità tra i casi che presentano invece modalità differenti Esempi Genere sessuale: 1.maschio2. femmina Stato civile: 1. celibe/nubile 2. sposato/a 3. separato/a 4. divorziato/a 5. vedovo/a

Tipi di proprietà Proprietà discreta ordinale: presenta anch’essa un numero finito e generalmente limitato di stati che però possono essere ordinati lungo una certa dimensione concettuale. La variabile ordinale costruita per questa proprietà avrà dunque modalità che corrispondono a categorie ordinate alle quali viene attribuito un valore non che ha soltanto la funzione di designarle, ma anche quella di indicarne la posizione nell’ordinamento rappresentato dall’insieme di tutte le categorie.

Tipi di proprietà E’ in questo caso possibile stabilire relazioni del tipo maggiore-minore Esempio Titolo di studio: 1.Licenza elementare 2.Licenza di scuola media inferiore 3.Licenza di scuola media superiore 4.Laurea 5.Dottorato/specializzazioni post-lauream

Tipi di variabili Tre classi di variabili: Variabili nominali Variabili ordinali Variabili cardinali Distinzione che dipende dalla natura delle operazioni empiriche effettuate per operativizzare gli stati della proprietà nel momento della sua traduzione in variabile

L’analisi dei dati La matrice di partenza (“casi x variabili”) viene successivamente trasformata in matrice logico- disgiuntiva completa (casi x modalità associate alle variabili) matrice di Burt o matrice delle corrispondenze multiple (modalità x modalità)

L’analisi dei dati (matrice c x v)

L’analisi dei dati (matrice logico-disgiuntiva completa)

L’analisi dei dati (matrice di Burt)

L’analisi dei dati

L’analisi dei dati (matrice dei profili-riga)

L’analisi dei dati (matrice di Burt)

L’analisi dei dati Infine, viene analizzata la dispersione di ciascuna linea (profilo-riga o profilo-colonna) rispetto ai totali marginali, tramite il calcolo della distanza (ponderata) al quadrato tra due profili

L’analisi dei dati Punto di vista geometrico Nello spazio generato da q modalità si possono rappresentare gli n profili sotto forma di una nuvola di punti (soggetti) Ogni soggetto è rappresentato da un punto che ha come coordinate i q elementi del suo profilo-riga

L’analisi dei dati

Scopo dell’analisi è individuare un sottospazio di dimensioni ridotte (spazio a k dimensioni, con k < q) che ha come origine il centro di gravità della nuvola dei punti e come assi fattoriale le k dimensioni tra loro ortogonali, in grado di riprodurre il più possibile della varianza originaria (inerzia)

L’analisi dei dati Passando dalle q modalità, che originavano lo spazio a q dimensioni, a un numero ridotto di k nuove variabili (fattori), che originano uno spazio a k dimensioni, la perdita di informazione deve essere minima

L’analisi dei dati Una volta individuati gli assi fattoriali, per la rappresentazione dei punti modalità su di essi si utilizzano le “coordinate fattoriali”, generate in funzione delle associazioni tra le variabili (l’analisi di questa struttura è basata sulle “distanze” tra i punti nello spazio fattoriale appropriato)

L’analisi dei dati Il sottospazio a k dimensioni sarà quindi costituito dai primi k assi fattoriali che soddisfano le seguenti condizioni: sono tra loro ortogonali (ovvero indipendenti) sono combinazioni delle modalità dalle quali parte l’analisi spiegano ciascuno, in ordine decrescente, il massimo della variabilità della matrice originale dei dati

L’analisi dei dati La quota di inerzia spiegata da ciascun fattore è denominato autovalore Con q modalità è possibile estrarre fino a q fattori 25

L’analisi dei dati Il primo fattore è la “migliore” approssimazione della matrice dei dati di partenza; l’autovalore ad esso associato è il più alto tra tutti gli autovalori Il secondo fattore è la seconda migliore approssimazione e spiega la seconda quota di inerzia totale e così via 26

L’analisi dei dati Il differente ruolo delle variabili: variabili attive che entrano direttamente nell’analisi, concorrendo alla formazione degli assi fattoriali variabili supplementari o illustrative che sono escluse dall’analisi vera e propria ma che vengono successivamente utilizzate per interpretare alcuni aspetti dei fattori considerati 27

L’analisi dei dati Al fine di interpretare il significato dei fattori si utilizzano alcuni parametri che permettono di valutare l’importanza che ogni variabile attiva, con le relative modalità, riveste nella formazione dei fattori stessi: massa (o peso relativo) di ciascuna modalità, data dal rapporto tra la frequenza della modalità e il numero totale di variabili attive 28

L’analisi dei dati indice di distorsione (o distanza dall’origine) di ciascuna modalità, dà informazioni sul carattere “periferico” di certe modalità; di solito a valori alti di questo indice corrisponde una massa debole e quindi una scarsa rilevanza della modalità stessa (e viceversa) contributo assoluto di una modalità, rappresenta la parte d’inerzia totale del fattore spiegata dalla variabile, o modalità, cui si riferisce 29

L’analisi dei dati coseno quadrato di una modalità, permette di valutare il contributo che un certo fattore F fornisce alla spiegazione della variabilità della modalità; se questo contributo è basso, vuol dire che la modalità in questione non è ben rappresentata sull’asse fattoriale e la sua variabilità è spiegata da altre dimensioni coordinate fattoriali di una modalità, ne stabiliscono la posizione sugli assi, sia in termini di distanza dal centro, sia in termini 30

L’analisi dei dati versante positivo o negativo dell’asse considerato; le modalità che presentano valori alti nelle coordinate fattoriali sono quelle che, di solito, contribuiscono maggiormente alla formazione dell’asse stesso; attenzione però all’effetto “modalità rara”: un elemento può essere tanto più distante dall’origine quanto più bassa è la relativa frequenza marginale 31

L’analisi dei dati Per verificare se una modalità illustrativa occupa una posizione rilevante su un asse fattoriale si calcola il valore-test, che controlla la significatività dell’associazione tra una variabile/modalità e un fattore. Il valore-test è calcolato rispetto alla distribuzione normale standardizzata (sono significativi al livello di probabilità del 5% i coefficienti maggiori di 2 in valore assoluto) 32

L’analisi dei dati L’ACM permette l’analisi grafica dei piani costituiti dagli assi fattoriali considerati due a due. Su questi piani si possono proiettare le variabili/modalità e/o i casi, sotto forma di una nuvola di punti, utilizzando le loro coordinate fattoriali. Valutando le posizioni dei punti rispetto agli assi e le distanze tra i punti stessi si può desumere la struttura delle relazioni fra le variabili/modalità e fra queste e i fattori 33

L’analisi dei dati In generale, si può ritenere che più un punto è lontano dall’origine di un asse, maggiore è il suo contributo alla formazione dell’asse stesso, e che più elevata è la prossimità tra due variabili/modalità maggiore è l’attrazione fra loro 34

L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” 35

L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” 36

L’analisi dei dati 37

L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” 38

L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” 39

L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” 40