La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Modelli e strumenti della previsione sociale Stefano Nobile.

Presentazioni simili


Presentazione sul tema: "Modelli e strumenti della previsione sociale Stefano Nobile."— Transcript della presentazione:

1 Modelli e strumenti della previsione sociale Stefano Nobile

2 Modelli e strumenti della previsione sociale2 Modelli previsionali nelle scienze sociali La previsione richiede una struttura teorica sottostante. Per questo motivo, quando si parla di previsione nelle scienze sociali, il ricorso alle tecniche di analisi sarebbe insufficiente. Occorre fare riferimento ai modelli. Pur tuttavia, si danno casi in cui le opzioni di analisi dei dati indirizzano verso un ambito ibrido. Una delle strade più frequentate nellanalisi dei dati in senso previsionale è quello delle serie storiche, che implicano un assunto teleologico secondo il quale la variabile indipendente tempo implica determinati effetti sulla variabile dipendente. Il quadro complessivo di tecniche e modelli di analisi dei dati in senso previsionale può essere schematizzato come segue:

3 Modelli e strumenti della previsione sociale3 Modelli previsionali nelle scienze sociali Previsione (analisi dei dati) tecniche serie storiche modelli Analisi discriminante Regressione lineare e logistica Analisi dei percorsi Causali (path analisys) ibridi Reti neurali artificiali

4 Modelli e strumenti della previsione sociale4 Le serie storiche Gli ambiti dapplicazione sono i più disparati. Tra questi si possono citare levoluzione strutturale della mortalità infantile, il monitoraggio sanitario, laggiornamento sequenziale delle scorte, la previsione di aggregati economici e finanziari, il problema dei mutamenti climatici nel nostro pianeta (Piccolo, 1990: 11). Fra gli obiettivi più rilevanti delle serie storiche vanno ricordati: La previsione La simulazione Il controllo Lanalisi strutturale La ricerca di dati anomali Lanalisi econometrica Lindividuazione di componenti non osservabili La classificazione e la discriminazione Le rappresentazioni grafiche

5 Modelli e strumenti della previsione sociale5 Le serie storiche Una serie storica è una sequenza di intensità (o di frequenze) di uno stesso fenomeno rilevate in corrispondenza di tempi diversi. La variabilità del fenomeno è dunque osservata rispetto al tempo: esso riassume tutto ciò che induce modificazioni nel fenomeno di interesse; in altre parole, gli effetti dellevoluzione delle determinanti e di tutti i fenomeni concomitanti con quello oggetto di studio sono composti e sintetizzati in ununica informazione, il tempo. Da tale punto di vista, lo studio di una serie storica equivale allanalisi di una distribuzione doppia dove il carattere antecedente logico è il tempo e la variabile dipendente (effetto) il fenomeno considerato. Il tempo è una variabile continua. Tuttavia raramente losservazione di un fenomeno è registrata con continuità (s.s. continua, come, ad esempio, un pennino di un apparecchio che tracciasse su un nastro continuo la temperatura istante per istante); quasi sempre, invece, il fenomeno viene registrato in una sequenza discreta di istanti o di intervalli di tempo (s.s. discreta), generalmente equispaziati (ad esempio, serie storiche annuali, mensili, giornaliere).

6 Modelli e strumenti della previsione sociale6 Le serie storiche Lanalisi delle serie storiche è rivolta essenzialmente allo studio dellandamento delle intensità del fenomeno osservato rispetto al tempo, per cercare di comprendere il meccanismo generatore ditale andamento, al fine di formulare previsioni sui livelli che il fenomeno assumerà in futuro (extrapolazione). Lobiettivo è quello di costruire un modello che racchiuda le leggi che governano il processo, da poter utilizzare in diversi modi: descrittivo–normativo: si richiede che il modello rappresenti nel modo più fedele possibile la realtà, nel tentativo di individuare relazioni tra la variabile in esame e le leggi che governano il sistema; simulativo: si vuole poter riprodurre il comportamento del sistema sotto determinate condizioni ed osservare gli output relativi a determinati valori di ingresso; previsionale: si vogliono estendere al futuro le modalità di funzionamento del sistema osservate nel passato, per avere una stima puntuale o un intervallo di previsione per gli istanti futuri.

7 Modelli e strumenti della previsione sociale7 Le serie storiche Come si è visto, il tempo può essere interpretato come la sintesi degli effetti che le dinamiche dei fenomeni interagenti con quello oggetto di studio esercitano sulla naturale evoluzione di questultimo. Ma di tali fenomeni, presi individualmente, si perde ogni traccia e allora non resta che spostare lattenzione dalle determinanti della dinamica della serie storica a meccanismi interni della serie stessa che è necessario individuare (Ballatori, 1986: 296). Un elenco, pressoché universalmente accettato, di tali meccanismi interni di una s.s., detti componenti, per serie riferite a tempi sub- annuali (trimestri, mesi, settimane, giorni), è il seguente: trend, o componente di fondo; ciclo, o componente ciclica; componente stagionale; componente casuale o erratica. Se la s.s. è composta da dati annuali o pluriennali, essa assorbe la componente stagionale che, in tal caso, non è più evidenziabile.

8 Modelli e strumenti della previsione sociale8 Le serie storiche Il trend è la tendenza di fondo che caratterizza la dinamica del fenomeno nel lungo periodo. Le determinanti che sono sintetizzate nell«effetto trend» sono generalmente quei fenomeni sociali di lenta evoluzione, come ad esempio lammontare della popolazione, levoluzione dei gusti dei consumatori, se la serie storica è relativa al consumo di un determinato prodotto, e così via. Nelle serie storiche relative a fenomeni economici, sociali, meteorologici sono presenti componenti caratterizzate da andamenti sinusoidali di lungo periodo, chiaramente pluriannuali, chiamate cicli (esempi di cicli sono le fasi di espansione e di recessione delle economie capitalistiche, le intensità di radiazioni connesse alla periodicità delle macchie solari). In una stessa serie storica possono essere presenti più componenti cicliche, di diverso periodo, così come è possibile che esse, nel lungo periodo, mutino di periodicità, in maniera evolutiva o semplicemente casuale. Molti fenomeni sociali ed economici presentano il fenomeno della stagionalità connessa soprattutto alle condizioni climatiche. In tal caso massime e minime intensità del fenomeno si ripresentano ogni anno allincirca nello stesso periodo. La componente stagionale è quella che riassume tali movimenti. Si osservi, però, che periodicità di diversa ampiezza sono presenti anche nei fenomeni biologici (andamenti circadiani, circum-annuali), sebbene non siano stati ancora sufficientemente studiati. La componente casuale comprende sia effetti di natura strettamente accidentale, che effetti relativi a componenti che non sono state prese in esame, ossia a componenti diverse dal trend, ciclo e dalla componente stagionale.

9 Modelli e strumenti della previsione sociale9 Le componenti delle serie storiche

10 Lanalisi discriminante Stefano Nobile

11 Modelli e strumenti della previsione sociale11 Lanalisi discriminante Lanalisi discriminante «consente di mettere in evidenza i legami esistenti tra una variabile qualitativa da spiegare e un insieme di variabili quantitative esplicative» (Bouruche, Saporta, 1980). Essa inoltre permette di prevedere le modalità della variabile da spiegare a partire dai valori assunti dalle variabili esplicative A differenza della cluster analisys, che usa variabili per costruire classificazioni, lanalisi discriminante parte da una classificazione già nota. Tramite un insieme di variabili cardinali che sono ridotte e sintetizzate da alcune funzioni latenti discriminanti, cerca di dare conto della variabile qualitativa utilizzata. La prima funzione discriminante è quella che massimizza il rapporto tra la varianza tra i gruppi e quella interna ai gruppi. Le successive funzioni si calcolano analogaente aggiungendo il vincolo dellortogonalità (Di Franco, 1997: 93). Il numero totale di funzioni discriminanti estraibili è uguale al numero più piccolo tra le variabili (v) e (k – 1) gruppi noti, dove i gruppi corrispondono alle modalità della variabile qualitativa (categoriale) utilizzata

12 Modelli e strumenti della previsione sociale12 Lanalisi discriminante Tra le applicazioni più diffuse dellanalisi discriminante, vanno annoverate, oltre alla sociologia, discipline come la medicina (per laiuto nelle diagnosi), la meteorologia e il credit scoring. Riguardo a questultimo, la naturale applicazione di questo tipo di analisi nellambito bancario del rischio di credito è quello di discriminare, allinterno di una popolazione di individui che richiedono un prestito ad una determinata banca, tra quelli propensi a restituire il credito da quelli non propensi sulla base di un insieme di informazioni quali lo stipendio, beni ipotecabili e il tipo di prestito che si richiede.

13 Modelli e strumenti della previsione sociale13 Lanalisi discriminante Per esempio, un istituto di credito che voglia razionalizzare lerogazione dei prestiti finanziari può classificare i sui clienti rispetto al pagamento dei debito in due classi: puntuali e insolventi. Avendo a disposizione un insieme di informazioni sui clienti, come il reddito annuale, il totale di tasse pagate, il valore delle proprietà del cliente e altre variabili di questo tipo, sarà possibile individuare con lAD una funzione discriminante. Con questi dati listituto di credito potrà prevedere per i nuovi clienti, conoscendo i loro stati sulle variabili discriminanti, quali rischiano di non restituire i crediti ricevuti, minimizzando la probabilità di unerrata previsione (Di Franco, 1997: 93).

14 Modelli e strumenti della previsione sociale14 Lanalisi discriminante Un esempio più sociologico è il seguente. Supponiamo di aver condotto una ricerca su un campione di studenti delluniversità e di essere interessati alle loro carriere. Individuiamo la variabile categoriale discriminante nella loro posizione di studenti articolata in due modalità: studenti in corso; studenti fuori corso. A questo punto dobbiamo individuare un insieme di variabili cardinali che possano rendere conto delle differenze presenti fra gli studenti in corso e quelli fuori corso. Ad esempio le variabili potrebbero essere: il numero di corsi frequentati per ogni anno accademico; il numero di seminari frequentati per ogni anno accademico; il numero di esami sostenuti per ciascun anno accademico; la media dei voti agli esami; il tempo medio trascorso fra un esame e laltro; e così via.

15 Modelli e strumenti della previsione sociale15 Lanalisi discriminante Grazie a queste variabili possiamo ricavare una funzione lineare discriminante che è in grado di evidenziare le differenze principali fra gli studenti in corso e quelli fuori corso. Lutilità dellanalisi discriminante non è solo limitata allaspetto descrittivo di una classificazione dei casi. Come detto, può essere usata in funzione previsionale. Ciò significa che si potranno usare le funzioni discriminanti individuate nella fase descrittiva dellanalisi per classificare un insieme di casi (ad esempio un campione di studenti alla fine del primo anno del loro corso di studi universitario) per prevedere quali di questi presentano alte probabilità di andare fuori corso. Disponendo di queste informazioni si potranno mettere in atto delle iniziative tese a contenere il fenomeno della dispersione universitaria (Di Franco, 2007: 153)

16 Modelli e strumenti della previsione sociale16 Lanalisi discriminante Come nellanalisi in componenti principali, si determina una nuova variabile, combinazione lineare delle precedenti. Tuttavia, non si tratta più di ottenere una variabile di varianza massima, ma una variabile che separi al meglio i tre gruppi tra loro. La nuova variabile sarà perfettamente discriminante se assumerà lo stesso valore su tutti gli individui di uno stesso gruppo e valori differenti sugli individui appartenenti a gruppi distinti.

17 Modelli e strumenti della previsione sociale17 Analisi discriminante decisionale Immaginiamo di conoscere di un certo individuo soltanto gli stati sulle proprietà esplicative ma non si sappia a quale gruppo appartiene. È possibile attribuirlo a uno dei gruppi facendo ciò con un minimo rischio di errore?

18 Modelli e strumenti della previsione sociale18 Analisi discriminante decisionale Tra i tanti metodi esistenti per discriminare i gruppi in base alle variabili esplicative selezionate, i più noti sono: Il metodo geometrico, che consiste nellattribuire un individuo al gruppo il cui centro di gravità è più vicino Il metodo bayesiano, che consiste nellattribuire un individuo al gruppo più probabile. Naturalmente lefficacia della nostra previsione dipenderà, ex post facto, dalla misura dellerrore nel confronto tra situazione reale e situazione prevista.

19 Modelli e strumenti della previsione sociale19 Lanalisi discriminante Prima di procedere, bisogna scegliere: Il criterio di discriminazione da usare Le variabili da sottoporre allAD Il criterio per la scelta delle variabili A questo punto, è bene analizzare media e scarto tipo per ciascuna delle variabili allinterno dei singoli gruppi: nel caso in cui si riscontrassero valori troppo simili, le variabili che riportano tali valori andrebbero scartate perché non sufficientemente discriminanti. A questo scopo viene utilizzato il test di tolleranza minimo. Elevando al quadrato il coefficiente di correlazione canonica, otteniamo la proporzione di varianza che ciascuna delle funzioni discriminanti ottenute riproducono dallappartenenza alle diverse classi della variabile dipendente presa in considerazione.

20 Modelli e strumenti della previsione sociale20 Lanalisi discriminante. Le fasi dellanalisi scelta dei casi analisi monovariata delle differenze tra gruppi articolata in diverse fasi: analisi monovariata di medie e scarti-tipo delle variabili nei gruppi considerati; analisi della matrice di correlazione entro i gruppi, ottenuta dalla media delle matrici delle covarianze per tutti i gruppi; esame dei valori dei test F e Lambda relativi alle differenze tra le medie dei gruppi

21 Modelli e strumenti della previsione sociale21 Lanalisi discriminante. Le fasi dellanalisi Verifica delle assunzioni (Barbaranelli, 2006: 181) Ogni soggetto deve appartenere a uno solo dei gruppi che a priori definiscono la classificazione Bisogna avere almeno 20 soggetti nel gruppo con numerosità minore Il numero delle variabili indipendenti deve essere inferiore al numero di soggetti di ogni gruppo Nessuna variabile indipendente deve essere una combinazione lineare di altre variabili indipendenti, né presentare correlazioni troppo elevate con esse (assenza di multicollinearità). Va ricordato che il potere discriminante di una variabile è tanto maggiore quanto meno essa correla con le altre variabili indipendenti. La tenuta di questa assunzione può essere verificata attraverso i parametri di tolleranza e VIF. Poiché questi ultimi non vengono forniti in output dallanalisi discriminante, si possono ottenere con una regressione multipla che utilizzi come variabili indipendenti le stesse scelte per lAD e come dipendente una qualsiasi altra variabile. I valori del test devono risultare alti (dal 70% in su).

22 Modelli e strumenti della previsione sociale22 Lanalisi discriminante. Le fasi dellanalisi

23 Modelli e strumenti della previsione sociale23 Lanalisi discriminante. Le fasi dellanalisi

24 Modelli e strumenti della previsione sociale24 Lanalisi discriminante. Le fasi dellanalisi Le matrici delle varianze- covarianze tra le variabili indipendenti nelle popolazioni da cui i gruppi sono estratti devono essere omogenee (omoschedastic ità). Questa assunzione viene esaminata con il test M di Box.

25 Modelli e strumenti della previsione sociale25 Lanalisi discriminante. Le fasi dellanalisi Nelle popolazioni da cui i gruppi sono estratti, tutte le variabili indipendenti e le loro combinazioni lineari devono avere distribuzione normale. Questa assunzione può essere esaminata tramite la distanza di Mahalanobis (da realizzare anche con la regressione, ma trascurabile). Le relazioni tra le variabili indipendenti devono essere lineari (trascurabile).

26 Modelli e strumenti della previsione sociale26 Lanalisi discriminante. Le fasi dellanalisi Per lindividuazione delle funzioni discriminanti si possono usare diversi criteri: il criterio diretto: tutte le variabili sono introdotte inizialmente nellanalisi per poi essere progressivamente escluse se non superano il test di tolleranza, la cui soglia può essere fissata a priori (default 0,001); il criterio stepwise (passo-passo); le variabili sono introdotte una alla volta in base alla loro capacità di discriminazione (le prime variabili immesse sono quelle che hanno una capacità discriminativa più elevata). Questo criterio è efficace quando le variabili discriminanti sono ridondanti (molto correlate tra loro), oppure hanno scarso potere discriminativo

27 Modelli e strumenti della previsione sociale27 Lanalisi discriminante. Le fasi dellanalisi Nellanalisi discriminante possono essere individuate tante funzioni discriminanti quanto sono i gruppi della variabile dipendente meno 1. a condizione che il numero di variabili indipendenti utilizzate sia maggiore del numero dei gruppi. Viceversa, il numero massimo di funzioni discriminanti è uguale al numero di variabili indipendenti. Interpretazione delle funzioni discriminanti individuate attraverso: La varianza riprodotta (autovalore), costituita dal rapporto tra la somma dei quadrati degli scarti dalla media tra i gruppi e la somma dei quadrati degli scarti dalla media entro i gruppi; il coefficiente di correlazione canonica, costituito dal grado di correlazione tra il punteggio discriminante e i gruppi. Più elevata è la correlazione, migliore è la capacità discriminativa della funzione. Se si eleva al quadrato il coefficiente di correlazione canonica si misura la proporzione di varianza totale dovuta alla differenza tra i gruppi;

28 Modelli e strumenti della previsione sociale28 Lanalisi discriminante. Le fasi dellanalisi lambda di Wilks che esprime la proporzione di varianza non riprodotta dalla divisione in gruppi: più elevato è lambda, minore è lefficacia della funzione. Si noti che, nel caso di variabili dicotomiche, la somma tra il coefficiente di correlazione canonica al quadrato e lambda è uguale a i (si scompone la varianza totale in due termini: la varianza riprodotta dalla funzione discriminante che viene rappresentata dal quadrato del coefficiente di correlazione canonica e la varianza non riprodotta dalla funzione discriminante che viene rappresentata da lambda); Il Chi 2 calcolato sul valore di lambda, tra i due coefficienti esiste una relazione matematica per cui i valori di lambda possono essere facilmente trasformati in valori di Chi 2, che costituisce un test ulteriore per il controllo dellipotesi che esistano differenze significative tra le medie dei gruppi.

29 Modelli e strumenti della previsione sociale29 Lanalisi discriminante. Le fasi dellanalisi

30 Modelli e strumenti della previsione sociale30 Lanalisi discriminante. Le fasi dellanalisi Per linterpretazione della funzione discriminante si analizzano i coefficienti che rappresentano il contributo delle variabili originarie alle singole funzioni. Questi coefficienti sono standardizzati; il loro segno indica il tipo di associazione (diretta se positivo, inversa se negativo). Tuttavia, è anche possibile richiedere i coefficienti non standardizzati tramite la finestra di dialogo statistiche. Se, dopo aver visionato la matrice relativa ai Coefficienti standardizzati della funzione discriminante canonica si vuole valutare ulteriormente importanza di una variabile nel contribuire alla funzione discriminante, si può ricorrere alla matrice di struttura. Se il valore di questi coefficienti è maggiore di 0,30, vuol dire che la variabile condivide con la funzione discriminante almeno il 9% della varianza e quindi può essere considerata come un marker sufficientemente adeguato per interpretare la funzione discriminante (Barbaranelli, 2006: 186). Inoltre, per facilitare linterpretazione le due matrici di coefficienti possono essere ruotate con il metodo Varimax. In genere si consiglia di ruotare soltanto le funzioni che risultano statisticamente significative. La rotazione non può essere chiesta da menù ma solo tramite sintassi, con il seguente comando: /rotate = coeff structure Poiché le due matrici possono fornire indicazioni divergenti, si tende a privilegiare luso della matrice di struttura

31 Modelli e strumenti della previsione sociale31 Lanalisi discriminante. Le fasi dellanalisi

32 Modelli e strumenti della previsione sociale32 Lanalisi discriminante. La fase della classificazione Se le funzioni discriminanti si rivelano adeguate si ripartiscono i casi secondo una funzione di classificazione che si ottiene matematicamente dalle funzioni discriminanti e dai punteggi medi dei gruppi ottenuti nella fase precedente: analisi delle rappresentazioni grafiche nelle quali si proiettano, allinterno di uno spazio formato dalle prime due funzioni discriminanti, i confini dei casi assegnati alle classi in base alle funzioni discriminanti (mappa territoriale) e i loro centroidi; il calcolo per ogni caso di tanti punteggi quante sono le funzioni discriminanti, che permettono di assegnarlo, con una certa probabilità, al gruppo più vicino. Ogni caso sarà quindi assegnato a un gruppo, noto a priori, e al gruppo ottenuto attraverso lAD. dal confronto delle due classificazioni (quella nota a priori e quella ottenuta attraverso AD) si ottiene la percentuale di casi che risultano ben classificati, cioè collocati nello stesso gruppo

33 Modelli e strumenti della previsione sociale33 Lanalisi discriminante: grafici dei gruppi separati

34 Modelli e strumenti della previsione sociale34 Lanalisi discriminante: grafici dei gruppi separati

35 Modelli e strumenti della previsione sociale35 Lanalisi discriminante: grafici dei gruppi separati

36 Modelli e strumenti della previsione sociale36 Lanalisi discriminante: grafici dei gruppi separati

37 Modelli e strumenti della previsione sociale37 Lanalisi discriminante: grafici dei gruppi separati

38 Modelli e strumenti della previsione sociale38 La sintassi in SPSS relativa allanalisi discriminante DISCRIMINANT /GROUPS=clu4_1(1 4) (serve a definire la variabile dipendente ovvero la variabile che specifica i raggruppamenti pre- definiti di soggetti. Il ricercatore deve specificare i valori minimo e massimo che vengono utilizzati per differenziare i gruppi (nel nostro caso abbiamo quattro gruppi, che hanno etichette progressive da 1 a 4). Non è possibile ovviamente specificare più di una variabile dipendente) /VARIABLES=n e o a c (serve invece a definire le variabili indipendenti che vengono inserite per rendere ragione della appartenenza dei soggetti ai diversi gruppi definiti dalla variabile dipendente. Le variabili devono essere a intervalli equivalenti o dicotomiche) /ANALYSIS ALL (può essere utilizzato per definire diverse analisi discriminanti sugli stessi dati, ma analizzando insiemi diversi di variabili. Nel nostro caso vengono analizzate tutte le variabili indipendenti specificate col comando precedente) /PRIORS EQUAL (serve per definire le probabilità a priori di appartenenza ai gruppi, utilizzate nella fase di classificazione. Lopzione di default è che un soggetto abbia la stessa probabilità di essere classificato in ciascun gruppo (ed è quella specificata nel nostro caso). Ovviamente lutente può specificare valori differenti, se questo si rende necessario) /STATISTICS=MEAN STDDEV UNIVF BOXM COEFF RAW CORR COV GCOV TCOV TABLE (Il comando serve a richiedere una serie di statistiche supplementari che possono arricchire loutput oltre quanto viene fornito di default. MEAN e STDDEV servono per richiedere le medie e le deviazioni standard delle variabili indipendenti nei gruppi. UNIVF serve per richiedere i testi univariati dellanalisi della varianza che esaminano la significatività della differenza delle medie delle variabili indipendenti tra i differenti gruppi. BOXM serve per richiedere il test M di Box per la verifica dellassunzione dellomogeneità delle matrici di varianza/covarianza. COEFF serve per richiedere in output i coefficienti delle funzioni di classificazione: anche se la procedura non utilizza questi coefficienti per classificare i casi utilizzati nellanalisi, essi possono essere utilizzati per classificare altri soggetti che appartengono a campioni differenti. RAW consente di ottenere i coefficienti non standardizzati delle funzioni discriminanti. TABLE consente di visualizzare i risultati del processo di classificazione dei dati: nel caso in cui lanalisi fosse stata condotta selezionando un gruppo di soggetti dal file, la tabella conterrà due sezioni separate, una per i soggetti utilizzati nellanalisi e una per i soggetti non selezionati. CROSSVALID consente di effettuare il processo di classificazione tramite la procedura della classificazione autoesclusiva. Infine, specificando ALL, verranno riportate in output tutte le statistiche disponibili, quindi sia quelle di default, sia quelle descritte ora, sia altre che sono ottenibili da menù) CROSSVALID /PLOT=COMBINED SEPARATE MAP /CLASSIFY=NONMISSING POOLED.

39 Modelli e strumenti della previsione sociale39 Lanalisi discriminante: classificazione originale e cross-validata a confronto Nella classificazione finale si ottengono due tabelle: una si riferisce alla classificazione originale, laltra a quella cross-validata. La prima (originale) presenta i risultati della riclassificazione effettuata su tutti i soggetti. La seconda (cross-validata) presenta invece i risultati della riclassificazione effettuata con il metodo della classificazione auto-esclusiva. Secondo questo metodo ogni soggetto è classificato tramite i risultati delle funzioni di classificazione derivate da tutti i soggetti tranne quello in esame. A margine della tabella viene indicata la percentuale di casi classificati correttamente secondo entrambe le procedure.

40 Modelli e strumenti della previsione sociale40 Lanalisi discriminante: classificazione originale e cross-validata a confronto

41 Modelli e strumenti della previsione sociale41 Lanalisi discriminante: la mappa territoriale

42 La regressione lineare

43 Modelli e strumenti della previsione sociale43 La regressione lineare La regressione lineare è una tecnica che esamina la relazione lineare tra una o più variabili esplicative (variabili indipendenti) e una (e solo una) variabile criterio (variabile dipendente) (Mastrolilli et al., 2004: 152) Nel caso in cui si ipotizzi la presenza di una sola variabile esplicativa, avremo una regressione semplice; nel caso di più variabili esplicative, la regressione sarà multipla. Nelle scienze umane è molto difficile applicare il modello della regressione lineare, in quanto solo raramente si dispone di variabili cardinali, specie quando la tecnica di raccolta dei dati è lintervista con questionario (Di Franco, 2009: 131) Statisticamente, il punto di partenza della regressione è rappresentato da una matrice che riassume le correlazioni tra la variabile dipendente e la/le variabile/i indipendente/i. Il punto di arrivo è rappresentato da: Un insieme di parametri che riassumono la relazione tra VD e VI Una statistica per lesame della significatività dei parametri e un valore di probabilità associato a ognuno di questi parametri Un valore che riassume la proporzione di varianza della VD che complessivamente è spiegata dalle VI.

44 Modelli e strumenti della previsione sociale44 La regressione lineare Per poter procedere, bisogna rispettare i seguenti criteri: VI e VD devono essere di tipo quantitativo Per ciascun valore della VI, la distribuzione della VD deve essere normale La varianza della distribuzione della VD deve essere costante per tutti i valori della VI. La varianza di ogni variabile indipendente deve essere maggiore di 0 (Barbaranelli, 2006: 22) Esistono poi altre condizioni, relative alla tecnica di campionamento, ai residui e alle relazioni tra VI, che possono essere trascurati (per approfondimenti, si veda Barbaranelli, 2006: 23). La regressione calcola il valore del coefficiente che lega una VD, o criterio, a una VI, o predittore. Nel caso di più VI, verrà calcolato un coefficiente per ogni predittore separatamente e verrà fornito un indice complessivo che riporta la percentuale di varianza della VD spiegata dalle VI, ovvero quanto linsieme dei predittori riesce a spiegare la variabile criterio (Mastrolilli et al., 2004: 153).

45 Modelli e strumenti della previsione sociale45 Regressione e correlazione Le equazioni di regressione possono essere considerate come le leggi della scienza. In altre parole, esse servono a dare conto della misura con cui una certa variabile dipendente Y può variare in ragione del cambiamento di una variabile indipendente X. Il concetto di regressione precede logicamente quello di correlazione ed è più importante di esso sotto il profilo teorico (Blalock, 1960: 478) Se la regressione di Y su X è lineare, ovvero se la relazione è a linea retta, possiamo scrivere unequazione come segue: Y = a + bX dove a indica il punto dintersezione con lasse delle ordinate e b linclinazione della retta. Dal punto di vista concettuale, b rappresenta la quota di variazione di Y rispetto ad X (ossia di quanto varia Y rispetto ad X: se della metà, di un terzo, del doppio, eccetera) mentre a rappresenta un certo valore costante che deve essere sommato alla variabile indipendente per ottenere Y. Se lequazione, come in questo caso, ha soltanto due variabili, parleremo allora di regressione lineare bivariata.

46 Modelli e strumenti della previsione sociale46 La retta di regressione Tale modello di equazione è ovviamente assai poco realistico nel caso delle scienze umane. Bisogna allora introdurre una componente residuale (e) che rappresenta i residui della regressione. Questi ultimi esprimono le differenze tra i valori effettivi e i corrispondenti valori previsti dallequazione di regressione (Di Franco, 1997: 109). Lequazione assume allora la forma: Y = a + bX + e Standardizzando i valori delle variabili, il termine noto (a) scompare e la retta passa per lorigine degli assi, diventando: Y = bX + e È ovvio che nelle scienze sociali la relazione tra due variabili è ben difficilmente esprimibile in maniera così netta. A questa insufficienza risponde la regressione multipla lineare. Questa implica la necessità di trovare un iper-piano che interpoli un iperspazio a n dimensioni, la cui funzione lineare può essere così espressa: Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 … + b n X n +e

47 Modelli e strumenti della previsione sociale47 Il metodo dei minimi quadrati Lintroduzione di una componente residuale nellequazione deriva da una stima non perfetta dei valori della Y rispetto ai valori della X, a causa del fatto che i valori effettivi non sono collocati perfettamente sulla retta individuata. La differenza tra i valori stimati e i valori effettivi della Y si esprime in termini di residui dalla retta di regressione. Quando i dati non sono perfettamente allineati, ci sono infinite rette che possono interpolare la nuvola di punti. Si deve, quindi, trovare quella retta che, tra le infinite possibili, sia la migliore interpolatrice della nuvola. Questa retta sarà quella che minimizza la somma dei quadrati dei residui.

48 Modelli e strumenti della previsione sociale48 Il metodo dei minimi quadrati Con il metodo dei mini quadrati si soddisfa la condizione di rendere minima la somma degli scarti al quadrato tra i valori effettivi e quelli predetti. Lelevazione al quadrato dei residui di previsione si impone per evitare che la somma algebrica degli scarti si annulli. È comunque bene prendere in ogni caso labitudine di tracciare un diagramma a nuvola di punti prima di procedere con lanalisi; in molti casi losservare il diagramma sarà sufficiente a indicare se vale la pena procedere (Blalock, 1960: 488)

49 Modelli e strumenti della previsione sociale49 Il metodo dei minimi quadrati Il metodo dei minimi quadrati consiste dunque nel trovare quellunica retta che ha la proprietà di ridurre al minimo la somma dei quadrati degli scarti tra i valori teorici sulla stessa linea e i valori empirici di Y (Blalock, 1960: 489). Pertanto, se misuriamo gli scarti dei punti sulle linee verticali tracciate da ciascuno dei punti stessi alla retta dei minimi quadrati, eleviamo al quadrato tali scarti e li sommiamo, la somma risultante sarà minore di quella ottenibile mediante qualsiasi altra linea retta. La retta di regressione può quindi essere immaginata come quella retta che – tra le infinite rette del piano – minimizza le distanze dei punti dalla distribuzione bivariata.

50 Modelli e strumenti della previsione sociale50 Il calcolo dei coefficienti della retta di regressione Si supponga, a titolo di esempio, di volere ricavare la probabile differenza di reddito tra bianchi e neri in una data città degli Stati Uniti partendo dai dati relativi ad altre città, per le quali si conosce la percentuale di neri (X) e la differenza di reddito tra bianchi e neri (Y).

51 Modelli e strumenti della previsione sociale51 Fonte: censimento USA, 1950 Percentuale di neri (X)Differenza di reddito (Y)

52 Modelli e strumenti della previsione sociale52 Il calcolo dei coefficienti della retta di regressione Nellesempio riportato, b si ricava così: Mentre a è: Lequazione che si ottiene è pertanto:

53 Modelli e strumenti della previsione sociale53 La retta di regressione È ovvio che se la variabile indipendente è una sola, la funzione lineare corrisponde allequazione di una retta e il modello, come abbiamo già detto, si chiama bivariato. Se le indipendenti sono due o più variabili si specifica un modello di regressione multipla e lequazione lineare che dovrà essere calcolata avrà tante incognite quante sono le variabili indipendenti (Di Franco, 2009: 128)

54 Modelli e strumenti della previsione sociale54 Metodi di inserimento delle variabili Per poter procedere alla regressione lineare multipla, occorre innanzitutto, dopo avere identificato quali possano essere le variabili indipendenti da inserire nel modello, scegliere tra le diverse procedure di immissione delle variabili allinterno del modello stesso. La procedura per blocchi / default (enter), consiste nellinserire simultaneamente tutte le variabili indipendenti nel modello. Parliamo in questo caso di regressione standard o simultanea. Si usa preferibilmente in situazioni di analisi esplorativa. Nella procedura forward (avanti) il calcolatore inserisce come prima variabile indipendente quella che presenta il più alto valore del coefficiente di correlazione con la variabile dipendente; la variabile inserita per seconda è quella che presenta il più elevato valore del coefficiente di correlazione con i residui della precedente analisi, e così via. La procedura backward (indietro) è linverso della precedente: tutte le variabili sono incluse nellequazione iniziale, e vengono via via scartate quelle meno correlate con la dipendente, al netto dellinfluenza che ciascuna di esse condivide con le altre; La procedura stepwise (per passi) è una combinazione delle due strategie esaminate in precedenza: ogni volta che si inserisce una variabile nel modello, il calcolatore può anche eliminare la variabile che dà un ridotto contributo a riprodurre la varianza residua. Una volta raggiunta una soluzione soddisfacente, il calcolatore esibisce il modello finale e i valori dei coefficienti. La procedura remove (rimozione) elenca a priori le variabili che si vuole siano sottoposte al test per leventuale eliminazione Tutte e quattro queste procedure si riferiscono alla cosiddetta regressione statistica. Va inoltre ricordato che è possibile anche inserire le variabili con procedure miste.

55 Modelli e strumenti della previsione sociale55 Metodi di inserimento delle variabili

56 Modelli e strumenti della previsione sociale56 Statistiche della regressione multipla Lopzione Stime consente di visualizzare in ouput i coefficienti di regressione e il loro errore standard Lopzione adattamento del modello consente di elencare le variabili inserite ed eliminate dal modello di regressione e di visualizzare le statistiche di bontà di adattamento Richiedendo il test di collinearità nel menù statistiche si ottiene lindice di tolleranza. Questultimo viene utilizzato per stimare quanto una VI è linearmente correlata alle altre VI. Questo parametro varia tra 0 e 1. Maggiore è questo valore, minore è la varianza che quella VI condivide con le altre VI, maggiore è il contributo che essa può fornire alla spiegazione della VD. Lo stesso test esegue il VIF (Variance Inflaction Factor), che altro non è che il reciproco della tolleranza. Bassi valori indicano bassa collinearità e viceversa. Valori tra 5 e 10 sono indicativi di forte collinearità

57 Modelli e strumenti della previsione sociale57 Il test di collinearità Gli autovalori relativi alle diagnostiche di collinearità sono ottenuti effettuando lanalisi in componenti principali della matrice dei prodotti scalari tra le variabili indipendenti e danno unindicazione della correlazione tra le variabili indipendenti. Se molti autovalori sono prossimi a 0 le variabili sono fortemente correlate. Lindice di collinearità deriva dagli autovalori: se è compreso tra 15 e 20 indica possibili problemi di collinearità, se è maggiore di 30 la collinearità è grave. Va però ricordato che la collinearità diventa un problema se una dimensione con un elevato indice di collinearità contribuisce in maniera sostanziale alla varianza di due o più variabili. Per verificare questo assunto, occorre leggere i valori che connettono le dimensioni con le variabili. Se non ci sono valori alti per una singola dimensione rispetto a più di una variabile, allora non ci sono problemi di collinearità.

58 Modelli e strumenti della previsione sociale58 Regressione lineare: opzioni Nella finestra opzioni di SPSS viene data allutente la possibilità di impostare ulteriori parametri relativi ai criteri di inserimento delle variabili allinterno del modello di regressione. Se selezioniamo usa probabilità di F, una variabile viene inserita in equazione se il livello di significatività della F è minore del valore specificato in inserimento, ed viene rimossa se esso è maggiore del valore specificato in rimozione. Se selezioniamo invece usa valore di F, una variabile viene inserita se il suo valore di F è maggiore del valore specificato in inserimento e rimossa se il valore di F è minore del valore specificato in rimozione. Lopzione includi termine costante nellequazione, che è selezionata di default, fa riferimento al valore assunto dalla variabile indipendente quando tutti i coefficienti di regressione sono pari a 0. Se lopzione non viene selezionata, viene forzato il passaggio delle retta di regressione per lorigine degli assi, il che avviene raramente.

59 Modelli e strumenti della previsione sociale59 Statistiche descrittive nella regressione lineare multipla Nelle statistiche descrittive va posta particolare attenzione a due indici: quello di asimmetria e quello di curtosi. Si ricorda che l'indice di curtosi mira a rilevare quanto una distribuzione sia piatta o appuntita mentre lindice di asimmetria rileva se e quanto una distribuzione non sia disposta simmetricamente attorno alla sua media, e se abbia una "coda" più lunga dell'altra. Perché lapplicazione di un modello di regressione multipla vada a buon fine, bisogna controllare che questi due indici abbiano entrambi valori inferiori a |1| per ognuna delle variabili utilizzate.

60 Modelli e strumenti della previsione sociale60 Gli indici di asimmetria e curtosi Come si può ben vedere nellesempio riportato, soltanto la variabile relativa al controllo comportamentale presenta dei problemi di normalità. Tutte le altre variabili, infatti, hanno valori di asimmetria e curtosi inferiori a |1|.

61 Modelli e strumenti della previsione sociale61 Gli indici di asimmetria e curtosi Applicando la procedura statistiche descrittive e salvando i valori delle variabili standardizzate, si possono vedere quali sono gli outliers che, una volta estromessi dallanalisi, possono migliorare il valore dellindice di asimmetria della variabile CONTCO e portare quello della curtosi entro i limiti richiesti. Lesempio riportato sotto dimostra che mentre lindice di curtosi è stato riportato entro valori normali, quello di asimmetria è stato ridimensionato ma conserva ancora un valore eccessivamente alto.

62 Modelli e strumenti della previsione sociale62 La lettura dei coefficienti Loutput di SPSS produce, oltre alle statistiche di collinearità, una serie di coefficienti assai utili per lanalisi dei risultati. Ecco come si presentano, colonna per colonna: Nella seconda colonna (B) è indicato il coefficiente di regressione multipla non standardizzato Nella terza colonna è riportato lerrore standard del coefficiente di regressione multipla non standardizzato Beta indica il coefficiente di regressione multipla standardizzato T sta per T di Student Sig. T indica infine il livello di significatività della T di Student Infine, nella prima riga compaiono lintercetta e lerrore standard

63 Modelli e strumenti della previsione sociale63 Le rappresentazioni grafiche Le rappresentazioni grafiche servono sostanzialmente a controllare che gli assunti del modello di regressione (i residui devono essere distribuiti normalmente, avere media 0, avere la stessa varianza in tutte le VI, essere intercorrelati tra loro e con le VI) siano rispettati. Le etichette disponibili si riferiscono a: DEPENDT (variabile dipendente) ZPRED (valore predetto standardizzato della VD) ZRESID (valore dei residui standardizzati) DRESID (valore dei residui) ADJPRED (valore predetto della VD corretto) SRESID (valore dei residui studentizzati) SDRESID (errore standard della previsione) È consigliabile verificare la capacità predittiva del modello inserendo nel grafico DEPENDT e ADJPRED.

64 Modelli e strumenti della previsione sociale64 Lequazione di regressione multipla I coefficienti di regressione multipla standardizzati visti nella precedente diapositiva servono dunque a ottenere lequazione di regressione multipla, che è questa: Int =.194(ns) +.231(contco) +.291(compas) +.335(att) È sulla base di questi coefficienti che è possibile impiegare la regressione lineare multipla in senso previsionale.

65 Modelli e strumenti della previsione sociale65 La verifica della capacità predittiva

66 Modelli e strumenti della previsione sociale66 Un esempio: lastensionismo elettorale Nella letteratura nazionale e internazionale è diffusa la tesi secondo cui la marginalità socioeconomica e la modesta capacità di mobilitazione delle forze politiche di sinistra (forze che tradizionalmente esaltano il valore della partecipazione popolare) siano fattori che attenuano il livello di partecipazione elettorale (cfr. Caciagli, Scaramozzino, 1983)

67 Modelli e strumenti della previsione sociale67 Un esempio: lastensione del voto % senza titolo di studio % voti a sinistra % astenuti

68 Modelli e strumenti della previsione sociale68 Un esempio: lastensione del voto

69 Modelli e strumenti della previsione sociale69 Un esempio: lastensione del voto

70 Modelli e strumenti della previsione sociale70 Un esempio: lastensione del voto

71 Modelli e strumenti della previsione sociale71 Un esempio: lastensione del voto


Scaricare ppt "Modelli e strumenti della previsione sociale Stefano Nobile."

Presentazioni simili


Annunci Google