Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
I gruppi sociali nel Rapporto ISTAT 2017
Paolo Giudici Professore Ordinario di Statistica, Laboratorio di Data Science, Dipartimento di Scienze Economiche ed Aziendali, Università di Pavia
2
Introduzione L’obiettivo della presente relazione è la valutazione della metodologia di costruzione dei gruppi sociali svolta nell’ambito del rappporto annuale ISTAT 2017. L’analisi effettuata consente di individuare ex-post 9 gruppi sociali, massimamente omogenei per reddito familiare, sulla base di caratteristiche economico-sociali multidimensionali L’analisi verrà valutata rispetto ai criteri scientifici della statistica moderna (scienza dei dati)
3
Scienza dei dati - definizione
Un processo che consiste di: (1) Selezionare ed elaborare dati complessi (Informatica) (2) Per scoprire regolarità e/o relazioni statistiche ex-post (Statistica) (3) Con lo scopo di ottenere risultati “utili” in ambito economico-sociale (Non esiste una scienza dei dati ma più scienze dei dati)
4
Scienza dei dati - storia
1700: statistik = statistica descrittiva 1800: inferenza predittiva= statistica+probabilità 1990: data analysis/machine learning = statistica+informatica/informatica+statistica 2000: data mining = economia+statistica+informatica su DATA 2010: data science= economia+statistica+informatica su BIG DATA 2020: data-driven artificial intelligence?
5
Scienza dei dati - @unipv.it
2001: Istituzione del laboratorio di DATA MINING: ricerca, formazione e consulenza presso la Facoltà di Economia 2016: il laboratorio di data mining diventa laboratorio di DATA SCIENCE: ricerca, formazione e consulenza presso il Dipartimento di Scienze Economiche ed Aziendali
6
Scienza dei dati - metodi
Metodi descrittivi o non supervisionati a. Descrizione osservazioni: - modelli cluster b. Descrizione variabili: - modelli network Metodi predittivi o supervisionati - modelli lineari generalizzati - sistemi esperti probabilistici - modelli ad albero - reti neurali e deep learning ..
7
Modelli ad albero Modelli predittivi originati in ambito “machine learning”: Y=f(X1, X2, .. Xk) Procedura ricorsiva, attraverso la quale un insieme di n unità statistiche vengono progressivamente divise in g gruppi, massimamente omogenei in termini di Y, sulla base dei valori di (X1, X2, .. Xk). Alberi di regressione quando Y è continua Alberi di classificazione quando Y è categorica.
8
Modelli ad albero: costruzione
Un albero è costruito, a partire dalla radice, suddividendo progressivamente i “rami” secondo criteri divisivi, funzione dei valori delle variabili esplicative. Sia tr (per r = 1, .. , s) il numero di gruppi generati in una suddivisione e sia la proporzione di osservazioni, collocate in ogni nodo. Si sceglie la suddivisione che massimizza: dove il simbolo I indica una misura di eterogeneità
9
Modelli ad albero: eterogeneità
Varianza (alberi di regressione): Indice di Gini (alberi di classificazione):
10
Modelli ad albero: potatura
L’albero costruito viene “potato” scegliendo, fra tutti gli alberi possibili, quello che minimizza una funzione di perdita. Ad esempio, la funzione di perdita di un albero CART dipende dalla eterogeneità totale I(T) e dal numero di foglie N(T)
11
Modelli ad albero: stima
Per ogni osservazione “i” della variabile risposta, yi, l’albero produce un valore stimato che è uguale alla media della variabile risposta nel gruppo che contiene “i”. Per gli alberi di classificazione, il valore stimato è la frequenza di appartenenza al gruppo:
12
Modelli ad albero: previsione
In un modello di regressione, le previsioni si ottengono “sostituendo alle X i valori osservati (o ipotizzati) In un modello ad albero, sostituendo alle X I valori osservati si perviene ad un nodo terminale (foglia). Per ogni foglia, il valore previsto è quello a cui corrisponde la stima: media (alberi di regressione)
13
Rapporto Annuale ISTAT 2017
25,775 milioni di famiglie i Y = reddito familiare equivalente X = variabili economiche e sociali
14
Rapporto 2017 - Variabili esplicative
Genere Età Titolo di studio Situazione Professionale Numero componenti la famiglia Cittadinanza (presenza di stranieri) Tipo di comune di residenza
15
Rapporto 2017 – gruppi e stime
Famiglie a basso reddito con stranieri (7,1% 4,3%) Famiglie a basso reddito di soli italiani (7,5% 5,3%) Anziane sole e giovani disoccupati (13,8% 11,1%) Famiglie tradizionali della provincia (3,3% 2,5%) Giovani blue collar (11,3% 10,9%) Famiglie degli operai in pensione (22,7% 21,2%) Famiglie di impiegati (17,8% 20,2%) Pensioni d’argento (9,3% 12,3%) Classe dirigente (7,2% 12,2%)
16
I gruppi sociali nel Rapporto Annuale 2017
* Come già ricordato, il metodo di classificazione adottato ha carattere gerarchico. Le caratteristiche considerate intervengono in successione nella partizione progressiva delle famiglie, creando i ‘rami’ e le ‘foglie’ dell’albero di classificazione, il cui ‘tronco’ rappresenta l’insieme delle famiglie italiane e delle persone che le compongono. La variabile guida del modello adottato è il reddito. Ma poiché famiglie diverse hanno necessità economiche diverse, si adotta il reddito equivalente, una misura che tiene conto della diversa dimensione e composizione per età delle famiglie. La prima variabile che interviene a definire i primi due ‘rami’, e quindi a suddividere le famiglie in due grandi gruppi, è la situazione professionale del principale percettore di reddito della famiglia (nel séguito indicato anche come ‘persona di riferimento’). Da una parte ci sono le famiglie (poco più di dieci milioni, quasi il 40 per cento del totale) in cui il principale percettore è inattivo o disoccupato, oppure lavora ma si colloca nella fascia bassa delle retribuzioni (lavoratore atipico, cioè dipendente con contratto a termine o collaboratore, operaio o assimilato). Dall’altra, ci sono le famiglie (oltre 15 milioni e mezzo, l’altro 60 per cento) in cui lavora (in qualunque posizione, escluse quelle testé citate: dunque come impiegato, lavoratore autonomo, quadro, dirigente, imprenditore o libero professionista). Se è inattivo, è un pensionato ritirato dal lavoro. La posizione professionale emerge ancora come la variabile più importante per caratterizzare l’identità sociale, come suggerisce la letteratura sulla teoria delle classi. E tuttavia non è esclusivamente la posizione lavorativa occupata o il ruolo all’interno del processo produttivo a essere in gioco, ma anche la partecipazione al mondo del lavoro. Inoltre, la divisione non passa – come ci si potrebbe attendere – tra chi partecipa a pieno titolo all’attività lavorativa e chi ne è escluso perché inattivo o disoccupato. Che la persona di riferimento sia occupata non è sufficiente a produrre un reddito familiare relativamente elevato, se l’occupazione è nelle professioni a bassa qualifica (e bassa retribuzione) e se il lavoro viene prestato con forme contrattuali atipiche. Per contro, quando il principale percettore di reddito è ritirato dal lavoro, verosimilmente con anzianità elevata e con un regime pensionistico integralmente o prevalentemente retributivo, questo garantisce alla famiglia un livello di reddito comparabile con quello delle famiglie in cui gli occupati godono di una posizione professionale elevata, o quanto meno impiegatizia. *Dati in migliaia
17
Conclusioni Gli alberi di regressione presentati nel rappporto annuale ISTAT 2017 sono il risultato di una rigorosa e robusta attività di scienza dei dati. L’analisi effettuata consente di individuare 9 gruppi sociali, ex-post, sulla base di caratteristiche multidimensionali Il metodo proposto consente il confronto con altre classificazioni, in termini di capacità predittiva, secondo le metriche della moderna scienza dei dati
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.