x1x1 x2x2 x3x3 xjxj xkxk xpxp xmxm L’Analisi Multidimensionale dei Dati Introduzione al Data Mining estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Prof. N.Carlo Lauro Dipartimento di Matematica e Statistica Università di Napoli Federico II
Data Warehouse OperationalDataStore Data Mart Data Mining Data Mart Data Mart Data Information Knowledge Data Mining: dal dato alle decisioni Data preparation Alberi decisionali Reti neurali Regole induttive Cluster analysis Algoritmi genetici
Le origini del Data Mining Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (codici a barre, transazioni tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l’immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu’ capaci piu’ economici (dischi, CD) hanno consentito l’archiviazione di grosse quantita’ di dati V olumi di dati che superano di molto la capacità di analisi dei metodi tradizionali di information retrieval. DATA MINING DBMSSTATISTICA MULTIVARIATA MACHINE LEARNING Esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e automatico i Decision Makers nell'estrazione di elementi di conoscenza dai dati. Queste tecniche e strumenti prendono il nome di Data Mining e costituiscono il cuore del Knowledge Discovery in Databases (KDD). Il DM rappresenta un nuovo capitolo della Statistica computazionale nato dall’integrazione di tecnologie proprie del machine learning e dei moderni DBMS con l’analisi statistica multivariata.
Le fasi del KDD Il processo di estrazione della conoscenza in un database (Knowledge Discovery in Database) consiste in una sequenza iterativa ed interattiva delle seguenti fasi: selezione dei dati: i dati significativi per l’obiettivo del lavoro di analisi sono recuperati dal database; pulizia dei dati: si agisce sui dati alterati, errati, dispersi, o irrilevanti, recuperandoli o eliminandoli; integrazione dei dati: le fonti di dati multiple o eterogenee possono essere integrate in una unica fonte; trasformazione e codifica dei dati: i dati sono trasformati e consolidati in una forma appropriata per la ricerca, grazie all’esecuzione di operazioni di aggregazione, sintesi e codifica; data mining: è la fase essenziale dove metodi intelligenti sono applicati allo scopo di estrarre patterns dai dati; valutazione dei patterns: si devono identificare i patterns veramente interessanti che rappresentano la conoscenza, basandosi su delle misure di interesse; presentazione della conoscenza: le tecniche di visualizzazione e di rappresentazione sono usate per presentare la conoscenza scoperta all’utente.
Ambiti applicativi del Data Mining –Customer profiling –Market segmentation –Affinità modelli d’acquisto –Database marketing –Credit scoring e analisi dei rischi – Scoperta di frodi – Analisi testuale – Click stream analysis ………………………
Le principali tecniche del Data Mining METODI DI PRIMA GENERAZIONE Metodi fattoriali Cluster analysis Modelli di regressione e classificazione METODI DI SECONDA GENERAZIONE Reti Neurali Alberi decisionali Regole di associazione Algoritmi genetici Marcaggio semantico ………………………………. TECNICHE DI VISUALIZZAZIONE DEI DATI Analisi Multidimensionale dei Dati
TIPI DI INFORMAZIONI OTTENUTE FATTORI STRUTTURALI identificazione di variabili latenti non osservabili direttamente RAGGRUPPAMENTI (CLUSTER) raggruppamenti di elementi in classi non definite a priori CLASSIFICAZIONI raggruppamenti di elementi in classi secondo un modello predefinito ASSOCIAZIONI insieme di regole che specifica l’occorrenza congiunta di due (o piu’) elementi SEQUENZE possibilita’ di stabilire concatenazioni temporali di eventi TENDENZE (TREND) scoperta di andamenti temporali caratteristici con valenza previsionale
La Statistica descrittiva consente di rappresentare e sintetizzare i dati relativi ad una (due) variabile (i) che derivano dall’osservazione di un fenomeno con tecniche semplici e di immediata comprensione. L’Analisi multidimensionale dei dati ne costituisce la naturale generalizzazione quando questi dati riguardino più variabili o dimensioni. La Statistica esplorativa multidimensionale
sintetizzarepresentare aspetti strutturali e fisiologici Non si tratta più solo di sintetizzare o presentare i dati raccolti ma di approfondire gli aspetti strutturali e fisiologici di sistemi complessi mediante l’impiego di metodi che consentono di palesare aspetti non osservabili direttamente con gli strumenti della statistica classica La Statistica esplorativa multidimensionale
L’Analisi Multidimensionale dei Dati consente... … il trattamento simultaneo di numerose variabili ed osservazioni … la visualizzazione di associazioni complesse … la individuazione di fattori multidimensionali … la costruzione di tipologie di osservazioni … l’analisi di fenomeni evolutivi complessi … l’identificazione di modelli ma altresì …...
… A) Metodi fattoriali
Le Medie e le Dev. Standard Le correlazioni I dati
Il cerchio dele correlazioni L’analisi in componenti principali La mappa fattoriale Cli scores
… B) Metodi di classificazione
I dati Le distanze “alimentari”
0,010,0020,0030,0040,00 50,00 60,00 Svezia Finlandia Norvegia RegnoUnito Olanda Islanda Irlanda Austria Germania Danimarca Francia Belgio Portogallo Italia Grecia Spagna Dissimilarità Dendrogramma La cluster analysis I centri delle classi
… C) … le relazioni di dipendenza per predire classi, preferenze, valori Metodi esplicativi
% BC campione base: 74.35% % BC campione test: 69.47% Esempio: Indagine sui laureati
Le ipotesi Le ipotesi Sistema osservato La Formazione dei Dati La Formazione dei Dati scelta delle osservazioni scelta delle variabili codifica dei dati matrice dei dati matrice di correlazione/associazione matrice di distanze (similarità) Matrice dei Dati ……… .... M 1 M 2 M 3 M 4 Rappresentazioni in Analisi dei Dati Rappresentazioni in Analisi dei Dati Rappresentazioni Fattoriali Analisi delle Componenti Principali Analisi delle Corrispondenze Analisi Discriminante Analisi Canonica Classificazione Classificazione Gerarchica Partizioni Classi di equivalenza livello di similarità a2a2 a1a1 interazione tra colonne tipologie di righe interazione righe colonne Le basi dell’AMD
preparazione codificaregole di interpretazione validazione Particolare rilevanza assumono quindi le fasi di preparazione e codifica dei dati, e la definizione di regole di interpretazione e di validazione delle rappresentazioni fornite dalle tecniche utilizzate. La Statistica esplorativa multidimensionale
La matrice dei dati: 1 2 j p 1212 X = x ij i n n punti in R p p punti in R n
Rappresentazione geometrica delle unità statistiche i1i1 i2i2 i3i3 x y Spazio degli individui Lunghezza del vettore esprime la taglia dell’individuo Distanza tra unità esprime la dissosomiglianza tra unità Se le variabili sono eterogenee si rende necessaria una misura di distanza ponderata x y i1i1 i2i2 i 3 [ 5, 2 ] 3 individui in R 2 RpRp
Rappresentazione geometrica delle variabili statistiche Spazio delle variabili i1i1 i2i2 i3i3 x y Lunghezza del vettore esprime la variabilità del carattere (per variabili centrate è la devianza) Angolo tra vettori esprime la correlazione tra le variabili ( per variabili centrate è il coefficiente r ) cos(90°) = 0 vettori ortogonali (var. incorrelate cos(0°) =|1| vettori collineari (var. max correlate) x = [ 1,2,5 ] y = [ 4,5,2 ] 2 variabili in R 3 i1i1 i2i2 i3i3
Richiami sulla distanza euclidea Proprietà di una Distanza Teorema di Pitagora e Distanza Euclidea i x1x1 x2x2 i’i’ i ’’ P2P2 P1P1 x y x1x1 x2x2 y1y1 y2y2 Nel caso di più variabili x, y, …, z Necessità di introdurre un sistema di pesi es.:
i1i1 i2i2 inin v1v1 vjvj vpvp Ricerca delle nuove variabili di sintesi (fattori) più correlate con le variabili originarie e tra loro non correlate u V + u 2 V 2 + u p V p I Criteri dell’ AF (Hotelling 1936) Spazio delle variabili I coefficienti u esprimono il ruolo delle variabili originarie nella costruzione delle variabili di sintesi, risultando preziosi per la interpretazione di queste ultime
i1i1 i2i2 inin v1v1 vjvj vpvp Ricerca di piani (sottospazi), generati da assi ortogonali di lunghezza unitaria u , u 2 …, che consentano la i migliore visualizzazione dell’immagine della nube delle unità I Criteri dell’ AF (Pearson 1904) Spazio delle unità ihih uu u 2 i 1 i 2 Le rappresentazioni sono valide se le distanze tra punti non si modificano molto in proiezione Gli assi u evidenziano le direzioni di massima variabilità (informazione) della nuvola delle unità statistiche ihih
Esempio ACP: i consumi alimentari Matrice dei dati: 16 Paesi, 10 variabili continue
Esempio ACP: i consumi alimentari La variabilità sui nuovi fattori: gli autovalori
Esempio ACP: i consumi alimentari Autovettori
Esempio ACP: i consumi alimentari Coordinate sui nuovi assi Es.: Belgio sul primo fattore 0,30 0,35 0,11 -0,44 0,45 0,37 0,12 -0,40 -0,25 -0,04 = (-0,42 0,30) + (0,03 0,35) + (0,66 0,11) + … + (0,96 -0,04) -0,42 0,03 0,66 0,63 0,14 -0,26 0,95 -1,05 1,48 0,96 72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2 Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova = - 0,23 Valori iniziali Dati standardizzati Primo autovettore Coordinata del BELGIO sul primo fattore
Esempio ACP: i consumi alimentari Coordinate sui nuovi assi
Esempio ACP: i consumi alimentari L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali
L’interpretazione dei fattori O Un autovalore è una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse - esimo eiei pipi cici uu uu umum Il contributo assoluto Ca i misura l’apporto di ogni punto alla variabilità dell’asse. Il contributo assoluto Ca i misura l’apporto di ogni punto alla variabilità dell’asse. I punti con un contributo molto grande, es.maggiore di 0.7, vanno posti in supplementare
Una misura della qualità della rappresentazione e2e2 e1e1 ~ e1e1 ~ e2e2 O 11 22 Il coseno al quadrato è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti: quanto più risulta prossimo ad 1 tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato. Due punti-unità possono trovarsi vicini nello spazio di proiezione non perché lo siano nello spazio iniziale di riferimento ma solo per gli effetti distorsivi dell’operazione di proiezione e3e3 e3e3 ~
Esempio i consumi alimentari
I diversi tipi di rappresentazione Visualizzazione nel miglior spazio ridotto Metodi Fattoriali Raggruppamenti nello spazio completo Metodi di Classificazione Automatica
Matrici e metodi di AMD Strategia di AMD Matrice strutturata Analisi nello spazio delle variabili NO Per riga SI Anal. Discrimin. Segmentazione SI Analisi simmetrica NO Regress.PLS Conjoint Anal. An. Non Simm Corrisp. NO Correl. Canon. Corrisp. Multi. An. Matrici 3D SI Cluster Anal. Scaling Multid NO Comp.Princ. An. Corrisp. SI Analisi confermative Analisi esplorative Variabili qualitative Variabili ordinali Variabili quantitative
Classificazione automatica I dati Tabelle individui-variabili numeriche Tabelle di contingenza Tabelle di presenza-assenza Si ipotizza la presenza di raggruppamenti tra le unità oppure Se ne richiede la determinazione La identificazione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva. Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che: - gli individui all'interno di una classe siano molto simili - ogni classe sia relativamente distinta dalle altre
I metodi di Classificazione automatica ObiettivoObiettivo Definire una o più partizioni a partire dall’insieme dei punti considerati Problema Numero delle partizioni possibili Es.: 4 elementi (A,B,C,D) e 2 gruppi (A) (B,C,D)(B) (A,C,D)(C) (A,B,D)(D) (A,B,C)(A,B) (C,D)(A,C) (B,D)(A,D) (B,C) Numero delle partizioni (P) 2 n n=4 P = 7 n=10 P = 511 n=100 P = 1,000,000,000,000,000,000,000,000,000, = =
I metodi di Classificazione automatica 1 milione di partizioni al secondo Partizione ottimale di... … 20 unità in 5 classi … 30 unità in 5 classi 2444secoli! 2444 secoli! 8 giorni
I metodi di Classificazione automatica Gli algoritmi per la classificazione automatica possono portare: ° Direttamente a delle partizioni Classificazione non gerarchica Alla costruzione di classi per aggregazioni successive di coppie di oggetti ° Alla costruzione di classi per dicotomizzazioni successive dell’insieme degli oggetti Classificazione gerarchica ascendente Classificazione gerarchica discendente (segmentazione) °
Metodo delle nubi dinamiche 1° passo: Scelta casuale dei k nuclei iniziali2° passo: Calcolo delle distanze e definizione della prima partizione Convergenza: Stabilità della partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove distanze, definizione della nuova partizione, e così via...
P 3 ={(e 1 e 2 ) (e 3 e 4 ) e 5 } P 2 ={(e 1 e 2 ) e 3 e 4 e 5 } nodi rami taglio del dendrogramma per ottenere i gruppi e1e1 e2e2 e3e3 e4e4 e5e5 E e5e5 e1e1 e2e2 e3e3 e4e4 P 1 ={e 1 e 2 e 3 e 4 e 5 } P 4 ={(e 1 e 2 e 3 e 4 ) e 5 } H(E) P 5 ={(e 1 e 2 e 3 e 4 e 5 )} Gerarchia una gerarchia è una sequenza di partizioni nidificate Albero Gerarchico o Dendrogramma
Un esempio di Classificazione Gerarchica Criterio della distanza minima (Criterio della distanza minima) abcdefg abcdefg
I diversi criteri di raggruppamento Gruppo A Gruppo B Criteri per la determinazione della distanza tra due gruppi Criteri per la determinazione della distanza tra due gruppi Distanza minimaa.Distanza massimab. Distanza centroidic.Distanza mediad. ; ; x x Criteri basati sull’inerzia dei gruppi Criteri basati sull’inerzia dei gruppi Metodo di Ward
I diversi criteri di raggruppamento abcdefg abcdefg abcdefg abcdefg Distanza minima Distanza massima Distanza media
La descrizione delle classi: I valori-test a) variabili continue: ~ N(0,1) b) variabili nominali Variabile j Media classe k Media generale Numerosità totale Numerosità classe k Varianza variabile j
La definizione delle classi Classe 1 BE, FR, GE, DA, IR Classe 2 AU, OL, SV, FI, GB, NO, IS Classe 1 SP, PO, GR, IT 2.81 es.:
Le “tipologie” La dieta mediterranea La dieta iperproteica La dieta grassa
L’analisi degli sbocchi occupazionali dei laureati delle Facoltà di Scienze Politiche e di Economia di Macerata
Il piano delle interviste IntervistatiTot. Laureati% Scienze Politiche % Economia Bancaria % Totale % Conoscere le caratteristiche dei laureati della Facoltà di Scienze Politiche (Luglio Gennaio 1998) e i loro sbocchi occupazionali Obiettivo
Le variabili attive 1.Corso di laurea (Scienze Politiche; Economia Bancaria) 2.Genere (M; F) 3.Residenza (MC; provincia MC; altra prov.) 4.Età alla laurea (24-25; 26-28; >28) 5.Voto di laurea ( 95; ; ; e lode) 6.Diploma (Liceo; Tecnico Comm.; Altro Tecnico; Altro Diploma) 7.Voto diploma (36-42; 43-48; 49-54; 55-60) 8.Area Tesi (Economica; Giuridica; Aziendale; Altra) 9.Anni laurea (4-5a.a.; 6-7a.a.; 8 e più) 10.Posizione durante gli studi (Studente Lav.; Part-time; Studente) 10 variabili 35 modalità
Le variabili illustrative Borse post-laurea Specializzazione Colloqui post-laurea Esigenze mercato Condizione occupazionale Scelta universitaria Tempo prima occupazione Canali Corrispondenza Laurea/Lavoro Soddisfazione lavoro Preparazione universitaria
ACM - La matrice dei dati
La matrice dei dati (Codifica ridotta)
I dati e la codifica Codifica ridotta Codifica disgiuntiva completa p variabili s modalità... Z =Z = s = s 1 +s 2 +…+s p s1s1 spsp s2s2 f <30 m 30-50>50stuimpdirpen n p R =R = (i)(i) sex (2) età (3) prof (4)
La matrice dei dati (Codifica disgiuntiva completa)
La tabella di Burt | SP EB | Masc Femm | Res1 Res2 Res3 | Eta1 Eta2 Eta3 | ……………… | SP | | EB | | Masc | | | Femm | | | Res1 | | | | Res2 | | | | Res3 | | | | Eta1 | | | | | Eta2 | | | | | Eta3 | 22 3 | | | | … | ……………… | ……………… | ……………… | ……………… | ……………… |
Gli autovalori e la varianza spiegata Num.Autovalore% cumulata ……
Istogramma della variabilità spiegata (valori percentuali)
La lettura dei piani fattoriali Ogni domanda del questionario (variabile) è rappresentata da tanti punti quante sono le sue modalità di risposta Il baricentro della nube dei punti (origine degli assi) è anche il baricentro delle modalità di ciascuna variabile La prossimità tra due modalità esprime una stretta connessione (interdipendenza) dei temi che esse rappresentano Le prossimità tra modalità relative a variabili attive e supplementari vanno lette in termini di dipendenza delle seconde rispetto alle prime Se le modalità di una variabile sono ordinate, si studieranno le traiettorie seguite da questi punti, le loro forme e le loro posizioni reciproche La prossimità tra punti-unità (intervistati) evidenzia una posizione simile rispetto ai temi trattati nel questionario La prossimità tra punti-modalità e punti-unità, qualora si ricorra a rappresentazioni congiunte, rivelano l’importanza che talune caratteristiche hanno nel profilo di ciascun intervistato o di gruppi di questi
Il piano fattoriale 1-2: modalità attive
La lettura dei risultati autovalori 1. Gli autovalori sono una misura eccessivamente pessimistica dell’effettivo potere esplicativo dei fattori individuati; profilisimili 2. Affermare che esistono affinità tra risposte equivale a dire che esistono delle unità che hanno scelto tutte, o quasi tutte, le stesse modalità. L’ACM mette in evidenza gli individui che hanno dei profili simili rispetto alle modalità osservate. Si possono quindi individuare: 2aLe prossimità tra individui 2a. Le prossimità tra individui 2b. Le prossimità tra modalità di variabili differenti contributi assolutinon coordinate 3. I fattori vanno interpretati tenendo conto dei valori dei contributi assoluti e non delle coordinate dei punti (come avveniva in ACP) i i’ i i Cr(i)<Cr(i’) f(i.)<f(i’.) Cr(i)<Cr(i’) (i)< (i’) Cr(i)=Cr(i’) f(i.) (i)= f(i’.) (i’)
I contributi assoluti Asse 1Asse 2 Corso di laurea Scienze Politiche Econ. bancaria Genere Maschio Femmina Residenza Res. MC Res. MC pr Res. altra pr Età alla laurea anni anni >28 anni Voto di laurea <= e lode Diploma Liceo Tecnico Comm Altro Tecnico Altro diploma
I contributi assoluti Asse 1Asse 2 Voto diploma Area Tesi Tesi Economica Tesi Giuridica Tesi Aziendale Altra Tesi Anni laurea Laurea 4-5 a Laurea 6-7 a Laurea 8+ a Posizione durante gli studi Studente-lavoratore Studente part-time Studente TP
La descrizione dei fattori con i valori-test njnj Numero di soggetti che presentano la modalità j jj ^ Coordinata della modalità j nel caso di estrazione casuale degli n j soggetti Per n j sufficientemente grande
Il piano fattoriale 1-2: modalità attive
Il piano fattoriale 1-2: modalità illustrative
Il piano fattoriale 3-4: modalità attive
I diversi tipi di rappresentazione Visualizzazione nel miglior spazio ridotto Metodi Fattoriali Raggruppamenti nello spazio completo Metodi di Classificazione Automatica
Istogramma degli indici dei nodi
Dendrogramma e partizioni
La descrizione delle classi: I valori-test a) a) variabili continue: ~ N(0,1) b) b) variabili nominali ~ N(0,1) 95% 2.5% -1,96 1,96 0 Media generale Numerosità classe k Numerosità totale Media classe k Varianza variabile j Variabile j
Una tipologia di laureati Gli Studenti-lavoratori (21.0%) Gli Studenti a tempo pieno (79.0%) I Diligenti (53.0%) I Pigri (26.0%) I Brillanti (14.0%) I Bravi (39.0%) Le Precise (11.0%) Gli Efficienti (28.0%) I Soddisfatti (19.5%) Gli Incerti (8.5%) I Delusi (20.0%) I Rassegnati (6.0%) I Precari (9.5%) Gli Stabili (11.5%)
Classe 1/8: “Le precise” (11%) V.TEST % % Modalità gruppo tot. Caratteristiche Variabili e lode Voto di laurea Femmina Genere Altro diploma Diploma Res. MC Residenza Tesi Giuridica Area Tesi Voto diploma Pr. pienam. adeguata Preparazione univ anni Età alla laurea Borse SI Borse post-laurea Specializz. SI Specializzaz Soddisf. lavoro SI Soddisfazione lavoro Corr. Lau/Lav SI Corr. Laurea/Lavoro Inserzioni Canali Occ. precario/Tiroc. Condizione occupaz Gruppo composto prevalentemente da studentesse, (92.8%), che hanno conseguito il diploma di laurea con una votazione di 110 e lode, hanno un altro diploma con una votazione medio alta, hanno scelto una tesi giuridica e un’età tra i 26 e 28 anni. Nel loro curriculum hanno una borsa di studi e spesso anche una specializzazione. Le componenti di questo gruppo si dichiarano soddisfatte del lavoro che svolgono e trovano la preparazione universitaria ricevuta corrispondente al lavoro svolto, sebbene il 36 % risultano con una condizione occupazionale precaria.
Classe 2/8: “I Soddisfatti” (19.5%) V.TEST % % Modalità gruppo tot. Caratteristiche Variabili Tesi Economica Area Tesi Res. altra pr. Residenza Voto di laurea Liceo Diploma Scienze Politiche Corso di laurea Soddisf. lavoro SI Soddisfazione lavoro Chiamata diretta Canali Corr. Lau/Lav SI Corr. Laurea/Lavoro Stessa univ. Scelta universitaria <6 mesi Tempo prima occupazione Sono per la maggior parte laureati in Scienze Politiche, proveniva da studi liceali con una tesi in economia, laureati con un voto medio alto ( ). Il 73.5 % è soddisfatto del lavoro svolto, che hanno trovato, generalmente, per chiamata diretta e in relazione un tempo breve (< 6 mesi; tra 6 e 12 mesi).
Classe 3/8: “Gli Incerti” (8.5%) V.TEST % % Modalità gruppo tot. Caratteristiche Variabili Altro Tecnico Diploma anni Età alla laurea Voto di laurea Laurea 4-5 a. Anni laurea Maschio Genere Res. MC Residenza Voto diploma Studente TP Posizione durante gli studi Econ. bancaria Corso di laurea Soddisf. lavoro NO Soddisfazione lavoro Altro canale Canali >1 anno Tempo prima occupazione Tesi Giuridica Area Tesi Un gruppo poco numeroso formato da studenti di Economia Bancaria, maschi (81 %), mediamente diligente ( laureati in 4-5 anni) e mediamente bravi (voto di laurea ),con un’età compresa tra 24 e 25 anni, un diploma tecnico. Questi non risultano soddisfatti del lavoro attualmente svolto.
Classe 4/8: “I Brillanti” (14%) V.TEST % % Modalità gruppo tot. Caratteristiche Variabili e lode Voto di laurea Econ. bancaria Corso di laurea Tesi Aziendale Area Tesi anni Età alla laurea Laurea 4-5 a. Anni laurea Tecnico Comm. Diploma Voto diploma Stage in azienda Esigenze mercato Studente TP Posizione durante gli studi coll. Colloqui post-laurea Res. altra pr. Residenza Voto diploma Inserzioni Canali Borse SI Borse post-laurea Occ. precario/Tiroc. Condizione occupaz mesi Tempo prima occupazione Ric. alle aziende Canali Sono gli studenti in Economia Bancaria hanno un voto di laurea di 110 e lode, si sono laureati in 4 –5 anni, con un età compresa tra i 24 e 25 anni e una votazione di diploma tra il 55 e 60. Questi hanno fatto Stage in azienda (88.5 %), e molti colloqui di lavoro (più di 4).
Classe 5/8: “I Delusi” (20%) V.TEST % % Modalità gruppo tot. Caratteristiche Variabili CLASSE 5 / Voto di laurea Econ. bancaria Corso di laurea Laurea 6-7 a. Anni laurea Res. MC pr. Residenza Conosc.personali Canali Borse NO Borse post-laurea Non occupato Condizione occupaz Pr. carente Preparazione univ Univ. diversa Scelta universitaria Tesi Economica Area Tesi Voto diploma Studente part-time Posizione durante gli studi Corr. Lau/LAv NO Corr. Laurea/Lavoro Stage in azienda Esigenze mercato anni Età alla laurea E’ composto da neolaureati in Economia Bancaria (il 77.5 %),che hanno conseguito la laurea in 6- 7 anni con una votazione di laurea media (96-104), non hanno vinto borse di studio, trovano lavoro attraverso le conoscenze personali (il 47%) e il 32.6% non ha un’occupazione.
Classe 6/8: “I Rassegnati” (6%) V.TEST % % Modalità gruppo tot. Caratteristiche Variabili <=95 Voto di laurea anni Età alla laurea Studente TP Posizione durante gli studi Laurea 6-7 a. Anni laurea Ric. mercato/Altro Esigenze mercato Voto diploma Conosc.personali Canali Tecnico Comm. Diploma <6 mesi Tempo prima occupazione Sono studenti non bravi hanno impiegato 6-7 anni a laurearsi, con un voto di laurea e di diploma basso (il primo meno di 96 e il secondo tra 36-42).
Classe 7/8: “I Precari” (9.5%) Sono stati studenti lavoratori a part-time (il 29.2%), prevalentemente maschi (il 66.7%), con diploma liceale, laureati in Scienze Politiche (il 96 %), in più di 8 anni, tutti con un’altra tesi, inoltre alcuni, attualmente, non hanno un’occupazione V.TEST % % Modalità gruppo tot. Caratteristiche Variabili Altra Tesi Area Tesi Scienze Politiche Corso di laurea Liceo Diploma Res. MC pr. Residenza Laurea 8+ a. Anni laurea anni Età alla laurea Voto diploma Maschio Genere coll. Colloqui post-laurea Voto di laurea Studente part-time Posizione durante gli studi Ric. mercato/Altro Esigenze mercato Altro canale Canali
Classe 8/8: “Gli Stabili” (11.5%) Sono coloro che durante gli studi universitari svolgevano già un’attività a tempo pieno (il 62%), dopo la laurea non hanno sostenuto colloqui e hanno un’occupazione stabile (il 76%). Questa classe è formata dai soli laureati in Scienze Politiche, che hanno conseguito la laurea in tempi lunghi ( più di 8 anni), reputano la preparazione universitaria adeguata e sono insoddisfatti del lavoro che svolgono attualmente V.TEST % % Modalità gruppo tot. Caratteristiche Variabili >28 anni Età alla laurea Studente-lavoratore Posizione durante gli studi Laurea 8+ a. Anni laurea Scienze Politiche Corso di laurea Già occupato Tempo prima occupazione Bandi Canali Nessun colloquio Colloqui post-laurea Soddisf. lavoro NO Soddisfazione lavoro Occ. Stabile Condizione occupaz Pr. adeguata Preparazione univ Voto diploma Tesi Giuridica Area Tesi Univ. diversa Scelta universitaria Scuole specializz. Esigenze mercato Corr. Lau/Lav NON SO Corr. Laurea/Lavoro Ric. mercato/Altro Esigenze mercato Voto di laurea Borse NO Borse post-laurea Corr. Lau/Lav SI Corr. Laurea/Lavoro
Metodi fattoriali e Classificazione Metodi fattoriali Sono particolarmente adatti all’esplorazione di grandi tabelle di dati individuali + Consentono di evidenziare le relazioni strutturali tra le variabili e/o le unità osservate + I piani rappresentano solo una parte della variabilità totale - La lettura può risultare complessa - Metodi di classificazione La descrizione delle classi è più facile di quella di uno spazio continuo, anche se a due dimensioni + Le classi si formano sulla base delle dimensioni reali del fenomeno e non considerano, quindi, eventuali deformazioni dovute ad operazioni di proiezione + Gli algoritmi di classificazione sono generalmente “robusti”, nel senso che risultano non influenzati da eventuali punti anomali isolati + Lo spazio a p dimensioni è probabilmente ridondante e contiene, quindi, una parte di “rumore”, inutile ai fini dell’analisi - Approccio integrato Classificazione sui risultati di un metodo fattoriale