La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

X1x1 x2x2 x3x3 xjxj xkxk xpxp xmxm L’Analisi Multidimensionale dei Dati Introduzione al Data Mining estrarre informazione nascosta nei dati in modo da.

Presentazioni simili


Presentazione sul tema: "X1x1 x2x2 x3x3 xjxj xkxk xpxp xmxm L’Analisi Multidimensionale dei Dati Introduzione al Data Mining estrarre informazione nascosta nei dati in modo da."— Transcript della presentazione:

1 x1x1 x2x2 x3x3 xjxj xkxk xpxp xmxm L’Analisi Multidimensionale dei Dati Introduzione al Data Mining estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Prof. N.Carlo Lauro Dipartimento di Matematica e Statistica Università di Napoli Federico II clauro@unina.it

2 Data Warehouse OperationalDataStore Data Mart Data Mining Data Mart Data Mart Data Information Knowledge Data Mining: dal dato alle decisioni Data preparation Alberi decisionali Reti neurali Regole induttive Cluster analysis Algoritmi genetici

3 Le origini del Data Mining Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (codici a barre, transazioni tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l’immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu’ capaci piu’ economici (dischi, CD) hanno consentito l’archiviazione di grosse quantita’ di dati V olumi di dati che superano di molto la capacità di analisi dei metodi tradizionali di information retrieval. DATA MINING DBMSSTATISTICA MULTIVARIATA MACHINE LEARNING Esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e automatico i Decision Makers nell'estrazione di elementi di conoscenza dai dati. Queste tecniche e strumenti prendono il nome di Data Mining e costituiscono il cuore del Knowledge Discovery in Databases (KDD). Il DM rappresenta un nuovo capitolo della Statistica computazionale nato dall’integrazione di tecnologie proprie del machine learning e dei moderni DBMS con l’analisi statistica multivariata.

4 Le fasi del KDD Il processo di estrazione della conoscenza in un database (Knowledge Discovery in Database) consiste in una sequenza iterativa ed interattiva delle seguenti fasi: selezione dei dati: i dati significativi per l’obiettivo del lavoro di analisi sono recuperati dal database; pulizia dei dati: si agisce sui dati alterati, errati, dispersi, o irrilevanti, recuperandoli o eliminandoli; integrazione dei dati: le fonti di dati multiple o eterogenee possono essere integrate in una unica fonte; trasformazione e codifica dei dati: i dati sono trasformati e consolidati in una forma appropriata per la ricerca, grazie all’esecuzione di operazioni di aggregazione, sintesi e codifica; data mining: è la fase essenziale dove metodi intelligenti sono applicati allo scopo di estrarre patterns dai dati; valutazione dei patterns: si devono identificare i patterns veramente interessanti che rappresentano la conoscenza, basandosi su delle misure di interesse; presentazione della conoscenza: le tecniche di visualizzazione e di rappresentazione sono usate per presentare la conoscenza scoperta all’utente.

5 Ambiti applicativi del Data Mining –Customer profiling –Market segmentation –Affinità modelli d’acquisto –Database marketing –Credit scoring e analisi dei rischi – Scoperta di frodi – Analisi testuale – Click stream analysis ………………………. 1000 2000 2000 3456 6577 2000 56600 78797 990 90091 87885 4565 12854 12090 123599 279878 999 109988 1987363 10928783 33345 67398 320793 39384 320983 57583 398 209 8378373 10076 354802 2973673 3939399 306145 01910 46458 817262

6 Le principali tecniche del Data Mining METODI DI PRIMA GENERAZIONE Metodi fattoriali Cluster analysis Modelli di regressione e classificazione METODI DI SECONDA GENERAZIONE Reti Neurali Alberi decisionali Regole di associazione Algoritmi genetici Marcaggio semantico ………………………………. TECNICHE DI VISUALIZZAZIONE DEI DATI Analisi Multidimensionale dei Dati

7 TIPI DI INFORMAZIONI OTTENUTE FATTORI STRUTTURALI identificazione di variabili latenti non osservabili direttamente RAGGRUPPAMENTI (CLUSTER) raggruppamenti di elementi in classi non definite a priori CLASSIFICAZIONI raggruppamenti di elementi in classi secondo un modello predefinito ASSOCIAZIONI insieme di regole che specifica l’occorrenza congiunta di due (o piu’) elementi SEQUENZE possibilita’ di stabilire concatenazioni temporali di eventi TENDENZE (TREND) scoperta di andamenti temporali caratteristici con valenza previsionale

8 La Statistica descrittiva consente di rappresentare e sintetizzare i dati relativi ad una (due) variabile (i) che derivano dall’osservazione di un fenomeno con tecniche semplici e di immediata comprensione. L’Analisi multidimensionale dei dati ne costituisce la naturale generalizzazione quando questi dati riguardino più variabili o dimensioni. La Statistica esplorativa multidimensionale

9 sintetizzarepresentare aspetti strutturali e fisiologici Non si tratta più solo di sintetizzare o presentare i dati raccolti ma di approfondire gli aspetti strutturali e fisiologici di sistemi complessi mediante l’impiego di metodi che consentono di palesare aspetti non osservabili direttamente con gli strumenti della statistica classica La Statistica esplorativa multidimensionale

10 L’Analisi Multidimensionale dei Dati consente... … il trattamento simultaneo di numerose variabili ed osservazioni … la visualizzazione di associazioni complesse … la individuazione di fattori multidimensionali … la costruzione di tipologie di osservazioni … l’analisi di fenomeni evolutivi complessi … l’identificazione di modelli ma altresì …...

11 … A) Metodi fattoriali

12 Le Medie e le Dev. Standard Le correlazioni I dati

13 Il cerchio dele correlazioni L’analisi in componenti principali La mappa fattoriale Cli scores

14 … B) Metodi di classificazione

15 I dati Le distanze “alimentari”

16 0,010,0020,0030,0040,00 50,00 60,00 Svezia Finlandia Norvegia RegnoUnito Olanda Islanda Irlanda Austria Germania Danimarca Francia Belgio Portogallo Italia Grecia Spagna Dissimilarità Dendrogramma La cluster analysis I centri delle classi

17 … C) … le relazioni di dipendenza per predire classi, preferenze, valori Metodi esplicativi

18 % BC campione base: 74.35% % BC campione test: 69.47% Esempio: Indagine sui laureati

19 Le ipotesi Le ipotesi Sistema osservato La Formazione dei Dati La Formazione dei Dati  scelta delle osservazioni  scelta delle variabili  codifica dei dati  matrice dei dati  matrice di correlazione/associazione  matrice di distanze (similarità) Matrice dei Dati ……… .... M 1 M 2 M 3 M 4 Rappresentazioni in Analisi dei Dati Rappresentazioni in Analisi dei Dati  Rappresentazioni Fattoriali  Analisi delle Componenti Principali  Analisi delle Corrispondenze  Analisi Discriminante  Analisi Canonica  Classificazione  Classificazione Gerarchica  Partizioni Classi di equivalenza livello di similarità a2a2 a1a1 interazione tra colonne tipologie di righe interazione righe  colonne Le basi dell’AMD

20 preparazione codificaregole di interpretazione validazione Particolare rilevanza assumono quindi le fasi di preparazione e codifica dei dati, e la definizione di regole di interpretazione e di validazione delle rappresentazioni fornite dalle tecniche utilizzate. La Statistica esplorativa multidimensionale

21 La matrice dei dati: 1 2 j p 1212 X = x ij i n n punti in R p p punti in R n

22 Rappresentazione geometrica delle unità statistiche i1i1 i2i2 i3i3 x y 1 2 4 5 5 2 Spazio degli individui Lunghezza del vettore esprime la taglia dell’individuo Distanza tra unità esprime la dissosomiglianza tra unità Se le variabili sono eterogenee si rende necessaria una misura di distanza ponderata x y i1i1 i2i2 i 3 [ 5, 2 ] 3 individui in R 2 RpRp

23 Rappresentazione geometrica delle variabili statistiche Spazio delle variabili i1i1 i2i2 i3i3 x y 4 5 1 2 5 2 Lunghezza del vettore esprime la variabilità del carattere (per variabili centrate è la devianza) Angolo tra vettori esprime la correlazione tra le variabili ( per variabili centrate è il coefficiente r ) cos(90°) = 0  vettori ortogonali (var. incorrelate cos(0°) =|1|  vettori collineari (var. max correlate) x = [ 1,2,5 ] y = [ 4,5,2 ]  2 variabili in R 3 i1i1 i2i2 i3i3

24 Richiami sulla distanza euclidea Proprietà di una Distanza Teorema di Pitagora e Distanza Euclidea i x1x1 x2x2 i’i’ i ’’ P2P2 P1P1 x y x1x1 x2x2 y1y1 y2y2 Nel caso di più variabili x, y, …, z Necessità di introdurre un sistema di pesi es.:

25 i1i1 i2i2 inin v1v1 vjvj vpvp Ricerca delle nuove variabili di sintesi (fattori) più correlate con le variabili originarie e tra loro non correlate    u  V  +  u  2 V 2 +  u  p V p I Criteri dell’ AF (Hotelling 1936) Spazio delle variabili I coefficienti u  esprimono il ruolo delle variabili originarie nella costruzione delle variabili di sintesi, risultando preziosi per la interpretazione di queste ultime  

26 i1i1 i2i2 inin v1v1 vjvj vpvp Ricerca di piani (sottospazi), generati da assi ortogonali di lunghezza unitaria u ,  u 2 …, che consentano la i migliore visualizzazione dell’immagine della nube delle unità I Criteri dell’ AF (Pearson 1904) Spazio delle unità ihih uu u 2 i 1 i 2 Le rappresentazioni sono valide se le distanze tra punti non si modificano molto in proiezione Gli assi u  evidenziano le direzioni di massima variabilità (informazione) della nuvola delle unità statistiche ihih

27 Esempio ACP: i consumi alimentari Matrice dei dati: 16 Paesi, 10 variabili continue

28 Esempio ACP: i consumi alimentari La variabilità sui nuovi fattori: gli autovalori

29 Esempio ACP: i consumi alimentari Autovettori

30 Esempio ACP: i consumi alimentari Coordinate sui nuovi assi Es.: Belgio sul primo fattore 0,30 0,35 0,11 -0,44 0,45 0,37 0,12 -0,40 -0,25 -0,04  = (-0,42  0,30) + (0,03  0,35) + (0,66  0,11) + … + (0,96  -0,04) -0,42 0,03 0,66 0,63 0,14 -0,26 0,95 -1,05 1,48 0,96 72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2 Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova = - 0,23 Valori iniziali Dati standardizzati Primo autovettore Coordinata del BELGIO sul primo fattore

31 Esempio ACP: i consumi alimentari Coordinate sui nuovi assi

32 Esempio ACP: i consumi alimentari L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali

33 L’interpretazione dei fattori O Un autovalore  è una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse  - esimo eiei pipi cici uu uu umum Il contributo assoluto Ca i  misura l’apporto di ogni punto alla variabilità dell’asse. Il contributo assoluto Ca i  misura l’apporto di ogni punto alla variabilità dell’asse. I punti con un contributo molto grande, es.maggiore di 0.7, vanno posti in supplementare

34 Una misura della qualità della rappresentazione e2e2 e1e1 ~ e1e1 ~ e2e2 O 11 22 Il coseno al quadrato è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti: quanto più risulta prossimo ad 1 tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato. Due punti-unità possono trovarsi vicini nello spazio di proiezione non perché lo siano nello spazio iniziale di riferimento ma solo per gli effetti distorsivi dell’operazione di proiezione e3e3 e3e3 ~

35 Esempio i consumi alimentari

36 I diversi tipi di rappresentazione Visualizzazione nel miglior spazio ridotto Metodi Fattoriali Raggruppamenti nello spazio completo Metodi di Classificazione Automatica

37 Matrici e metodi di AMD Strategia di AMD Matrice strutturata Analisi nello spazio delle variabili NO Per riga SI Anal. Discrimin. Segmentazione SI Analisi simmetrica NO Regress.PLS Conjoint Anal. An. Non Simm Corrisp. NO Correl. Canon. Corrisp. Multi. An. Matrici 3D SI Cluster Anal. Scaling Multid NO Comp.Princ. An. Corrisp. SI Analisi confermative Analisi esplorative Variabili qualitative Variabili ordinali Variabili quantitative

38 Classificazione automatica I dati Tabelle individui-variabili numeriche Tabelle di contingenza Tabelle di presenza-assenza Si ipotizza la presenza di raggruppamenti tra le unità oppure Se ne richiede la determinazione La identificazione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva. Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che: - gli individui all'interno di una classe siano molto simili - ogni classe sia relativamente distinta dalle altre

39 I metodi di Classificazione automatica ObiettivoObiettivo Definire una o più partizioni a partire dall’insieme dei punti considerati Problema Numero delle partizioni possibili Es.: 4 elementi (A,B,C,D) e 2 gruppi (A) (B,C,D)(B) (A,C,D)(C) (A,B,D)(D) (A,B,C)(A,B) (C,D)(A,C) (B,D)(A,D) (B,C) Numero delle partizioni (P) 2 n-1 - 1 n=4 P = 7 n=10 P = 511 n=100 P = 1,000,000,000,000,000,000,000,000,000,00 - 1 = 10 29 -1 = 10 29 -1

40 I metodi di Classificazione automatica 1 milione di partizioni al secondo Partizione ottimale di... … 20 unità in 5 classi … 30 unità in 5 classi 2444secoli! 2444 secoli! 8 giorni

41 I metodi di Classificazione automatica Gli algoritmi per la classificazione automatica possono portare: ° Direttamente a delle partizioni Classificazione non gerarchica Alla costruzione di classi per aggregazioni successive di coppie di oggetti ° Alla costruzione di classi per dicotomizzazioni successive dell’insieme degli oggetti Classificazione gerarchica ascendente Classificazione gerarchica discendente (segmentazione) °

42 Metodo delle nubi dinamiche 1° passo: Scelta casuale dei k nuclei iniziali2° passo: Calcolo delle distanze e definizione della prima partizione Convergenza: Stabilità della partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove distanze, definizione della nuova partizione, e così via...

43 P 3 ={(e 1 e 2 ) (e 3 e 4 ) e 5 } P 2 ={(e 1 e 2 ) e 3 e 4 e 5 } nodi rami  taglio del dendrogramma per ottenere i gruppi e1e1 e2e2 e3e3 e4e4 e5e5 E e5e5 e1e1 e2e2 e3e3 e4e4 P 1 ={e 1 e 2 e 3 e 4 e 5 } P 4 ={(e 1 e 2 e 3 e 4 ) e 5 } H(E) P 5 ={(e 1 e 2 e 3 e 4 e 5 )} Gerarchia una gerarchia è una sequenza di partizioni nidificate Albero Gerarchico o Dendrogramma

44 Un esempio di Classificazione Gerarchica Criterio della distanza minima (Criterio della distanza minima) abcdefg abcdefg 1 2 3 4 5 6

45 I diversi criteri di raggruppamento Gruppo A Gruppo B Criteri per la determinazione della distanza tra due gruppi Criteri per la determinazione della distanza tra due gruppi Distanza minimaa.Distanza massimab. Distanza centroidic.Distanza mediad. ; ; x x Criteri basati sull’inerzia dei gruppi Criteri basati sull’inerzia dei gruppi Metodo di Ward

46 I diversi criteri di raggruppamento abcdefg abcdefg abcdefg abcdefg Distanza minima Distanza massima Distanza media

47 La descrizione delle classi: I valori-test a) variabili continue: ~ N(0,1) b) variabili nominali Variabile j Media classe k Media generale Numerosità totale Numerosità classe k Varianza variabile j

48 La definizione delle classi Classe 1 BE, FR, GE, DA, IR Classe 2 AU, OL, SV, FI, GB, NO, IS Classe 1 SP, PO, GR, IT 2.81 es.:

49 Le “tipologie” La dieta mediterranea La dieta iperproteica La dieta grassa

50 L’analisi degli sbocchi occupazionali dei laureati delle Facoltà di Scienze Politiche e di Economia di Macerata

51 Il piano delle interviste IntervistatiTot. Laureati% Scienze Politiche 12218068% Economia Bancaria 12915981% Totale25133974% Conoscere le caratteristiche dei laureati della Facoltà di Scienze Politiche (Luglio 1995 - Gennaio 1998) e i loro sbocchi occupazionali Obiettivo

52 Le variabili attive 1.Corso di laurea (Scienze Politiche; Economia Bancaria) 2.Genere (M; F) 3.Residenza (MC; provincia MC; altra prov.) 4.Età alla laurea (24-25; 26-28; >28) 5.Voto di laurea (  95; 96-104; 105-109; 110-110e lode) 6.Diploma (Liceo; Tecnico Comm.; Altro Tecnico; Altro Diploma) 7.Voto diploma (36-42; 43-48; 49-54; 55-60) 8.Area Tesi (Economica; Giuridica; Aziendale; Altra) 9.Anni laurea (4-5a.a.; 6-7a.a.; 8 e più) 10.Posizione durante gli studi (Studente Lav.; Part-time; Studente) 10 variabili 35 modalità

53 Le variabili illustrative Borse post-laurea Specializzazione Colloqui post-laurea Esigenze mercato Condizione occupazionale Scelta universitaria Tempo prima occupazione Canali Corrispondenza Laurea/Lavoro Soddisfazione lavoro Preparazione universitaria

54 ACM - La matrice dei dati

55 La matrice dei dati (Codifica ridotta)

56 I dati e la codifica Codifica ridotta Codifica disgiuntiva completa p variabili s modalità... Z =Z = 0 11 0 01 0 0 0 s = s 1 +s 2 +…+s p s1s1 spsp s2s2 f <30 m 30-50>50stuimpdirpen 21443131 n p R =R = (i)(i) sex (2) età (3) prof (4)

57 La matrice dei dati (Codifica disgiuntiva completa)

58 La tabella di Burt | SP EB | Masc Femm | Res1 Res2 Res3 | Eta1 Eta2 Eta3 | ……………… | -----+----------+-----------+----------------+----------------+--------------+ SP | 122 0 | EB | 0 129 | -----+----------+-----------+ Masc | 61 53 | 114 0 | Femm | 61 76 | 0 137 | -----+----------+-----------+----------------+ Res1 | 15 20 | 19 16 | 35 0 0 | Res2 | 38 44 | 32 50 | 0 82 0 | Res3 | 69 65 | 63 71 | 0 0 134 | -----+----------+-----------+----------------+----------------+ Eta1 | 28 74 | 50 52 | 15 28 59 | 102 0 0 | Eta2 | 72 52 | 53 71 | 17 48 59 | 0 124 0 | Eta3 | 22 3 | 11 14 | 3 6 16 | 0 0 25 | -----+----------+-----------+----------------+----------------+--------------+ … | ……………… | ……………… | ……………… | ……………… | ……………… | -----+----------+-----------+----------------+----------------+--------------+

59 Gli autovalori e la varianza spiegata Num.Autovalore% cumulata 10.269412.24 20.17597.9920.24 30.15006.8227.05 40.13996.3633.41 50.12635.7439.15 60.12305.5944.74 70.11865.3950.13 80.11155.0755.20 90.10494.7759.97 100.10384.7264.69 110.09674.4069.08 120.09434.2873.37 130.08814.0177.37... …… 220.03181.45100.00

60 Istogramma della variabilità spiegata (valori percentuali)

61 La lettura dei piani fattoriali Ogni domanda del questionario (variabile) è rappresentata da tanti punti quante sono le sue modalità di risposta Il baricentro della nube dei punti (origine degli assi) è anche il baricentro delle modalità di ciascuna variabile La prossimità tra due modalità esprime una stretta connessione (interdipendenza) dei temi che esse rappresentano Le prossimità tra modalità relative a variabili attive e supplementari vanno lette in termini di dipendenza delle seconde rispetto alle prime Se le modalità di una variabile sono ordinate, si studieranno le traiettorie seguite da questi punti, le loro forme e le loro posizioni reciproche La prossimità tra punti-unità (intervistati) evidenzia una posizione simile rispetto ai temi trattati nel questionario La prossimità tra punti-modalità e punti-unità, qualora si ricorra a rappresentazioni congiunte, rivelano l’importanza che talune caratteristiche hanno nel profilo di ciascun intervistato o di gruppi di questi

62 Il piano fattoriale 1-2: modalità attive

63 La lettura dei risultati autovalori 1. Gli autovalori sono una misura eccessivamente pessimistica dell’effettivo potere esplicativo dei fattori individuati; profilisimili 2. Affermare che esistono affinità tra risposte equivale a dire che esistono delle unità che hanno scelto tutte, o quasi tutte, le stesse modalità. L’ACM mette in evidenza gli individui che hanno dei profili simili rispetto alle modalità osservate. Si possono quindi individuare: 2aLe prossimità tra individui 2a. Le prossimità tra individui 2b. Le prossimità tra modalità di variabili differenti contributi assolutinon coordinate 3. I fattori vanno interpretati tenendo conto dei valori dei contributi assoluti e non delle coordinate dei punti (come avveniva in ACP) i i’ i i Cr(i)<Cr(i’) f(i.)<f(i’.) Cr(i)<Cr(i’)  (i)<  (i’) Cr(i)=Cr(i’) f(i.)   (i)= f(i’.)   (i’)

64 I contributi assoluti Asse 1Asse 2 Corso di laurea Scienze Politiche11.491.24 Econ. bancaria10.871.17 Genere Maschio0.172.38 Femmina0.141.98 Residenza Res. MC0.000.43 Res. MC pr.0.126.21 Res. altra pr.0.075.23 Età alla laurea 24-25 anni8.586.43 26-28 anni2.0911.75 >28 anni7.266.32 Voto di laurea <=950.154.65 96-1040.730.92 105-1090.200.54 110 e lode2.341.87 Diploma Liceo2.101.18 Tecnico Comm.1.790.28 Altro Tecnico0.030.14 Altro diploma0.0610.17

65 I contributi assoluti Asse 1Asse 2 Voto diploma 36-424.981.95 43-480.222.57 49-541.700.20 55-603.880.00 Area Tesi Tesi Economica0.430.44 Tesi Giuridica0.030.86 Tesi Aziendale9.920.22 Altra Tesi6.250.40 Anni laurea Laurea 4-5 a.6.8810.81 Laurea 6-7 a.0.1211.52 Laurea 8+ a.11.272.11 Posizione durante gli studi Studente-lavoratore4.345.44 Studente part-time0.550.22 Studente TP1.230.38

66 La descrizione dei fattori con i valori-test njnj Numero di soggetti che presentano la modalità j jj ^ Coordinata della modalità j nel caso di estrazione casuale degli n j soggetti Per n j sufficientemente grande

67 Il piano fattoriale 1-2: modalità attive

68

69 Il piano fattoriale 1-2: modalità illustrative

70 Il piano fattoriale 3-4: modalità attive

71 I diversi tipi di rappresentazione Visualizzazione nel miglior spazio ridotto Metodi Fattoriali Raggruppamenti nello spazio completo Metodi di Classificazione Automatica

72 Istogramma degli indici dei nodi

73 Dendrogramma e partizioni

74 La descrizione delle classi: I valori-test a) a) variabili continue: ~ N(0,1) b) b) variabili nominali ~ N(0,1) 95%  2.5% -1,96 1,96  0 Media generale Numerosità classe k Numerosità totale Media classe k Varianza variabile j Variabile j

75 Una tipologia di laureati Gli Studenti-lavoratori (21.0%) Gli Studenti a tempo pieno (79.0%) I Diligenti (53.0%) I Pigri (26.0%) I Brillanti (14.0%) I Bravi (39.0%) Le Precise (11.0%) Gli Efficienti (28.0%) I Soddisfatti (19.5%) Gli Incerti (8.5%) I Delusi (20.0%) I Rassegnati (6.0%) I Precari (9.5%) Gli Stabili (11.5%)

76 Classe 1/8: “Le precise” (11%) -------------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili -------------------------------------------------------------------- 5.12 75.00 29.48 110 e lode Voto di laurea 4.44 92.86 54.58 Femmina Genere 4.42 42.86 11.55 Altro diploma Diploma 3.87 42.86 13.94 Res. MC Residenza 2.83 46.43 22.31 Tesi Giuridica Area Tesi 2.71 42.86 20.32 49-54 Voto diploma 2.37 32.14 14.34 Pr. pienam. adeguata Preparazione univ. 2.29 71.43 49.40 26-28 anni Età alla laurea 1.90 17.86 6.77 Borse SI Borse post-laurea 1.41 35.71 23.11 Specializz. SI Specializzaz. 1.20 75.00 62.95 Soddisf. lavoro SI Soddisfazione lavoro 1.19 35.71 24.70 Corr. Lau/Lav SI Corr. Laurea/Lavoro 1.09 10.71 4.78 Inserzioni Canali 1.03 35.71 25.90 Occ. precario/Tiroc. Condizione occupaz. --------------------------------------------------------------------- Gruppo composto prevalentemente da studentesse, (92.8%), che hanno conseguito il diploma di laurea con una votazione di 110 e lode, hanno un altro diploma con una votazione medio alta, hanno scelto una tesi giuridica e un’età tra i 26 e 28 anni. Nel loro curriculum hanno una borsa di studi e spesso anche una specializzazione. Le componenti di questo gruppo si dichiarano soddisfatte del lavoro che svolgono e trovano la preparazione universitaria ricevuta corrispondente al lavoro svolto, sebbene il 36 % risultano con una condizione occupazionale precaria.

77 Classe 2/8: “I Soddisfatti” (19.5%) ----------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ----------------------------------------------------------------- 6.00 73.47 35.06 Tesi Economica Area Tesi 5.93 89.80 52.99 Res. altra pr. Residenza 5.85 69.39 32.27 105-109 Voto di laurea 2.78 48.98 31.08 Liceo Diploma 2.46 65.31 48.61 Scienze Politiche Corso di laurea 1.55 73.47 62.95 Soddisf. lavoro SI Soddisfazione lavoro 1.35 12.24 6.77 Chiamata diretta Canali 1.25 32.65 24.70 Corr. Lau/Lav SI Corr. Laurea/Lavoro 1.19 85.71 78.49 Stessa univ. Scelta universitaria 0.93 36.73 30.28 <6 mesi Tempo prima occupazione ------------------------------------------------------------------ Sono per la maggior parte laureati in Scienze Politiche, proveniva da studi liceali con una tesi in economia, laureati con un voto medio alto (105-109). Il 73.5 % è soddisfatto del lavoro svolto, che hanno trovato, generalmente, per chiamata diretta e in relazione un tempo breve (< 6 mesi; tra 6 e 12 mesi).

78 Classe 3/8: “Gli Incerti” (8.5%) ------------------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ------------------------------------------------------------------------- 4.96 47.62 8.37 Altro Tecnico Diploma 3.71 80.95 40.64 24-25 anni Età alla laurea 3.63 71.43 32.27 105-109 Voto di laurea 3.50 71.43 33.47 Laurea 4-5 a. Anni laurea 3.24 80.95 45.42 Maschio Genere 3.22 42.86 13.94 Res. MC Residenza 2.57 61.90 33.47 43-48 Voto diploma 2.32 95.24 73.31 Studente TP Posizione durante gli studi 2.18 76.19 51.39 Econ. bancaria Corso di laurea 1.22 23.81 12.75 Soddisf. lavoro NO Soddisfazione lavoro 1.18 14.29 5.98 Altro canale Canali 1.10 23.81 13.55 >1 anno Tempo prima occupazione 1.00 33.33 22.31 Tesi Giuridica Area Tesi -------------------------------------------------------------------------- Un gruppo poco numeroso formato da studenti di Economia Bancaria, maschi (81 %), mediamente diligente ( laureati in 4-5 anni) e mediamente bravi (voto di laurea 105- 109),con un’età compresa tra 24 e 25 anni, un diploma tecnico. Questi non risultano soddisfatti del lavoro attualmente svolto.

79 Classe 4/8: “I Brillanti” (14%) ---------------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ----------------------------------------------------------------------- 6.17 77.14 29.48 110 e lode Voto di laurea 5.71 94.29 51.39 Econ. bancaria Corso di laurea 5.58 65.71 23.90 Tesi Aziendale Area Tesi 5.34 82.86 40.64 24-25 anni Età alla laurea 5.17 74.29 33.47 Laurea 4-5 a. Anni laurea 5.09 88.57 49.00 Tecnico Comm. Diploma 4.63 51.43 18.73 55-60 Voto diploma 2.43 91.43 74.50 Stage in azienda Esigenze mercato 2.09 88.57 73.31 Studente TP Posizione durante gli studi 1.94 57.14 40.64 4+ coll. Colloqui post-laurea 1.82 68.57 52.99 Res. altra pr. Residenza 1.50 31.43 20.32 49-54 Voto diploma 1.48 11.43 4.78 Inserzioni Canali 1.48 14.29 6.77 Borse SI Borse post-laurea 1.41 37.14 25.90 Occ. precario/Tiroc. Condizione occupaz. 1.22 28.57 19.52 6-12 mesi Tempo prima occupazione 1.11 22.86 15.14 Ric. alle aziende Canali ---------------------------------------------------------------------- Sono gli studenti in Economia Bancaria hanno un voto di laurea di 110 e lode, si sono laureati in 4 –5 anni, con un età compresa tra i 24 e 25 anni e una votazione di diploma tra il 55 e 60. Questi hanno fatto Stage in azienda (88.5 %), e molti colloqui di lavoro (più di 4).

80 Classe 5/8: “I Delusi” (20%) ----------------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ----------------------------------------------------------------------- 19.52 CLASSE 5 / 8 9.17 85.71 29.48 96-104 Voto di laurea 4.01 77.55 51.39 Econ. bancaria Corso di laurea 4.01 77.55 51.39 Laurea 6-7 a. Anni laurea 3.80 57.14 32.67 Res. MC pr. Residenza 2.67 46.94 29.88 Conosc.personali Canali 2.02 100.00 93.23 Borse NO Borse post-laurea 1.96 32.65 21.12 Non occupato Condizione occupaz. 1.54 22.45 14.34 Pr. carente Preparazione univ. 1.51 30.61 21.51 Univ. diversa Scelta universitaria 1.43 44.90 35.06 Tesi Economica Area Tesi 1.42 36.73 27.49 36-42 Voto diploma 1.30 24.49 17.13 Studente part-time Posizione durante gli studi 1.10 44.90 37.05 Corr. Lau/LAv NO Corr. Laurea/Lavoro 1.10 81.63 74.50 Stage in azienda Esigenze mercato 1.05 57.14 49.40 26-28 anni Età alla laurea ----------------------------------------------------------------------- E’ composto da neolaureati in Economia Bancaria (il 77.5 %),che hanno conseguito la laurea in 6- 7 anni con una votazione di laurea media (96-104), non hanno vinto borse di studio, trovano lavoro attraverso le conoscenze personali (il 47%) e il 32.6% non ha un’occupazione.

81 Classe 6/8: “I Rassegnati” (6%) ---------------------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ---------------------------------------------------------------------------- 9.26 100.00 8.76 <=95 Voto di laurea 3.62 93.75 49.40 26-28 anni Età alla laurea 2.52 100.00 73.31 Studente TP Posizione durante gli studi 2.26 81.25 51.39 Laurea 6-7 a. Anni laurea 1.75 25.00 8.76 Ric. mercato/Altro Esigenze mercato 1.74 50.00 27.49 36-42 Voto diploma 1.50 50.00 29.88 Conosc.personali Canali 1.38 68.75 49.00 Tecnico Comm. Diploma 0.94 43.75 30.28 <6 mesi Tempo prima occupazione ---------------------------------------------------------------------------- Sono studenti non bravi hanno impiegato 6-7 anni a laurearsi, con un voto di laurea e di diploma basso (il primo meno di 96 e il secondo tra 36-42).

82 Classe 7/8: “I Precari” (9.5%) Sono stati studenti lavoratori a part-time (il 29.2%), prevalentemente maschi (il 66.7%), con diploma liceale, laureati in Scienze Politiche (il 96 %), in più di 8 anni, tutti con un’altra tesi, inoltre alcuni, attualmente, non hanno un’occupazione. ----------------------------------------------------------------------------------- V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ----------------------------------------------------------------------------------- 9.36 100.00 18.33 Altra Tesi Area Tesi 5.01 95.83 48.61 Scienze Politiche Corso di laurea 4.92 79.17 31.08 Liceo Diploma 2.95 62.50 32.67 Res. MC pr. Residenza 2.87 37.50 13.94 Laurea 8+ a. Anni laurea 2.01 70.83 49.40 26-28 anni Età alla laurea 1.99 54.17 33.47 43-48 Voto diploma 1.98 66.67 45.42 Maschio Genere 1.78 41.67 24.30 1-2 coll. Colloqui post-laurea 1.58 45.83 29.48 96-104 Voto di laurea 1.33 29.17 17.13 Studente part-time Posizione durante gli studi 1.06 16.67 8.76 Ric. mercato/Altro Esigenze mercato 0.99 12.50 5.98 Altro canale Canali -----------------------------------------------------------------------------------

83 Classe 8/8: “Gli Stabili” (11.5%) Sono coloro che durante gli studi universitari svolgevano già un’attività a tempo pieno (il 62%), dopo la laurea non hanno sostenuto colloqui e hanno un’occupazione stabile (il 76%). Questa classe è formata dai soli laureati in Scienze Politiche, che hanno conseguito la laurea in tempi lunghi ( più di 8 anni), reputano la preparazione universitaria adeguata e sono insoddisfatti del lavoro che svolgono attualmente. ------------------------------------------------------------------------ V.TEST % % Modalità gruppo tot. Caratteristiche Variabili ------------------------------------------------------------------------ 8.16 65.52 9.96 >28 anni Età alla laurea 7.82 62.07 9.56 Studente-lavoratore Posizione durante gli studi 6.44 62.07 13.94 Laurea 8+ a. Anni laurea 6.34 100.00 48.61 Scienze Politiche Corso di laurea 5.94 55.17 12.35 Già occupato Tempo prima occupazione 3.94 41.38 13.15 Bandi Canali 3.58 48.28 19.52 Nessun colloquio Colloqui post-laurea 3.08 34.48 12.75 Soddisf. lavoro NO Soddisfazione lavoro 2.83 75.86 49.80 Occ. Stabile Condizione occupaz. 2.53 65.52 41.83 Pr. adeguata Preparazione univ. 1.95 44.83 27.49 36-42 Voto diploma 1.85 37.93 22.31 Tesi Giuridica Area Tesi 1.53 34.48 21.51 Univ. diversa Scelta universitaria 1.37 27.59 16.73 Scuole specializz. Esigenze mercato 1.36 24.14 13.94 Corr. Lau/Lav NON SO Corr. Laurea/Lavoro 1.33 17.24 8.76 Ric. mercato/Altro Esigenze mercato 1.27 41.38 29.48 96-104 Voto di laurea 1.20 100.00 93.23 Borse NO Borse post-laurea 1.07 34.48 24.70 Corr. Lau/Lav SI Corr. Laurea/Lavoro ------------------------------------------------------------------------

84 Metodi fattoriali e Classificazione Metodi fattoriali Sono particolarmente adatti all’esplorazione di grandi tabelle di dati individuali + Consentono di evidenziare le relazioni strutturali tra le variabili e/o le unità osservate + I piani rappresentano solo una parte della variabilità totale - La lettura può risultare complessa - Metodi di classificazione La descrizione delle classi è più facile di quella di uno spazio continuo, anche se a due dimensioni + Le classi si formano sulla base delle dimensioni reali del fenomeno e non considerano, quindi, eventuali deformazioni dovute ad operazioni di proiezione + Gli algoritmi di classificazione sono generalmente “robusti”, nel senso che risultano non influenzati da eventuali punti anomali isolati + Lo spazio a p dimensioni è probabilmente ridondante e contiene, quindi, una parte di “rumore”, inutile ai fini dell’analisi - Approccio integrato Classificazione sui risultati di un metodo fattoriale


Scaricare ppt "X1x1 x2x2 x3x3 xjxj xkxk xpxp xmxm L’Analisi Multidimensionale dei Dati Introduzione al Data Mining estrarre informazione nascosta nei dati in modo da."

Presentazioni simili


Annunci Google