ALBERI DECISIONALI prima parte

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

L13 Il processo di modellizzazione Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Presupposti alla lezione
Analisi preliminari dei dati
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Descrizione dei dati Metodi di descrizione dei dati
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Quali sono i clienti che l’azienda è in grado di soddisfare?
Levels of constraint I vincoli (o livelli di costrizione) sono i condizionamenti impiegati dalla ricerca.
Raccolta dei dati e relazioni tra variabili
Scopo della lezione Regressione lineare multipla Cos’è
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
ALBERI DECISIONALI terza parte
Analisi trivariata Lavorando con due variabili è possibile descrivere la relazione che fra queste esiste e formulare una congettura circa il tipo di legame.
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Metodi di ricerca in Psicologia
Metodi della ricerca in Psicologia
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
STATISTICA PER LE DECISIONI DI MARKETING
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Statistica Che cos’è?.
STATISTICA PER LE DECISIONI DI MARKETING
Modelli di analisi della domanda
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
è … lo studio delle caratteristiche di regolarità dei fenomeni casuali
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
accertamento e valutazione degli esiti di apprendimento
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.
La statistica.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Analisi Multivariata dei Dati
ORIENTAMENTO CONSAPEVOLE
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Regressione lineare - Esercizi
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Esercizio Alberi di classificazione DATI Un’azienda vuole valutare l’efficacia di una promozione effettuata attraverso buoni acquisto. Per questo motivo.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
NB: La lettura delle slide è solo un supporto allo studio che non sostituisce i testi di esame Metodi e tecniche della ricerca sociale - Prof. Flavio Ceravolo.
Corso di Laurea in Scienze e tecniche psicologiche
EPG di Metodologia della ricerca e Tecniche Multivariate dei dati A.A
DEFINIRE I REQUISITI DEL CLIENTE SVILUPPARE E VALUTARE IL QUESTIONARIO IMPIEGARE IL QUESTIONARIO Dimensioni della qualità 1.Perfomance 2.Optionals 3.Affidabilità.
Cos’è la ricerca sociale? La raccolta di informazioni relative ad una realtà, ad un fenomeno sociale secondo obiettivi specifici:
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Transcript della presentazione:

ALBERI DECISIONALI prima parte

Argomenti della lezione Generazione di sistemi di classificazione Scelte dell’analisi Criteri di valutazione della disomogeneità

Gli alberi decisionali rientrano nell’ambito dell’analisi della dipendenza Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione di spaccature di tipo gerarchico L’obiettivo è di selezionare, tra le variabili esplicative, quelle che maggiormente spiegano la variabilità (o la mutabilità) della variabile target

La costruzione dell’albero è una procedura stepwise Le partizioni prodotte sono di tipo gerarchico, e pertanto rappresentabili mediante un dendrogramma ad albero La costruzione dell’albero è una procedura stepwise

Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio della variabile dipendente

Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai valori assunti da una o più variabili esplicative Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a quando il processo viene interrotto in base ad una regola d’arresto

La partizione migliore ad ogni passo viene scelta sulla base di un criterio di omogeneità interna dei gruppi che vengono generati dalle suddivisioni del campione

La variabile dipendente può essere: qualitativa quantitativa

La costruzione dell’albero può seguire una procedura di partizione: binaria ternaria multipla

Ambiti di applicazione degli alberi decisionali:

ricerca di interazioni tra variabili predittive identificazione di gruppi devianti identificazione di dati anomali

interpretazione causale del fenomeno rappresentato dalla variabile dipendente ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali

forzatura di un dato valido in sostituzione di un dato mancante produzione di regole di previsione o di classificazione

Regole di salvaguardia nella esecuzione dell‘analisi: errore di stima nei gruppi formati forma della distribuzione della variabile dipendente

Scelte nell’analisi di partizione

tipo di variabile dipendente ordine di ingresso dei predittori numero dei gruppi da tentare ad ogni passo dell’analisi criteri che modificano la struttura dell’albero criteri di arresto del processo di segmentazione

Eliminazione dall’analisi di variabili di disturbo

Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà spiegata da questa variabile predittiva In questi casi è opportuno considerare invece della variabile originaria Y, i residui della regressione della Y sulla Z

Scelta dei potenziali predittori: ipotesi a priori analisi statistiche preliminari del campione osservato

Modalità dei predittori Tutte le variabili esplicative vanno trasformate in variabili categoriali Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi Limitare il numero di categorie e bilanciarle tra le variabili

Monotonicità della relazione

Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala almeno ordinale, quando la crescere della prima la seconda varia costantemente Si impone la monotonicità tra Y e X quando si vuole che siano aggregate per formare gruppi solo modalità adiacenti sulla scala ordinale

x1 > 0,7 t1 x2 > 0,5 x1 ≤ 0,7 x2 ≤ 0,5 t2 t3 t5 t4

x2 t5 t3 t4 x1 0,5 0,7 classe 1 classe 2

Ordine d’ingresso dei predittori E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente inserite per prime nel processo di partizione le variabili che stanno all’origine della catena causale