DATA MINING PER IL MARKETING

Slides:



Advertisements
Presentazioni simili
I SISTEMI LINEARI.
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Capitolo 8 Sistemi lineari.
Autovalori e autovettori
Dinamica del manipolatore
Fisica: lezioni e problemi
La regressione lineare trivariata
Richiami di Identificazione Parametrica
Algebra delle Matrici.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
STATISTICA 6.0: REGRESSIONE LINEARE
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.
La logica della regressione
MATLAB. …oggi… Programmare in Matlab Programmare in Matlab Funzioni Funzioni Cicli Cicli Operatori relazionali Operatori relazionali Indipendenza lineare,
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
LA PARABOLA PREREQUISITI DISTANZA TRA DUE PUNTI
Corso di biomatematica lezione 5: propagazione degli errori
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Metodi statistici per l'analisi del cambiamento 5/3/ Notazione (simboli) Obbiettivo: occorre che si mantengano le tracce, in merito al punteggio,
Modello di regressione lineare semplice
Determinazione Orbitale di Satelliti Artificiali Lezione 4
Determinazione Orbitale di Satelliti Artificiali Lezione 5
Teoria degli errori.
STATISTICA PER LE DECISIONI DI MARKETING
Metodo dei minimi quadrati
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Introduzione ai Metodi Inversi
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Sottospazi vettoriali
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Fisica: lezioni e problemi
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Strumenti statistici in Excell
Analisi Multivariata dei Dati
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Prof. Cerulli – Dott. Carrabs
Transcript della presentazione:

DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale (Capitolo 4 del libro + Appendice A) 1

Forma generale del modello di regressione Il modello è ancora lineare nei coefficienti βj ma la differenza sostanziale rispetto al modello lineare semplice è nella presenza di più variabili esplicative Xj  j = 1, k – 1 In notazione compatta (per l’unità i): 𝛽 = β𝟎 β𝟏 ⋮ β𝒌−𝟏 𝒙𝒊 = 𝑥𝑖0=1 𝑥𝑖1 ⋮ 𝑥𝑖,𝑘−1 𝑥 𝑖 ′ 𝛽=1 𝛽 0 + 𝑥 𝑖1 𝛽 1 +…+ 𝑥 𝑖,𝑘−1 𝛽 𝑘−1

In forma matriciale (per tutte le n osservazioni) il modello è: 𝑌 = 𝒀𝟏 𝒀𝟐 ⋮ 𝒀𝒏 Qual è la relazione tra X e la matrice dei dati? Xβ definisce un piano (k=3) o un “iperpiano” (k>3) di regressione

Generalizzazione delle assunzioni viste per la regressione lineare semplice che implica Partire dalle assunzioni su Y o da quelle su  (v. p. 173) è equivalente: X non aleatoria

Assunzione sulla matrice di covarianze dei termini di errore significato Richiami sulla matrice di covarianze di un vettore aleatorio (pp. 297 - 299)

Assunzioni sulla matrice X X = fissa, non stocastica: non dipende in alcun modo dal termine di errore ε X ha rango pieno: non ci sono colonne di X linearmente dipendenti da altre

Ripasso sulle matrici: v. Appendice A Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta (trasposta del prodotto) Matrice inversa Traccia Matrice idempotente Somma di quadrati (ponderata) in forma matriciale Forme quadratiche (positive, negative definite) Forme quadratiche idempotenti Scomposizione spettrale Derivata di un vettore X (aleatorio) Derivata di una funzione (lineare o quadratica) di X

Stima di β con il metodo dei minimi quadrati Occorre trovare il vettore β che minimizza la seguente espressione (dove  tilde indica un generico vettore di residui e y è il vettore dei valori osservati di Y): Cioè:

Occorre trovare il vettore β che risolve la seguente equazione Quindi, per il vettore β che risolve l’equazione (β cappello) vale la relazione: Se la matrice X’X quadrata di dimensione kk (k = numero di parametri del modello), è invertibile (v. assunzione su rango X):

Ripasso: vincoli del sistema di equazioni normali nella regressione semplice (p. 148) Vincoli nella regressione multipla: l’equazione implica X’e = 0  k vincoli lineari sui residui (nella regressione semplice k=2)

Esempio regressione multipla Y = Investimenti X1 = PIL (migliaia di miliardi) X2 = Trend (1, 2, 3, … 15) dati p. 176 Esercitazione in Excel File di input e testo esercizio (da fare in autonomia): sv-regr-multipla_dati.xls 11

Esempio investimenti: output modello di regressione multipla (p. 178) Calcolo dei coefficienti stimati: Excel ANALISI DATI (p. 307) o IBM SPSS Statistics (v. dopo) Come si interpretano i coefficienti (stimati) del modello di regressione multipla? Le stime calcolate sono uguali o diverse a quelle ottenute adattando due modelli di regressione semplice (uno per il PIL e uno per il Trend)?

Esempio investimenti: regressione semplice (X = Trend) Invest = 212.211 + 3.108 Trend + e Interpretazione parametri Nel modello di regressione multipla il coeff. di X2=Trend è invece negativo (relazione inversa): perché? 13

Esempio investimenti: regressione semplice (X = PIL) Invest = 54.933 + 0.146 PIL + e Invece, nel modello di regressione multipla il coefficiente di X1=PIL è (circa) quattro volte superiore: perché? 14

Interpretazione dei parametri nella regressione lineare multipla Nella regr. multipla i coefficienti sono parziali (o netti): il parametro βj rappresenta il coeff. angolare della retta E(Y) = K + βjXj quando il valore delle variabili diverse da Xj è fissato: nella regr. multipla il coefficiente βj misura la relazione tra Y e Xj mantenendo costante il valore delle altre variabili esplicative Ciò spiega perché la stima di βj nella regr. multipla è diversa da quella ottenuta nella regr. semplice: nella regr. multipla si controllano le variabili diverse da Xj, nella regr. semplice si ignorano tali variabili

Criterio alternativo per trovare i coefficienti di regr Criterio alternativo per trovare i coefficienti di regr. lineare multipla (p. 179) Ad esempio: trovare il coeff. di regressione multipla (parziale) del PIL 1) Regressione di Investimenti su tutte le variabili esplicative tranne PIL 2) Regressione di PIL su tutte le altre variabili esplicative 3) Regressione tra i residui della regressione 1) e i residui della regressione 2) V. Figura p. 181: calcoli in Excel per esempio dati investimenti

Il coefficiente di correlazione tra la serie di residui della regressione 1) e la serie di residui della regressione 2) è detto coefficiente di correlazione parziale (v. p. 180): relazione tra Y e Xj al netto delle altre variabili E’ possibile calcolare il coefficiente di correlazione parziale a partire dai coefficienti di correlazione semplice tra le coppie di variabili: v. formula p. 181

Esempio investimenti: SPSS File: Dati_investimenti.sav Menu: Analizza – Regressione – Lineare

Esempio investimenti: SPSS Le differenze rispetto all’output di Excel sono dovute alla minor precisione degli algoritmi numerici di ANALISI DATI