DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso

Slides:



Advertisements
Presentazioni simili
Statistica Economica I
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
LA VARIABILITA’ IV lezione di Statistica Medica.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Capitolo 8 Sistemi lineari.
Autovalori e autovettori
COORDINATE POLARI Sia P ha coordinate cartesiane
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Regressione lineare Esercitazione 24/01/04.
Algebra delle Matrici.
ANALISI DELLA COVARIANZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
Teoria e Tecniche del Riconoscimento
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Identificabilità a priori: esperimento “ideale”
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Linee guida per la Chimica Analitica Statistica chemiometrica
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
Sottospazi vettoriali
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Introduzione alla regressione multipla
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Test basati su due campioni Test Chi - quadro
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
ANALISI DELLA VARIANZA (ANOVA)
Correlazione e regressione lineare
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Distribuzioni limite La distribuzione normale Si consideri una variabile casuale rappresentata mediante una combinazione lineare di altre variabili casuali.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso

Studio della distribuzione di

Teorema di Gauss Markov (efficienza degli stimatori OLS p. 192)

Stima di σ 2 Qual è la distribuzione di s 2 (somma dei quadrati dei residui diviso i gradi di libertà) E(s 2 )?

Caratteristiche delle devianze Dev residua Dev totale Dev regressione

Come si distribuiscono le forme quadratiche idempotenti?

Premessa: numero di autovalori diversi da zero di una matrice = rango della matrice (p. 294) Gli autovalori di una matrice idempotente sono 0 o 1(p. 288) La somma degli autovalori è uguale alla traccia (p.294)  rango e traccia della matrice idempotente coincidono

Distribuzione delle forme quadratiche nella regressione Devianza residua

Distribuzione delle forme quadratiche nella regressione Devianza residua

Distribuzione della devianza residua e’e e’e=ε’ M ε Scomposizione spettrale di M M= PΛP’ e’e = ε’ P ΛP’ εPonendo P’ ε=v e’e= v’ Λ v v~N(0, σ 2 I n )

Distribuzione della devianza residua e’e e’e = v’ Λ v v~N(0, σ 2 I n )

Distribuzione della devianza residua e’e

Distribuzione della devianza totale Scomposizione spettrale di A A= PΛP’ y’Ay=ε’ P ΛP’ εPonendo P’ ε=v y’Ay= v’ Λ v v~N(0, σ 2 I n )

Distribuzione della devianza totale y’Ay= v’ Λ v v~N(0, σ 2 I n )

Affermazioni equivalenti (p. 197)

Distribuzione delle forme quadratiche nella regressione Devianza di regressione

Riassunto finale Le forme quadratiche idempotenti hanno una distribuzione chi quadrato (dato che gli autovalori sono 0 e 1) Il numero di gradi di libertà è dato dal numero di autovalori uguali ad 1 (traccia ossia rango della matrice idempotente)

Scomposizione della devianza totale e distribuzione delle forme quadratiche (p. 197)

Inferenza su un generico coeff. di regressione parziale (p. 197)

Inferenza su un generico coeff. di regressione parziale

H0: β j =0 Analisi della distribuzione del test t j t j presenta una distribuzione T di Student con n-k gradi di libertà

Intervallo di conf. di un generico coeff. di regressione parziale

Analisi della bontà di adattamento R2 nei modelli di regressione lineare multipla

Analisi della varianza e coeff. di correlazione lineare multipla (modelli senza intercetta) Indice di bontà di adattamento

Modelli con intercetta

Coeff. correlazione lineare multipla

Criteri per confrontare i modelli In assenza di relazione lineare tra X e y qual è il valore atteso di R 2

Criteri per confrontare i modelli

tende a 0 in assenza di dipendenza lineare e tende a 1 in presenza di dipendenza lineare perfetta.

Criteri per confrontare i modelli Dopo semplici passaggi

Ripasso sullle v.c Normale (standardizzata) chi^2 (forme quadratiche idempotenti) T di Student F (rapporto tra forme quadratiche idempotenti indipendenti)

Test di verifica di ipotesi su combinazioni lineari dei coefficienti Esempi

Test di verifica di ipotesi su combinazioni lineari dei coefficienti Se vogliano testare simultaneamente q ipotesi la forma generale è Rβ=r dove R (q × k) di costanti note r= vettore noto di q elementi

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Esercizio Supponiamo che k=5. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi β 2 +3β 4 =1 β 1 -5β 5 =0 β 3 =0 β 3 +β 4 +β 5 =2

Esercizio β 2 +3β 4 =1 β 1 -5β 5 =0 β 3 =0 β 3 +β 4 +β 5 =2

Test di verifica di ipotesi su combinazioni lineari dei coefficienti

Esercizio Supponiamo che k=6. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi β 3 =β 4 =β 5 = β 6 =0

Esercizio

Statistica test

Dimostrazione Il numeratore si può scrivere ε’Q ε

Devo dimostrare che QQ=Q ε’Q ε = forma quadratica idempotente

ε’Q ε ~ σ 2 chi^2 chi^2(q) dove q è il numero di righe della matrice R (numero di vincoli)

Distribuzione del test F Numeratore ε’Q ε/q Denominatore ε’M ε/(n-k)

Esempio con Excel File regr-test.xlsx