Sco2005 – Bressanone, 16 Settembre 2005

Slides:



Advertisements
Presentazioni simili
Analisi del trend degli spettatori allo stadio
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Le distribuzioni di probabilità continue
Come organizzare i dati per un'analisi statistica al computer?
Presupposti alla lezione
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
La regressione lineare trivariata
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
Valutazione dell’efficacia del provvedimento
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Dip. Economia Politica e Statistica
La distribuzione normale e normale standardizzata
I pubblici televisivi delle reti generaliste e tematiche
COSA VUOL DIRE FARE STATISTICA
Processi Aleatori : Introduzione – Parte I
Distribuzioni di probabilità
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
1 - 5 marzo u Le audience u I break pubblicitari.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
PATTERN RECOGNITION.
/ /LPA Posteitaliane / /LPA Roma, dicembre 2001 Sviluppo del Recapito Posteitaliane Integrazione al.
Lezione 4 Probabilità.
Analisi dei forum Questa sezione del progetto si occupa di monitorare i processi di apprendimento/interazione dei soggetti partecipanti all'ambiente di.
EFFECT SIZE In statistica l’effect size (o dimensione dell’effetto) è una misura della forza della relazione tra due variabili. Usato nel metodo statistico.
Lo stimatore per quoziente è asintoticamente corretto
Quale valore dobbiamo assumere come misura di una grandezza?
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Misurare una grandezza fisica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
1 Gargano R., Avena G., Grasso F. UNIVERSITÀ DEGLI STUDI DI MESSINA IL PROCESSO DINTEGRAZIONE DEGLI IMMIGRATI IN UN CONTESTO URBANO DELLITALIA INSULARE.
Le distribuzioni campionarie
Dal 2 al 6 marzo 2004 Il dato di ascolto della prima serata del 54° Festival di San Remo risulta essere media della prima e della seconda parte. 54° Festival.
REGISTRO ITALIANO DI CHIRURGIA VASCOLARE SICVEREG REGISTRO ITALIANO DI CHIRURGIA VASCOLARE SICVEREG Volume n. 12 ANALISI STATISTICO-EPIDEMIOLOGICHE DATI.
La ricerca delle relazioni tra fenomeni
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Capitolo 3 (parte seconda)
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DATA MINING PER IL MARKETING
Intervalli di fiducia.
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
redditività var. continua classi di redditività ( < 0 ; >= 0)
Analisi discriminante lineare - contesto
Intervalli di confidenza
I modelli di valutazione delle opzioni su tassi
Corso di Laurea in Scienze e tecniche psicologiche
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Dipartimento di Economia, Management e Istituzioni APPPLICAZIONI AZIENDALI MEDIANTE FOGLIO ELETTRONICO 4° modulo: Calcoli statistici, Regressione Prof.
Gli strumenti di misura
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Transcript della presentazione:

Sco2005 – Bressanone, 16 Settembre 2005 Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005

Una collaborazione RAI sede di Torino, Divisione ICT ICTeam, una software house con sedi a Bergamo e a Torino Dipartimento di Matematica del Politecnico di Torino

Scopo del progetto Data warehouse dei dati sull’audience televisiva ormai assodato Prevedere lo share a breve e medio termine Supporto alla costruzione strategica del palinsesto (no contenuti, solo contenitori) Costruzione di un applicativo software snello Gasparini-Imparato 16/09/05

Database management Dati prelevati dai database RAI tramite SQL SQL acronimo per Structured Query Language Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. Linguaggio non procedurale (facile accesso ai dati) Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R Gasparini-Imparato 16/09/05

Misurazione dell’ascolto televisivo Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo Misure d’ascolto: copertura lorda CL: numero di contatti al lordo delle duplicazioni ascolto medio Am su un intervallo T: Am:= CL /T share su un intervallo T: proporzione di ascolto medio normalizzato rispetto alla platea, in percentuale Misure già riportate alla popolazione totale (ascolto esteso) Gasparini-Imparato 16/09/05

Previsione dell’ascolto televisivo Previsione in un contesto di regressione Scelta della variabile risposta: share o ascolto? (shareRAI1, shareRAI2, shareRAI3, sharealtro) (ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro) share è una composizione nel simplesso tridimensionale mentre ascolto è una risposta in +3 Una risposta trivariata o tre risposte univariate? Scelta delle variabili predittori: minuto: fattore di 24 livelli (ore) o predittore quantitativo? giorno della settimana: fattore di 7 livelli genere trasmesso e controprogrammazione: fattori di 17 livelli ?? mese / stagione Gasparini-Imparato 16/09/05

Trasformazione dello share Alla generica osservazione n, poni si dice che Y è una trasformazione logit additivo il vettore share vive nel simplesso, la trasformazione Y vive in tutto lo spazio 3 trasformazione usata da Consonni e Giudici (1998) Gasparini-Imparato 16/09/05

Distribuzioni normali logistiche Trasformazione logistica additiva: La sua inversa è detta logit additivo: Una composizione x ha distribuzione normale logistica additiva se Lavorando su Y si possono trattare i dati trasformati come normali multivariate Gasparini-Imparato 16/09/05

Trasformazione dell’ascolto Alla generica osservazione n, poni semplicemente y in= log (ascoltoin) i=1,2,3 la trasformazione Y vive in tutto lo spazio 3 utile quando la platea (il normalizzante dello share) è variabile noi useremo questa trasformazione e la supporremo normale platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato dalla stima dell’ascolto ricostruiremo una stima dello share Gasparini-Imparato 16/09/05

Modello previsivo finale Implementazione di un modello ibrido parametrico - non parametrico parametrico modello di regressione lineare: utile in presenza di “buchi” e di scarsa numerosità di occorrenze passate non parametrico media opportuna dei valori di share attraverso proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate Gasparini-Imparato 16/09/05

Modello parametrico finale Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1 Scelta della risposta: Y=log (ascoltoRAI1) Scelta e codifica dei predittori: minuto: fattore di 24 livelli (ore del giorno) giorno della settimana: fattore di 7 livelli genere di RAI1: fattore di 17 livelli genere di Can5: fattore di 17 livelli (controprogrammazione) log (platea): dato quantitativo inputato Gasparini-Imparato 16/09/05

Controprogrammazione e platea L’effetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5 RAI2 vs. Italia1 RAI3 vs. Rete4 Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati: [platea2005]i = (0.3) *[platea2004]i + 0.25) *[platea2003]i + + *[platea2002]i + *[platea2001]i (0.3) (0.25) (0.25) (0.2) Gasparini-Imparato 16/09/05

Scelta delle interazioni Testati modelli con più interazioni con il test F: interazione giorno - minuto: significativa interazione giorno - genere: non significativa interazione genere RAI1- genere CANALE5: significativa Problema: l’interazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato. Osservazione: oggigiorno il problema di avere troppi dati è sempre più frequente... Gasparini-Imparato 16/09/05

Formulazione del modello Modello con interazione giorno-minuto e genere1-genere5: [log(asc_individui)]ijkpm = a0 + [min]m + [giorno]j + [genere1 a0 [min]m [giorno]j [genere1]k log(platea) + [genere5]p + aplatea + + + [min:giorno]mj [genere1:genere5]kp + errore i=1,…,njkpm (variabile a seconda del campionamento) j=1,…,6 , k,p=1,…,16, m=1,…,23 Gasparini-Imparato 16/09/05

Prelevamento dei dati Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004. sotto-campionamento casuale del DB: 2004: un dato/15 min. 2003-2002: un dato/30min 2001: un dato/1h 2000: un dato/2h prove di sensitività al variare del sotto-campionamento casuale Gasparini-Imparato 16/09/05

Analisi dei residui Andamento dei box-plot dell’errore per fascia oraria possibilità di eteroschedascticità omogeneità alternata durante il mattino Grande omogeneità nel pomeriggio e di notte out-liers in tarda mattinata, prime-time e second-time Gasparini-Imparato 16/09/05

Validazione del modello Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e confrontato con i valori reali ad una granularità del quarto d’ora Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4-6 e 7-9 marzo 2005 Gasparini-Imparato 16/09/05

Risultati 7-9 marzo 2005 Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : share reale share stimato il trend stimato corrisponde grosso modo a quello reale ! Gasparini-Imparato 16/09/05

Errore e intervalli previsivi Andamento dell’errore: In media l’errore è pari a 4.5 % nel 75% dei casi inferiore a 5 % Intervallo previsivo per la stima dello share: ~ _ + Intervallo previsivo al 68% media dev. standard 68% delle volte lo share reale è compreso nell’intervallo previsivo ~ I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share Gasparini-Imparato 16/09/05

Risultati 4-6 marzo 2005 Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : share reale share stimato valori anomali in prime time e second time dovuti a Sanremo Il modello cade in difetto ! Gasparini-Imparato 16/09/05

Il modello non parametrico media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo Gasparini-Imparato 16/09/05

Scelta del modello ibrido Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ? Modello parametrico: minimizza gli errori in presenza di scarse osservazioni del passato Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato Creiamo un modello ibrido che prenda il meglio di ognuno dei due! Gasparini-Imparato 16/09/05

Calibrazione empirica del modello Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli modello parametrico se N < N0 modello non parametrico altrimenti analisi 7-9 marzo 2005 e ottobre-novembre 2004: Le analisi congiunte sui due modelli suggeriscono la scelta di N0 ~ 50 come parametro ottimale ulteriore riduzione degli errori: In media l’errore è pari a 0.035 nel 75% dei casi inferiore a 0.04 Gasparini-Imparato 16/09/05

Front-end grafico del sistema prototipale Genere in programmazione Variazione % SHARE Fascia oraria 16.00 – 17..00 SHARE medio 22,75 Numero di occorrenze SHARE atteso Esporta TUTTI We’re trying to seed the team concept. Sviluppo Softwareè a team sport. We need to address the Problemi from a team perspective. Rapid technological change: the “bleeding edge” not the leading edge of technology.

Front-end grafico nel sistema prototipale fascia We’re trying to seed the team concept. Sviluppo Softwareè a team sport. We need to address the Problemi from a team perspective. Rapid technological change: the “bleeding edge” not the leading edge of technology. Fascia oraria Esporta Risultati SPERIMENTALI Numero occorrenze 1312 SHARE medio 25,77 Varianza % 3,83

Lavoro futuro Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo) Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti) Analisi suddivisa per target Satellitare + digitale terrestre: cambierà tutto. Gasparini-Imparato 16/09/05