La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi di dati altamente dimensionati per la previsione dellascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico.

Presentazioni simili


Presentazione sul tema: "Analisi di dati altamente dimensionati per la previsione dellascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico."— Transcript della presentazione:

1 Analisi di dati altamente dimensionati per la previsione dellascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005

2 Una collaborazione RAI sede di Torino, Divisione ICT ICTeam, una software house con sedi a Bergamo e a Torino Dipartimento di Matematica del Politecnico di Torino

3 Scopo del progetto Data warehouse dei dati sullaudience televisiva ormai assodato Prevedere lo share a breve e medio termine Supporto alla costruzione strategica del palinsesto (no contenuti, solo contenitori) Costruzione di un applicativo software snello Gasparini-Imparato 16/09/05

4 Database management Dati prelevati dai database RAI tramite SQL SQL acronimo per Structured Query Language Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. Linguaggio non procedurale (facile accesso ai dati) Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R Gasparini-Imparato 16/09/05

5 Misurazione dellascolto televisivo Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo Misure dascolto: copertura lorda C L : numero di contatti al lordo delle duplicazioni ascolto medio A m su un intervallo T: A m := C L /T share su un intervallo T: proporzione di ascolto medio normalizzato rispetto alla platea, in percentuale Misure già riportate alla popolazione totale (ascolto esteso) Gasparini-Imparato 16/09/05

6 Previsione dellascolto televisivo Previsione in un contesto di regressione Scelta della variabile risposta: share o ascolto? ( share RAI1, share RAI2, share RAI3, share altro ) ( ascolto RAI1, ascolto RAI2, ascolto RAI3, ascolto altro ) share è una composizione nel simplesso tridimensionale mentre ascolto è una risposta in + 3 Una risposta trivariata o tre risposte univariate? Scelta delle variabili predittori: minuto: fattore di 24 livelli (ore) o predittore quantitativo? giorno della settimana: fattore di 7 livelli genere trasmesso e controprogrammazione: fattori di 17 livelli ?? mese / stagione Gasparini-Imparato 16/09/05

7 Trasformazione dello share Alla generica osservazione n, poni si dice che Y è una trasformazione logit additivo il vettore share vive nel simplesso, la trasformazione Y vive in tutto lo spazio 3 trasformazione usata da Consonni e Giudici (1998) Gasparini-Imparato 16/09/05

8 Distribuzioni normali logistiche La sua inversa è detta logit additivo: Trasformazione logistica additiva: Una composizione x ha distribuzione normale logistica additiva se Lavorando su Y si possono trattare i dati trasformati come normali multivariate Gasparini-Imparato 16/09/05

9 Trasformazione dellascolto Alla generica osservazione n, poni semplicemente y in = log (ascolto in ) i=1,2,3 la trasformazione Y vive in tutto lo spazio 3 utile quando la platea (il normalizzante dello share) è variabile noi useremo questa trasformazione e la supporremo normale platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato dalla stima dellascolto ricostruiremo una stima dello share Gasparini-Imparato 16/09/05

10 Modello previsivo finale parametrico modello di regressione lineare: utile in presenza di buchi e di scarsa numerosità di occorrenze passate non parametrico media opportuna dei valori di share attraverso proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate Implementazione di un modello ibrido parametrico - non parametrico Gasparini-Imparato 16/09/05

11 Modello parametrico finale Scelta della risposta: Y=log (ascolto RAI1 ) Scelta e codifica dei predittori: minuto: fattore di 24 livelli (ore del giorno) giorno della settimana: fattore di 7 livelli genere di RAI1: fattore di 17 livelli genere di Can5: fattore di 17 livelli (controprogrammazione) log (platea): dato quantitativo inputato Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1 Gasparini-Imparato 16/09/05

12 Controprogrammazione e platea Leffetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5 RAI2 vs. Italia1 RAI3 vs. Rete4 Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati: [platea 2005 ] i = (0.3) *[platea 2004 ] i ) *[platea 2003 ] i + + *[platea 2002 ] i + *[platea 2001 ] i (0.3)(0.25) (0.2) Gasparini-Imparato 16/09/05

13 Scelta delle interazioni Testati modelli con più interazioni con il test F: interazione giorno - minuto: significativa interazione giorno - genere: non significativa interazione genere RAI1- genere CANALE5: significativa Problema: linterazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato. Osservazione: oggigiorno il problema di avere troppi dati è sempre più frequente... Gasparini-Imparato 16/09/05

14 Formulazione del modello Modello con interazione giorno-minuto e genere1-genere5: i=1,…,n jkpm (variabile a seconda del campionamento) j=1,…,6, k,p=1,…,16, m=1,…,23 [log(asc_individui)] ijkpm = a 0 + [min] m + [giorno] j + [genere1 a 0 [min] m [giorno] j [genere1] k [genere5] p a platea [min:giorno] mj [genere1:genere5] kp + errore Gasparini-Imparato 16/09/05 + log(platea)

15 Prelevamento dei dati Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio sotto-campionamento casuale del DB: 2004: un dato/15 min : un dato/30min 2001: un dato/1h 2000: un dato/2h prove di sensitività al variare del sotto-campionamento casuale Gasparini-Imparato 16/09/05

16 Andamento dei box-plot dellerrore per fascia oraria Analisi dei residui possibilità di eteroschedascticità omogeneità alternata durante il mattino out-liers in tarda mattinata, prime-time e second-time Grande omogeneità nel pomeriggio e di notte Gasparini-Imparato 16/09/05

17 Validazione del modello Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e confrontato con i valori reali ad una granularità del quarto dora Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello l evento Sanremo ha reso necessaria unanalisi separata per i due periodi 4-6 e 7-9 marzo 2005 Gasparini-Imparato 16/09/05

18 Risultati 7-9 marzo 2005 Confronto dellandamento dello share reale con quello stimato per il modello parametrico : share reale share stimato il trend stimato corrisponde grosso modo a quello reale ! Gasparini-Imparato 16/09/05

19 Errore e intervalli previsivi In media lerrore è pari a 4.5 % nel 75% dei casi inferiore a 5 % Andamento dellerrore: Intervallo previsivo per la stima dello share: Intervallo previsivo al 68% media dev. standard 68% delle volte lo share reale è compreso nellintervallo previsivo ~ ~ +_ I risultati confermano lefficacia del modello statistico di regressione per la previsione dello share Gasparini-Imparato 16/09/05

20 Risultati 4-6 marzo 2005 Confronto dellandamento dello share reale con quello stimato per il modello parametrico : share reale share stimato valori anomali in prime time e second time dovuti a Sanremo Il modello cade in difetto ! Gasparini-Imparato 16/09/05

21 Il modello non parametrico media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori loperazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo Gasparini-Imparato 16/09/05

22 Scelta del modello ibrido Creiamo un modello ibrido che prenda il meglio di ognuno dei due! Riusciamo a ridurre ulteriormente lentità degli errori presenti coi due modelli ? Modello parametrico: minimizza gli errori in presenza di scarse osservazioni del passato Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato Gasparini-Imparato 16/09/05

23 Calibrazione empirica del modello modello parametrico se N < N 0 modello non parametrico altrimenti Le analisi congiunte sui due modelli suggeriscono la scelta di N 0 ~ 50 come parametro ottimale analisi 7-9 marzo 2005 e ottobre-novembre 2004: Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli ulteriore riduzione degli errori: In media lerrore è pari a nel 75% dei casi inferiore a 0.04 Gasparini-Imparato 16/09/05

24 Front-end grafico del sistema prototipale Genere in programmazione Variazione % SHARE Fascia oraria – SHARE medio 22,75 Numero di occorrenze SHARE atteso Esporta TUTTI

25 Front-end grafico nel sistema prototipale fascia Fascia oraria Risultati SPERIMENTALI Numero occorrenze SHARE medio Varianza % 25,77 3,83 Esporta 1312

26 Lavoro futuro Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo) Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti) Analisi suddivisa per target Satellitare + digitale terrestre: cambierà tutto. Gasparini-Imparato 16/09/05


Scaricare ppt "Analisi di dati altamente dimensionati per la previsione dellascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico."

Presentazioni simili


Annunci Google