Analisi Cereali per la prima colazione Elaborazione Dati Naturalistici 2007 Giovanni - Chiara
77 tipi di cereali per la prima colazione Oggetto 77 tipi di cereali per la prima colazione
7 marche differenti(mfr): American Home Food Products (A) General Mills (G) Kellog’s (K) Nabisco (N) Post (P) Quaker Oast (Q) Ralston Purina (R)
Variabili tipo: freddi (c) o caldi (h) calorie: calorie per porzione proteine: grammi di proteine grassi: grammi di grassi sodio: milligrammi di sodio fibre: grammi di fibre dietetiche carboidrati: grammi di carboidrati complessi zuccheri: grammi di zuccheri potassio: milligrammi di potassio vitamine: vitamine e minerali - 0, 25, o 100, indicanti la tipica percentuale raccomandata dell’FDA scaffale: scaffale d’esposizione (1, 2 o 3, contando dal pavimento) peso: peso in once per 1 porzione tazze: tazze per 1 porzione valutazione : una valutazione dei cereali
Punti dell’Elaborazione dei Dati: Analisi descrittiva delle variabili quantitative principali Analisi della correlazione tra le variabili quantitative. Ci sono correlazioni inattese? Costruzione di un modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali Ottenere un modello ridotto appropriato Quali sono le variabili nutrizionali che sono più adatte a spiegare il gradimento dei prodotti? L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni?
Analisi descrittiva delle variabili quantitative principali Media St Dev Minimo Mediana Massimo Calorie 106,88 19,48 50,00 110,00 160,00 Proteine (g) 2,545 1,095 1,000 3,000 6,000 Grassi (g) 1,013 1,006 0,000 5,000 Sodio (mg) 159,68 83,83 180,00 320,00 Fibre (g) 2,152 2,383 2,000 14,000 Carboidrati (g) 14,803 3,907 14,500 23,000 Zuccheri (g) 7,026 4,379 7,000 15,000 Potassio (mg) 98,67 70,41 90,000 330,00 Vitamine 28,25 22,34 25,000 100,00 Rating 42,67 14,05 18,04 40,40 93,70
Media St Dev Minimo Mediana Massimo Calorie 106,88 19,48 50,00 110,00 160,00 Proteine (g) 2,545 1,095 1,000 3,000 6,000 Grassi (g) 1,013 1,006 0,000 5,000 Sodio (mg) 159,68 83,83 180,00 320,00 Fibre (g) 2,152 2,383 2,000 14,000 Carboidrati (g) 14,803 3,907 14,500 23,000 Zuccheri (g) 7,026 4,379 7,000 15,000 Potassio (mg) 98,67 70,41 90,000 330,00 Vitamine 28,25 22,34 25,000 100,00 Rating 42,67 14,05 18,04 40,40 93,70
Nonostante si tratti di differenti produttori, i grammi di proteine, grassi, fibre, carboidrati e zuccheri si mantengono costanti nelle diverse confezioni. Deviazione Standard Proteine (g) 1,095 Grassi (g) 1,006 Fibre (g) 2,383 Carboidrati (g) 3,907 Zuccheri (g) 4,379 Al contrario la quantità (mg) di Sodio e Potassio ha un range piuttosto ampio, deducibile anche dall’analisi del minimo /massimo. St Dev Minimo Massimo Sodio (mg) 83,83 0,000 320,0 Potassio (mg) 70,41 15,00 330,0
Analisi della correlazione tra le variabili quantitative Calorie Proteine Grassi Sodio Fibre Carboidrati Zuccheri Potassio 0,019 0,869 0,499 0,000 0,208 0,069 0,301 0,008 -0,055 0,637 -0,005 0,963 -0,293 0,010 0,500 0,017 0,885 -0,071 0,541 0,258 0,025 -0,025 0,830 -0,300 0,298 0,009 -0,380 0,001 0,567 -0,292 0,011 0,302 0,059 0,613 -0,139 0,232 -0,471 -0,072 0,539 0,564 0,200 0,085 -0,043 0,716 0,912 -0,365 0,990 Vitamine 0,265 0,020 0,007 0,950 -0,031 0,788 0,361 -0,032 0,781 0,219 0,057 0,098 0,399 Verde = Correlazione lineare Giallo = Correlazione diretta Rosso = Correlazione inversa inattesa
SCATTER PLOT o diagramma di dispersione bidimensionale delle variabili con correlazione lineare
SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione diretta
SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione inversa e inattesa
SCATTER PLOT rating Calorie Proteine Grassi Sodio Fibre Carboidrati Zuccheri Potassio Rating -0,689 0,000 0,471 -0,409 -0,401 0,584 0,089 0,446 -0,764 0,416
Analisi dei valori anomali I valori anomali hanno un forte peso sulla correlazione: per passare dal modello completo a quello ridotto è stata esclusa la variabilità. Q1 Mediana Q3 Calorie 100,00 110,00 Proteine (g) 2,000 3,000 Grassi (g) 0,0000 1,000 Sodio(mg) 127,50 180,00 215,00 Fibre (g) 0,500 Carboidrati (g) 12,000 14,500 17,000 Zuccheri (g) 7,000 11,000 Potassio (mg) 40,00 90,00 120,00
Problema di interpolazione dei dati Modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali. Problema di interpolazione dei dati Stima Previsione Y= a+ bnxn
L’equazione della retta di regressione è risultata : Il rating rappresenta la variabile risposta ottenuta come combinazione finita di variabili esplicative L’equazione della retta di regressione è risultata : Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g) - 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine [Sono stati utilizzati solo 74 visto che gli altri 3 contenevano valori mancanti.]
Tutte le variabili esplicative hanno presentato un P = 0,000 Solitamente per i valori di P-value ≥ 0,05 (5%) si accetta l’ipotesi che il coefficiente relativo alla variabile sia nullo, e dunque non si ha influenza sulla variabile risposta. Tutte le variabili esplicative hanno presentato un P = 0,000 P< 0,05 Tuttavia si è cercato di ottenere un modello ridotto che potesse indicare quali variabili nutrizionali fossero più influenti sul rating.. E quindi fossero più adatte a spiegare il gradimento dei prodotti!
Calorie Proteine Grassi Sodio Fibre Carboidrati Zuccheri Potassio Rating -0,689 0,000 0,471 -,409 -0,401 0,584 0,089 0,446 -0,764 0,416 Non tutte le variabili presentano un alto grado di correlazione con la variabile risposta Posso pensare di cercare una correlazione lineare tra variabili con indice di Pearson = -1≤-0,5 o 0,5≥1
Eliminazione valori anomali : L’equazione della retta di regressione non cambia
Predictor Coef SE Coef T P 1)- Eliminazione variabili con coefficiente minore: Potassio e Vitamine Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g) - 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine L’equazione diventa: Rating = 61,7 - 0,166 Calorie + 2,63 Proteine (g) - 2,84 Grassi (g) + 2,11 Fibre (g) + 0,049 Carboidrati (g) - 1,47 Zuccheri (g) Predictor Coef SE Coef T P Constant 61,697 4,027 15,32 0,000 Calorie -0,1664 0,1121 -1,48 0,142 Proteine (g) 2,6313 0,7849 3,35 0,001 Grassi (g) -2,845 1,150 -2,47 0,016 Fibre (g) 2,1133 0,3086 6,85 0,000 Carboidrati (g) 0,0486 0,5011 0,10 0,923 Zuccheri (g) -1,4739 0,4722 -3,12 0,003 2)- Eliminazione variabili con P-value > 0,05: Calorie e Carboidrati Rating = 49,9 + 1,65 Proteine (g) - 3,83 Grassi (g) + 2,61 Fibre (g) - 1,88 Zuccheri (g)
con P = 0,000 per tutte le variabili. Modello ridotto appropriato Predictor Coef SE Coef T P Constant 49,854 2,080 23,96 0,000 Proteine (g) 1,6528 0,6974 2,37 0,021 Grassi (g) -3,8328 0,6434 -5,96 0,000 Fibre (g) 2,6061 0,2855 9,13 0,000 Zuccheri (g) -1,8795 0,1512 -12,43 0,000 3)- Eliminazione variabili con coefficiente più basso e P >0: Proteine L’equazione diventa: Rating = 53,7 - 3,35 Grassi (g) + 2,95 Fibre (g) - 2,00 Zuccheri (g) con P = 0,000 per tutte le variabili. Modello ridotto appropriato
Sono le variabili più adatte a descrivere il rating Fibre Zuccheri Grassi Sono le variabili più adatte a descrivere il rating
L’analisi di regressione separatamente per i cereali caldi e freddi L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni? Tipo freddo (C) Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g)- 0,0545 Sodio (mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine P = 0,000 Rating = 61,5 + 1,68 Proteine (g) - 4,17 Grassi (g) + 2,22 Fibre (g) - 0,629 Carboidrati (g) - 2,08 Zuccheri (g) Carboidrati P = 0,001 Proteine P = 0,014 tutte le altre variabili P = 0,000 L’equazione di regressione è Rating = 52,6 - 3,35 Grassi (g) + 3,05 Fibre (g) - 1,92 Zuccheri (g) Tipo caldo (H) Not enough data in column. The regression equation is Rating = 84,15 - 6,853 Proteine (g) P = 0,149 Rating = 63,59 - 6,853 Grassi (g) P = 0,149 Rating = 52,84 + 0,1462 Sodio (mg) P = 0,184 Rating = 59,44 - 2,189 Fibre (g) P = 0,721 Rating = 57,68 - 0,1132 Vitamine P = 0,851 Per le variabili Carboidrati, Zuccheri e Potassio non è stato possibile determinare la retta di regressione a causa dell’insufficienza dei dati.
Almeno per i cereali freddi la situazione non cambia … Cambiano i coefficienti, ma le variabili esplicative del rating rimangono le stesse Zuccheri Fibre Grassi
Trovate le variabili esplicative del rating .. Trovate le variabili esplicative del rating .. Quale marca di cereali dovrebbe avere più successo sul mercato?
Grassi Zero Fibre (g) Zuccheri Zero 4 4 (14) 7 1 (10) 21 10 3 (9) 55 16 53 (6) 56 17 10 (5) 64 18 28 (5) 65 29 (5) 66 22 59 (5) 12 (1) 24 26 27 29 31 34 38 51 54 61 62 63 68 69
“All Bran with Extra Fiber” (4) prodotto da Kellog’s
Grassi Fibre 3,0 Zuccheri Grassi 1 Fibre 10,0 9,0 Zuccheri 6 5 Shredded Wheat ‘n’ bran(64) Shredded Wheat spoon size(66) Grassi Fibre 3,0 Zuccheri 100% Bran (1) All-Bran (3) Grassi 1 Fibre 10,0 9,0 Zuccheri 6 5