La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

Presentazioni simili


Presentazione sul tema: "1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta."— Transcript della presentazione:

1 1

2 2 1.1

3 3

4 4 annata

5 5

6 6

7 7

8 8

9 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta (contesto m.d. regressione) o variabili di analisi (contesto m.d. classificazione) (o specifiche di prodotto) (contesto produttivo/economico/S.Q.) Se una fonte di variazione viene definita in termini qualitativi o ordinali, le modalità che la caratterizzano possono prendere il nome di livelli.

10 10 1.2

11 11

12 12 Ma è poi assolutamente necessario isolare le variabili ?

13 13 NO Talvolta è addirittura impossibile Limportante è definire con chiarezza e rigore loggetto di studio anche nel quadro di un approccio meno atomistico e più sistemico al problema e pianificare di conseguenza il campionamento loggetto di studio anche nel quadro di un approccio meno atomistico e più sistemico al problema e pianificare di conseguenza il campionamento

14 14 Esempio di un tentativo... (Alessandri, S.; 2000; "Qualita' e variabilita' degli oli vergini di oliva della Toscana e modelli di classificazione: una discussione metodologica"; Bollettino dei Chimici Igienisti parte scientifica, Vol. 52 1S/2001, pp31-44.)

15 Io era tra color che son sospesi, e donna mi chiamò beata e bella, tal che di comandare io la richiesi.

16 16 E qui che il pensiero razionale si perde facilmente

17 17

18 18

19 19

20 20

21 21

22 22 1.4

23 23 E necessario che un parametro di dispersione divenga unità di misura nella scala delle posizioni, e quindi unità di misura della distanza-diversità. Particolarmente conveniente risulta essere la varianza

24 24 Se consideriamo che la differenza (distanza, diversità) tra medie può essere misurata a sua volta come dispersione delle medie stesse attorno alla media delle medie, e quindi associata ad una varianza, allora possiamo interpretare la differenza tra medie come rapporto tra varianze: Varianza tra i gruppi / Varianza entro i gruppi

25 m u l t i v a r i a t o

26 26 Numerosità, dispersioni posizioni uguali, struttura interna ( co-dispersione ) diversa L'informazione multivariata è maggiore della somma delle informazioni univariate singolarmente prese

27 27 L'informazione multivariata può rivelare una direzione preferenziale lungo la quale la dispersione (separazione) delle osservazioni è maggiore di quella lungo le direzioni delle variabili considerate separatamente, direzioni coincidenti con quelle degli assi del sistema di riferimento.

28 28 L'informazione multivariata può rivelare una direzione preferenziale lungo la quale la dispersione (separazione) dei gruppi di osservazioni è maggiore di quella lungo le direzioni delle variabili considerate separatamente, direzioni coincidenti con quelle degli assi del sistema di riferimento.

29 29 1.6

30 30

31 31

32 32

33 33

34 34ANOVA

35 35 E sempre qui che il pensiero razionale si perde facilmente Qualé la probabilità di ottenere: questo risultato (campionario) questo/i insieme/i di risultati (campionari) questa/e configurazione/i di risultati (campionari) questa/e relazione/i tra risultati (campionari) questa/e variazione/i nei risultati (campionari) … per puro caso ? Stime per intervalli, prova delle ipotesi e concetto di significatività costituiscono gli strumenti per formulare ed affrontare un (il?) problema di fondo:

36 36 ( Per i problemi di classificazione sono necessari ANCHE altri strumenti di validazione, per incrementare la rappresentatività ) Stime per intervalli, prova delle ipotesi e concetto di significatività costituiscono gli strumenti per stimare e valutare la diversità-distanza fra popolazioni partendo dalle corrispondenti statistiche campionarie.

37 37 per la rappresentatività La numerosità campionaria gioca sempre un ruolo critico

38 38 Qualé lincidenza della variabilità annuale su: questo risultato questo/i insieme/i di risultati questa/e configurazione/i di risultati questa/e relazione/i tra risultati questa/e variazione/i nei risultati … ? INOLTRE: il sapere metodologico maturato in campo agronomico da Fisher in poi, per quanto riguarda in particolare le produzioni agrarie, ed in special modo quelle da colture arboree, fornisce gli strumenti per impostare ed affrontare un problema specifico: In altri termini, fino a che punto E possibile trascurare o accorpare l effetto-anno ? Anche questo è un problema di rappresentatività

39 39 1.7

40 40 per la rappresentatività La numerosità delle variabili di analisi gioca anchessa un ruolo critico per la computabilità per la possibilità stessa di fare inferenze nel senso della statistica classica per la predittività E un argomento molto discusso, che presenta aspetti estremamente contraddittori sintetizzati da espressioni molto suggestive...

41 41 The blessings of Dimensionality The curses of Dimensionality Tecniche di data analisys applicate a problemi di riconoscimento, basate su poche osservazioni descritte da moltissime variabili Intrattabilità di stime ed inferenze davanti alla proliferazione delle variabili di analisi Eun fatto che le tecniche di data analisys: hanno molto successo aumentano i loro campi di applicazione

42 42 2.1

43 43

44 44 Uno strumento importante per il calcolo di modelli di classificazione è costituito da un insieme di tecniche statistiche genericamente denominate Analisi Discriminante Il termine non ha lo stesso univoco significato per tutti gli autori.

45 45 L' Analisi Discriminante tratta insiemi di osservazioni in cui: -sono definiti dei gruppi o classi -sono definite una o piu' variabili quantitative Si distinguono almeno tre tipologie di Analisi Discriminante: l'Analisi Discriminante classificatoria orientata alla produzione di modelli di classificazione, l'Analisi Discriminante Canonica l'Analisi Discriminante Step-Wise orientate alla preventiva riduzione della dimensionalità dei modelli. Hand, (1981); Lachenbruch e collaboratori (1968); Lachenbruch (1975); Seber (1984),

46 46 L' analisi discriminante classificatoria (da ora in avanti "Analisi Discriminante") sviluppa una regola matematica (funzione discriminante), ¤ basata sulle (funzione delle) variabili quantitative prese in considerazione, ¤ che permette di attribuire un'osservazione ad una delle classi (restituisce una probabilità di attribuzione per ciascuna classe), ¤ con la minima possibilità di errore.

47 47 L' analisi discriminante classificatoria Si articola in numerosi metodi, parametrici e non: funzione discriminante lineare => LDA, da Linear Discriminant Analysis funzione discriminante quadratica => QDA, da Quadratic Discriminant Analysis non sono necessarie assunzioni circa l'omogeneità delle matrici di covarianze entro le classi metodi non parametrici => (kernel, KNN, …) non sono necessarie assunzioni circa la normalita' delle distribuzioni entro le classi.

48 48 Analisi discriminante canonica (CDA, da Canonical Discriminant Analysis ") Obiettivi: determinare le combinazioni lineari (definite Variabili Canoniche, Canonical variables, Canonical variates) delle variabili quantitative considerate, che meglio sintetizzano la variabilità tra le classi selezionare un insieme di poche variabili canoniche, che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte (relativamente a quelle canoniche) variabili quantitative di partenza; Le variabili canoniche hanno la caratteristica di essere tra loro incorrelate. Klecka (1980); Seber (1984).

49 49 Analisi discriminante step-wise Obiettivi: determinare le variabili quantitative più efficaci per una corretta classificazione delle osservazioni selezionare un insieme di poche variabili (originali non canoniche), che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte variabili quantitative di partenza L'analisi discriminante step-wise persegue direttamente questo obiettivo con eliminazioni e/o immissioni progressive (passo-passo) di una variabile alla volta nel modello, per mezzo di diversi possibili criteri di valutazione. I metodi step-wise NON garantiscono LA selezione della combinazione OTTIMALE di variabili originali in senso assoluto, ma solamente in senso relativo.

50 50

51 51 La crossvalidazione (metodo "Leaving-one-out") e' un procedimento che consiste nel classificare ogni osservazione (di un collettivo di numerosita' n), in base al criterio discriminante tratto dalle altre (n-1) osservazioni. Richiede quindi che la funzione discriminante sia ricalcolata tante volte quante sono le osservazioni stesse. La crossvalidazione leaving-one-out evita l'insorgere di errori di attribuzione artificiosamente bassi, che non cosituiscono una buona stima del reale potere discriminatorio del modello.

52 52

53 53

54 54 Modelli di classificazione Cenni a tecniche diverse e/o ausiliarie Analisi delle Componenti Principali Analisi dei Cluster

55 55 Componenti Principali Descrivono in maniera ottimale la variabilita' totale del collettivo in osservazione: la prima PC estratta e' pensabile come la retta meglio adattata allo scatter delle osservazioni nello spazio n- dimensionale delle variabili di analisi considerate, la seconda come quella meglio adattata alla variabilita' residua, e cosi' via.

56 56 Analisi delle Componenti Principali Scopi esplorare variabiliosservazioni esplorare le relazioni tra variabili e tra osservazioni isolare l'informazione utile alla separazione delle osservazioni dal "rumore", all'interno di un gruppo di variabili (tra le quali non viene fatta alcuna suddivisione fra dipendenti ed indipendenti) selezionare un piccolo gruppo di combinazioni lineari (Componenti Principali) da un insieme di variabili (quantitative) di partenza identificare gli "outliers"

57 57 Sulle componenti principali e' poi possibile applicare qualunque analisi statistica appropriata: operare analisi dei cluster determinare modelli di regressione calcolare modelli di classificazione Le Componenti Principali a differenza delle variabili canoniche, definiscono un sistema di riferimento che massimizza la separazione media tra le singole osservazioni, NON necessariamente tra le classi.

58 58 Analisi dei Cluster (parametriche e non parametriche) scopi: esplorare osservazioni esplorare le relazioni tra osservazioni stabilire se e' possibile riconoscere dei raggruppamenti (cluster) in un certo insieme di osservazioni in cui non è nota né definita a priori alcuna classe o gruppo individuare i raggruppamenti stessi in termini di rapporti reciproci (gerarchie, sovrapposizioni, distanze, …) descriverli statisticamente L analisi dei cluster può venire utilizzata per riscoprire dei raggruppamenti noti a priori, o per scoprirne di nuovi, magari rivelati dallanalisi di errori di classificazione.

59 59 3.1

60 60

61 61

62 62

63 63

64 64

65 65

66 66

67 67

68 68

69 69

70 70

71 71

72 72

73 73

74 74

75 75

76 76

77 77

78 78

79 79

80 80

81 81

82 82

83 83

84 84

85 85

86 86

87 87

88 88

89 89

90 90

91 91 3.2

92 92

93 93

94 94

95 95

96 96

97 97

98 98

99 99

100 100

101 101

102 102

103 103

104 104

105 105

106 106

107 107

108 108

109 109


Scaricare ppt "1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta."

Presentazioni simili


Annunci Google