annata Possono essere a loro volta considerate: variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta (contesto.

Slides:



Advertisements
Presentazioni simili
Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Advertisements

Numeri a 100 Electronic flashcard. 1 uno ritorno.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Presente e futuro della religiosità nel nord est DIFFERENZE TRA GENERAZIONI figli e padri italo de sandre 1ids.
Valutazione d’Istituto A.S. 2008/2009
MONITORAGGIO MATEMATICA V A Alunni 26 Presenti 23 Quesiti 44 Risposte totali 650 Risultato medio 28,3 media 64,2%
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
II° Circolo Orta Nova (FG)
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Indagine Congiunturale 2011 Confcooperative Emilia Romagna CONFERENZA STAMPA CONFCOOPERATIVE EMILIA ROMAGNA Bologna, 30 Luglio 2013.
Frontespizio Economia Monetaria Anno Accademico
Lez. 3 - Gli Indici di VARIABILITA’
Uso dell’errore standard di misurazione
Associazione Nazionale Medici Cardiologi Ospedalieri
Analisi Bivariata e Test Statistici
Analisi Bivariata e Test Statistici
XXIV Congresso ACOI 2005 Montecatini Terme Maggio 2005
I MATEMATICI E IL MONDO DEL LAVORO
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
Obiettivi del corso di Statistica Medica.
ELEZIONI REGIONALI 2010 PRIMI RISULTATI E SCENARI 14 aprile 2010.
Canale A. Prof.Ciapetti AA2003/04
Indagine trimestrale sulla industria manifatturiera in provincia di Ravenna - Imprese con oltre 10 addetti - II trimestre e I semestre 2003 Ravenna, 15.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Già primario f.f. U.O. di neurochirurgia
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
MP/RU 1 Dicembre 2011 ALLEGATO TECNICO Evoluzioni organizzative: organico a tendere - ricollocazioni - Orari TSC.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%% % Accrescimento della PECORA IN TASMANIA % % dal 1820 ad oggi % % ( MODELLO LOGISTICO ) % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
Cos’è un problema?.
CALCIO SKY 2007 – 2008 PROFILO DI ASCOLTO. 2 INDICE DEGLI ARGOMENTI Profilo di ascolto CALCIO SERIE A 2007 – 2008 Totale campionato (tutte le partite)……………………………………………….
Gli italiani e il marketing di relazione: promozioni, direct marketing, digital marketing UNA RICERCA QUANTITATIVA SVOLTA DA ASTRA RICERCHE PER ASSOCOMUNICAZIONE.
Lezione 2 La progettazione degli esperimenti
Lezione 6 Inferenza statistica
Ropol09anci INDAGINE SU PATTO DI STABILITA 2009 IN PIEMONTE ANCI PIEMONTE Torino, 29 giugno 2009.
Monitoraggio sugli inserimenti nella scuola superiore a.s. 06/07
Monitoraggio a.s. 2008/2009Analisi dei dati RETE REGIONALE AU.MI.
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
CHARGE PUMP Principio di Funzionamento
Settimana: 3-7 marzo Orariolunedimartedi Mercoledi 5 Giovedi 6 Venerdi lezione intro alla fis mod DR lezione intro alla fis mod DR.
Regolarità nella griglia dei numeri
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
Q UESTIONI ETICHE E BIOETICHE DELLA DIFESA DELLA VITA NELL AGIRE SANITARIO 1 Casa di Cura Villa San Giuseppe Ascoli Piceno 12 e 13 dicembre 2011.
Blue economy Blue economy Maggio Universo di riferimento Popolazione italiana Numerosità campionaria cittadini, disaggregati per sesso,
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
S.S. I grado C. Guastella – Misilmeri D.S. Prof.ssa Rita La Tona A.S. 2010/2011 percOrsi di autoanalisi area docenti - pof Report - prima parte.
ISTITUTO COMPRENSIVO “G. BATTAGLINI” MARTINA FRANCA (TA)
RESTITUZIONE DATI RELATIVI ALLE PROVE
1)Completa la seguente successione: C4, B7, E10, D13, G16,. A. G19 B
Liceo classico/scientifico “V. Imbriani”
LE SAI LE TABELLINE? Mettiti alla prova!.
GEOGRAFIA DEI NUMERI Accademia dei Lincei - Roma 18 Ottobre2011
Un trucchetto di Moltiplicazione per il calcolo mentale
Bus, mon amour! Autobus e Investimenti
Prima rilevazione sullo stato di attuazione della riforma degli ordinamenti nelle istituzioni scolastiche in LOMBARDIA Attuazione del D.L. 59/2003 a.s.
Estratto per la relazione del Dott. Trevisanato 30 maggio 2008.
Esempi risolti mediante immagini (e con excel)
1 Sky 2 Sky 3 Sky L’Universo Aperto La teoria del Big Bang prevede che, se la densità globale dell’universo non raggiunge un valore di Ωo (Omega Zero)
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
AUTOVALUTAZIONE D’ISTITUTO
Un’analisi dei dati del triennio
Mercato del lavoro e condizione giovanile: la crisi si acuisce
Informazione su alcuni aspetti della situazione sociale dell’Arcidiocesi Demografia Famiglia Religione Istruzione Economia Ufficio Problemi sociali E.
Gli indici di dispersione
DIRETTIVI UNITARI SPI-CGI – FNP-CISL - UILP-UIL TERRITORIO LODIGIANO Lunedì 23 marzo 2015 dalle ore 9,00 alle ore 13,00 Presso la sala Conferenze Confartigianato.
1 Ministero dell’Istruzione, dell’Università e della Ricerca Dipartimento per la Programmazione e la Gestione delle risorse umane, finanziarie e strumentali.
Indagine Congiunturale 2011 Confcooperative Emilia Romagna CONFERENZA STAMPA CONFCOOPERATIVE EMILIA ROMAGNA Bologna, 30 Luglio 2013.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

1.1

annata

Possono essere a loro volta considerate: variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta (contesto m.d. regressione) o variabili di analisi (contesto m.d. classificazione) (o specifiche di prodotto) (contesto produttivo/economico/S.Q.) Se una fonte di variazione viene definita in termini qualitativi o ordinali, le modalità che la caratterizzano possono prendere il nome di livelli.

1.2

Ma è poi assolutamente necessario isolare le variabili ?

Talvolta è addirittura impossibile definire con chiarezza e rigore NO Talvolta è addirittura impossibile L’importante è definire con chiarezza e rigore l’oggetto di studio anche nel quadro di un approccio meno atomistico e più sistemico al problema e pianificare di conseguenza il campionamento

Esempio di un tentativo ... (Alessandri, S.; 2000; "Qualita' e variabilita' degli oli vergini di oliva della Toscana e modelli di classificazione: una discussione metodologica"; Bollettino dei Chimici Igienisti parte scientifica, Vol. 52 1S/2001, pp31-44.)

1.3 Io era tra color che son sospesi, e donna mi chiamò beata e bella, tal che di comandare io la richiesi.

E’ qui che il pensiero razionale si perde facilmente

1.4

E’ necessario che un parametro di dispersione divenga unità di misura nella scala delle posizioni, e quindi unità di misura della distanza-diversità. Particolarmente conveniente risulta essere la varianza

Se consideriamo che la differenza (distanza, diversità) tra medie può essere misurata a sua volta come dispersione delle medie stesse attorno alla media delle medie, e quindi associata ad una varianza, allora possiamo interpretare la differenza tra medie come rapporto tra varianze: Varianza tra i gruppi / Varianza entro i gruppi

1.5 m u l t i v a r i a t o

L'informazione multivariata delle informazioni univariate Numerosità , dispersioni posizioni uguali, struttura interna (co-dispersione) diversa L'informazione multivariata è maggiore della somma delle informazioni univariate singolarmente prese

L'informazione multivariata può rivelare una direzione preferenziale lungo la quale la dispersione (separazione) delle osservazioni è maggiore di quella lungo le direzioni delle variabili considerate separatamente, direzioni coincidenti con quelle degli assi del sistema di riferimento.

dei gruppi di osservazioni L'informazione multivariata può rivelare una direzione preferenziale lungo la quale la dispersione (separazione) dei gruppi di osservazioni è maggiore di quella lungo le direzioni delle variabili considerate separatamente, direzioni coincidenti con quelle degli assi del sistema di riferimento.

1.6

ANOVA

Stime per intervalli, prova delle ipotesi e concetto di significatività costituiscono gli strumenti per formulare ed affrontare un (il?) problema di fondo: Qual’é la probabilità di ottenere: questo risultato (campionario) questo/i insieme/i di risultati (campionari) questa/e configurazione/i di risultati (campionari) questa/e relazione/i tra risultati (campionari) questa/e variazione/i nei risultati (campionari) … per puro caso ? E’ sempre qui che il pensiero razionale si perde facilmente

Stime per intervalli, prova delle ipotesi e concetto di significatività costituiscono gli strumenti per stimare e valutare la diversità-distanza fra popolazioni partendo dalle corrispondenti statistiche campionarie. (Per i problemi di classificazione sono necessari ANCHE altri strumenti di validazione, per incrementare la rappresentatività )

critico La numerosità campionaria gioca sempre un ruolo per la rappresentatività

Anche questo è un problema di rappresentatività INOLTRE: il “sapere” metodologico maturato in campo agronomico da Fisher in poi, per quanto riguarda in particolare le produzioni agrarie, ed in special modo quelle da colture arboree, fornisce gli strumenti per impostare ed affrontare un problema specifico: Qual’é l’incidenza della variabilità annuale su: questo risultato questo/i insieme/i di risultati questa/e configurazione/i di risultati questa/e relazione/i tra risultati questa/e variazione/i nei risultati … ? Anche questo è un problema di rappresentatività In altri termini, fino a che punto E’ possibile trascurare o “accorpare” l’ ”effetto-anno” ?

1.7

La “numerosità” delle variabili di analisi gioca anch’essa un ruolo critico E’ un argomento molto discusso, che presenta aspetti estremamente contraddittori sintetizzati da espressioni molto suggestive ... per la rappresentatività per la computabilità per la possibilità stessa di fare inferenze nel senso della statistica classica per la predittività

The blessings of Dimensionality Tecniche di data analisys applicate a problemi di riconoscimento, basate su “poche” osservazioni descritte da moltissime variabili E’un fatto che le tecniche di data analisys: hanno molto successo aumentano i loro campi di applicazione The curses of Dimensionality Intrattabilità di stime ed inferenze davanti alla proliferazione delle variabili di analisi

2.1

Analisi Discriminante Uno strumento importante per il calcolo di modelli di classificazione è costituito da un insieme di tecniche statistiche genericamente denominate Analisi Discriminante Il termine non ha lo stesso univoco significato per tutti gli autori.

L' Analisi Discriminante tratta insiemi di osservazioni in cui: -sono definiti dei gruppi o classi -sono definite una o piu' variabili quantitative Si distinguono almeno tre tipologie di Analisi Discriminante: l'Analisi Discriminante classificatoria orientata alla produzione di modelli di classificazione, l'Analisi Discriminante Canonica l'Analisi Discriminante Step-Wise orientate alla preventiva riduzione della dimensionalità dei modelli. Hand, (1981); Lachenbruch e collaboratori (1968); Lachenbruch (1975); Seber (1984),

con la minima possibilità di errore. L' analisi discriminante classificatoria (da ora in avanti "Analisi Discriminante") sviluppa una regola matematica (funzione discriminante), basata sulle (funzione delle) variabili quantitative prese in considerazione, che permette di attribuire un'osservazione ad una delle classi (restituisce una probabilità di attribuzione per ciascuna classe), con la minima possibilità di errore.

L' analisi discriminante classificatoria Si articola in numerosi metodi, parametrici e non: funzione discriminante lineare => LDA, da Linear Discriminant Analysis funzione discriminante quadratica => QDA, da Quadratic Discriminant Analysis non sono necessarie assunzioni circa l'omogeneità delle matrici di covarianze entro le classi metodi non parametrici => (kernel, KNN, …) non sono necessarie assunzioni circa la normalita' delle distribuzioni entro le classi.

Analisi discriminante canonica (CDA, da Canonical Discriminant Analysis ") Obiettivi: determinare le combinazioni lineari (definite Variabili Canoniche, Canonical variables, Canonical variates) delle variabili quantitative considerate, che meglio sintetizzano la variabilità tra le classi selezionare un insieme di poche variabili canoniche, che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte (relativamente a quelle canoniche) variabili quantitative di partenza; Le variabili canoniche hanno la caratteristica di essere tra loro incorrelate. Klecka (1980); Seber (1984).

Analisi discriminante step-wise Obiettivi: determinare le variabili quantitative più efficaci per una corretta classificazione delle osservazioni selezionare un insieme di poche variabili (originali non canoniche), che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte variabili quantitative di partenza L'analisi discriminante step-wise persegue direttamente questo obiettivo con eliminazioni e/o immissioni progressive (passo-passo) di una variabile alla volta nel modello, per mezzo di diversi possibili criteri di valutazione. I metodi step-wise NON garantiscono LA selezione della combinazione OTTIMALE di variabili originali in senso assoluto, ma solamente in senso relativo.

La crossvalidazione (metodo "Leaving-one-out") e' un procedimento che consiste nel classificare ogni osservazione (di un collettivo di numerosita' n), in base al criterio discriminante tratto dalle altre (n-1) osservazioni. Richiede quindi che la funzione discriminante sia ricalcolata tante volte quante sono le osservazioni stesse. La crossvalidazione leaving-one-out evita l'insorgere di errori di attribuzione artificiosamente bassi, che non cosituiscono una buona stima del reale potere discriminatorio del modello.

Cenni a tecniche diverse e/o ausiliarie Modelli di classificazione Cenni a tecniche diverse e/o ausiliarie Analisi delle Componenti Principali Analisi dei Cluster

Componenti Principali Descrivono in maniera ottimale la variabilita' totale del collettivo in osservazione: la prima PC estratta e' pensabile come la retta meglio adattata allo scatter delle osservazioni nello spazio n-dimensionale delle variabili di analisi considerate, la seconda come quella meglio adattata alla variabilita' residua, e cosi' via.

esplorare le relazioni tra variabili e tra osservazioni Analisi delle Componenti Principali Scopi esplorare le relazioni tra variabili e tra osservazioni isolare l'informazione utile alla separazione delle osservazioni dal "rumore", all'interno di un gruppo di variabili (tra le quali non viene fatta alcuna suddivisione fra dipendenti ed indipendenti) selezionare un piccolo gruppo di combinazioni lineari (Componenti Principali) da un insieme di variabili (quantitative) di partenza identificare gli "outliers"

Sulle componenti principali e' poi possibile applicare qualunque analisi statistica appropriata: operare analisi dei cluster determinare modelli di regressione calcolare modelli di classificazione Le Componenti Principali a differenza delle variabili canoniche, definiscono un sistema di riferimento che massimizza la separazione media tra le singole osservazioni, NON necessariamente tra le classi.

Analisi dei Cluster (parametriche e non parametriche) scopi: esplorare le relazioni tra osservazioni stabilire se e' possibile riconoscere dei raggruppamenti (cluster) in un certo insieme di osservazioni in cui non è nota né definita a priori alcuna classe o gruppo individuare i raggruppamenti stessi in termini di rapporti reciproci (gerarchie, sovrapposizioni, distanze, …) descriverli statisticamente L’ analisi dei cluster può venire utilizzata per “riscoprire” dei raggruppamenti noti a priori, o per scoprirne di nuovi, magari rivelati dall’analisi di errori di classificazione.

3.1

3.2