VARIABILI E DISTRIBUZIONI DI FREQUENZA Lezione n.3 Prof. Roberto de Marco
DISTRIBUZIONE DI FREQUENZA Il metodo più semplice e immediato per rappresentare in modo sintetico un insieme di osservazioni individuali relative ad una certa variabile è mediante la DISTRIBUZIONE DI FREQUENZA Insieme dei possibili valori ( modalità o intervalli di classe) di una variabile con associata la frequenza con cui tali valori sono stati rilevati nel campione.
COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZA definire un criterio di classificazione delle osservazioni ESAUSTIVO: devono essere riportati tutti le modalità o i valori assunti dalla variabile NON AMBIGUO: gli intervalli di classe devono essere mutuamente esclusivi 2. assegnare ad ogni modalità/intervallo la frequenza (relativa e/o assoluta) corrispondente
Variabile quantitativa: Variabile qualitativa: Esempio Variabile quantitativa: classificazione dell’età in anni compiuti SCORRETTA 0-10 10-20 ….. 70-80 CORRETTA 0-9 10-19 ….. 70-80 >80 Variabile qualitativa: classificazione del colore dei capelli SCORRETTA Nero Chiaro Biondo Rosso CORRETTA Nero Castano Biondo Rosso
COSTRUZIONE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUALITATIVE
Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso: X= grado del trauma: xi: 0=assente 1=trauma lieve 2= trauma grave 3=lesioni permanenti 4= decesso 2 1 3 4 Conteggio delle osservazioni per ogni modalità MODALITA' frequenza assoluta relativa n i /n assente 48 48/100=0,48 lieve 32 0,32 grave 17 0,17 lesioni permanenti 2 0,02 decesso 1 0,01 TOTALE 100 k=5 pi= Costruzione della tabella e calcolo di frequenze relative
Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso: MODALITA' frequenza assoluta relativa n i /n assente 48 48/100=0,48 lieve 32 0,32 grave 17 0,17 lesioni permanenti 2 0,02 decesso 1 0,01 TOTALE 100 k=5 Diagramma a barre
ESERCIZIO I dati seguenti si riferiscono al tipo di parto di 50 neonati in Italia: X = tipo di parto xi = normale 0 forcipe 1 cesareo 2 Determinare la distribuzione di frequenza modalità x i frequenza assoluta n relativa p frequenza relativa percentuale (%) normale 35 35/50 = 0.70 (35/50)*100 = 70% forcipe 1 1/50 = 0.02 (1/50)*100 = 2% cesareo 14 14/50 = 0.28 (14/50)*100 = 28% TOTALE 50 1.00 10 0%
PERCHÉ USARE LE FREQUENZE RELATIVE? Per il confronto della distribuzione di una variabile in campioni di dimensioni diverse Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B.
PERCHÉ USARE LE FREQUENZE RELATIVE? FREQUENZE ASSOLUTE EFFETTO n i (A) (B) migliorato 50 33 peggiorato 80 53 invariato 20 14 150 100
PERCHÉ USARE LE FREQUENZE RELATIVE? (B) 0,33 0,53 0,14 1,00 EFFETTO n (P) migliorato 50 33 peggiorato 80 53 invariato 21 14 151 100
RAPPRESENTAZIONI GRAFICHE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUALITATIVE
GRAFICO A TORTA Esempio: ci sono 16 maschi tra 33 specializzandi e 33 tra le 125 matricole di Medicina (frequenze assolute, n). SPECIALIZZANDI MATRICOLE 33 maschi 16 maschi 17 femmine a (33/125=26.4%) (16/33=48.5%) 92 femmine a : 360 = n : N >> a= (n/N)*360°
DIAGRAMMA A BARRE _ Distribuzione gruppi sanguigni - - - -
Distribuzione dell’abitudine al fumo di sigaretta in Italia. Dati ISAYA - 2001 Verlato G et al . Respiratory Medicine 2006
Rappresentare graficamente l’informazione contenuta nei seguenti dati Colore degli occhi e dei capelli in un campione di studenti Capelli occhi Capelli occhi Capelli occhi Capelli occhi 1 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 1 3 2 2 1 1 1 1 1 3 2 3 Capelli: 1= nero/castano 2= biondo/rosso Occhi: 1= nero/marrone 2= blu/azzurro 3= verde
COSTRUZIONE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUANTITATIVE
Costruiamo gli intervalli di classe: Trovo il valore minimo e il valore massimo min=150 cm max=193 cm Calcolo il campo di variazione (range): Xmax-Xmin range=43 Stabilire il numero degli intervalli k=9 Calcolare l’ampiezza degli intervalli: i= Range / k i= 43/9=4.8~5 Costruisco gli intervalli di classe (esclusivi ed esaustivi) Conto il numero di individui per ogni classe
TABELLA DI FREQUENZA Statura in classi Frequenza assoluta relativa [150-155) 1 1/125= 0.8% [155-160) 8 8/125= 6.4% [160-165) 24 24/125= 19.2% [165-170) 34 27.2% [170-175) 27 21.6% [175-180) 19 15.2% [180-185) 9 7.2% [185-190) 0.8% [190-195) 2 1.6% totale 125 100%
RAPPRESENTAZIONI GRAFICHE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUANTITATIVE
ISTOGRAMMA A CANNE D’ORGANO area di ciascun rettangolo proporzionale alla frequenza 150 155 160 165 170 175 180 185 190 195 perdita di informazione al diminuire del numero di intervalli 150 165 180 195
Esempio: Vittime di incidenti stradali nel London Borough of Harrow nel 1985. scorretto 316/34=9.3 corretto
Rappresentazione Poligono di Frequenze Statura in classi Frequenza assoluta relativa [150-155) 1 1/125= 0.8% [155-160) 8 8/125= 6.4% [160-165) 24 24/125= 19.2% [165-170) 34 27.2% [170-175) 27 21.6% [175-180) 19 15.2% [180-185) 9 7.2% [185-190) 0.8% [190-195) 2 1.6% totale 125 100% Rappresentazione Poligono di Frequenze 150 155 160 165 170 175 180 185 190 195 157.5 162.5
DISTRIBUZIONE DI FREQUENZA CUMULATA FREQUENZA ASSOLUTA CUMULATA ( Fi ) O RELATIVA (Pi=Fi/N) numero di osservazioni ( o percentuale ) il cui valore è inferiore o uguale a un definito valore xi
TABELLA DI FREQUENZA ni pi Fi Pi 150-155 155-160 160-165 165-170 170-175 175-180 180-185 185-190 190-195
Distribuzione cumulativa relativa (curva ad ogiva) 100 90 80 70 60 50 40 30 20 10 150 155 160 165 170 175 180 185 190 195 statura (cm)
ESERCIZIO Nella tabella seguente sono riportati i dati relativi ad uno studio sulla crescita condotto su 40 soggetti: 16 19 19 20 20 20 20 21 21 21 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 23 24 24 24 24 24 24 25 25 25 25 26 26 27 Distanza in mm fra il centro dell’ipofisi e la fossa pterigomascellare: Costruire 4 intervalli di frequenza Costruire la tabella di frequenza riportando frequenze assolute, frequenze relative e frequenze cumulate relative. Costruire la curva ad ogiva e stimare la percentuale di soggetti che hanno: 15 <distanza < 22mm
MISURE D’ORDINE IN UNA DISTRIBUZIONE SCOPO: descrivere la posizione di un dato individuale nell’ambito di una distribuzione RANGO: posizione di un’osservazione Xi in una serie di dati ordinati in modo crescente RANGO PERCENTILE: sia xi la i-ma osservazione di un campione di N unità ordinate in modo crescente. Il rango percentile corrispondente è dato da: Rp= rango (xi) N+1 * 100
Esempio: nelle seguenti tabelle si riportano le osservazioni del peso per N soggetti: PESO (kg) 53 55 60 61 63 65 Rango= 3, Rp=43% N=60: PESO (kg) 53 55 60 61 63 65 ….. 92 Rango= 3, Rp=5%
I PERCENTILI K-M0 PERCENTILE : valore di xi corrispondente al K-esimo rango percentilico. Quel valore della variabile, Xi, tale per cui il k% della popolazione ha valori <= Xi. K è noto anche come RANGO PERCENTILE I PERCENTILI PIU’ NOTI: 25 50 75 1° QUARTILE 3° QUARTILE 2° QUARTILE o MEDIANA 3° QUARTILE-1°QUARTILE = DIFFERENZA INTERQUARTILICA
40-mo percentile: il 40% del campione ha un’altezza167.5 Esempio: calcolo del 40-mo percentile 100 90 80 70 60 50 40 30 20 10 150 155 160 165 170 175 180 185 190 195 ~167.5 statura (cm) RANGO PERCENTILICO 40-mo percentile: il 40% del campione ha un’altezza167.5
ASIMMETRIA POSITIVA SIMMETRIA ASIMMETRIA NEGATIVA SIMMETRIA DI UNA DISTRIBUZIONE ASIMMETRIA POSITIVA SIMMETRIA -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 ASIMMETRIA NEGATIVA
The distribution of cardiac index is bimodal with a distinct population of subjects characterized by an increased cardiac index. Thirty-seven percent of all subjects with borderline hypertension were found to have this elevation in cardiac index and an elevated heart rate ( which also had a bimodal distribution).
Mentre il peso e l’altezza nella pop. Umana sono bimo- dali, il bmi [peso/altezza^2] non lo e’!!!!!
DISTRIBUZIONE BIVARIATA (CROSS-TABULATION) Permette la rappresentazione congiunta della distribuzione di frequenza di due variabili qualitative Permette di capire la relazione tra le due variabili Esempio: distribuzione dell’abitudine al fumo e della broncopneumopatia cronico- ostruttiva (GOLD-BPCO: 0+) in adulti italiana di età 20-44 anni (indagine ISAYA).
DISTRIBUZIONE CONGIUNTA ASSOLUTA distribuzione congiunta del fumo e della BPCO (nij) distribuzione marginale del fumo (ni) dimensione campionaria (n) distribuzione marginale della BPCO (nj)
DISTRIBUZIONE CONGIUNTA RELATIVA (%) non fumatori con BPCO (n12) dimensione campionaria (n) (625 / 18638) * 100 (nij / n) * 100
DISTRIBUZIONI CONDIZIONALI (percentuali di riga e di colonna) Rappresentano la distribuzione di una variabile all’interno delle modalità dell’altra variabile N.B. Se le distribuzioni condizionali sono differenti, si può supporre che esista una relazione tra le due variabili
DISTRIBUZIONI CONDIZIONALI AI MARGINALI DI RIGA (percentuali di riga) DISTRIBUZIONE DELLA BPCO PER LIVELLO DI FUMO marginali di riga (ni) (625 / 9667) * 100 (nij / ni) * 100
marginali di colonna (nj) DISTRIBUZIONI CONDIZIONALI AI MARGINALI DI COLONNA (percentuali di colonna): DISTRIBUZIONE DEL FUMO PER LIVELLO DELLA BPCO marginali di colonna (nj) (625 / 2016) * 100 (nij / nj) * 100
ESERCIZIO In un’indagine, è stato chiesto ad un gruppo di 101 consumatori e ad un gruppo di 124 dentisti se erano favorevoli alla pubblicità fatta dai dentisti per attrarre nuovi pazienti. Si sono ottenuti i seguenti risultati: C’è differenza tra il giudizio espresso dai consumatori e dai dentisti? C’è relazione tra la categoria e il giudizio? Cercate di interpretare il risultato