La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Laboratorio di Processi Stocastici Alberto Sorrentino www.fisica.unige.it/~sorrentino/Teaching.

Presentazioni simili


Presentazione sul tema: "Laboratorio di Processi Stocastici Alberto Sorrentino www.fisica.unige.it/~sorrentino/Teaching."— Transcript della presentazione:

1 Laboratorio di Processi Stocastici Alberto Sorrentino

2 Ancora (poco) sugli istogrammi Esiste un comando che fa esattamente quello che avete fatto ieri: l’istogramma delle frequenze dei valori di un vettore hist(data) hist(data,50)istogramma in 50 intervalli data = load(‘dato_per_istogramma.dat’) [counts bins] = hist(data,50)i conteggi in counts, i punti medi degli intervalli in bins

3 Generazione di numeri casuali In moltissime applicazioni può essere utile avere a disposizione sequenze di numeri “casuali”. La realtà abbonda di eventi casuali, lancio di monete, di dadi, estrazioni di carte da un mazzo... Ma come averne TANTI? Esistono ALGORITMI che generano (in modo deterministico) sequenze di numeri che soddisfano determinate proprietà statistiche  pseudorandom numbers “La generazione di numeri casuali è troppo importante per esser lasciata al caso”. Esistono generatori hardware di numeri casuali, che sfruttano fenomeni fisici (radioattività, fenomeni atmosferici,...)

4 Un algoritmo per generare numeri random Generatore congruenziale lineare a = 7^5 M = 2^(31)-1 c=0 L(1) = 1; for i = 2:100 L(i) = mod(a*L(i-1)+c, M) u(i) = L(i)/M end Generatore “periodico”: periodo massimo M, raggiungibile solo se 1.c e M sono primi tra loro 2.a-1 è divisibile per tutti i fattori primi di M 3.a-1 è multiplo di 4 se M è multiplo di 4 resto = mod(dividendo,divisore) Gli u(i) sono distribuiti in maniera uniforme tra 0 e 1. Provare per credere

5 Verifica (NON dimostrazione) funzionamento 1. Fare istogramma dei numeri random generati 2. Modificare la lunghezza del vettore di numeri casuali (ad es. 100, 1,000 e 10,000) e osservare la “omogeneità” della distribuzione E se la distribuzione uniforme ci stesse stretta???

6 Generare numeri casuali con distribuzione arbitraria Funzione dei quantili: Data la variabile aleatoria X, con funzione di ripartizione F, si chiama funzione dei quantili la funzione Q : (0,1)  R definita da Nota: Teorema: se la variabile X ha funzione dei quantili Q, e U è una variabile aleatoria uniforme in (0,1), X e Q ( U ) hanno la stessa legge

7 Metodo dei quantili densità funzione di ripartizione funzione dei quantili Il teorema ci fornisce una regola per generare numeri con distribuzione arbitraria: se conosciamo Q, prendiamo i numeri {u i } distribuiti secondo la legge uniforme e {Q(u i )} sono distribuiti secondo F.

8 Esempio: distribuzione esponenziale La funzione di ripartizione Prendiamo i numeri del “nostro” generatore, applichiamo Q e... exp_rand = -log(1.-u); data = exp_rand; istogramma Generare numeri distribuiti secondo la legge esponenziale: se i numeri {u i } sono distribuiti secondo la legge uniforme, {Q(u i )} hanno F come funzione di ripartizione. (Nota: per distribuzioni continue, Q è la funzione inversa di F) La funzione dei quantili

9 Tanto ormai lo immaginate... Ora provate... data = rand(1,1000) hist(data) data = exprand(1,1,1000) hist(data) poissrndPoisson randnGaussiana

10 Parte 1 Giocando con dati veri...

11 (folklore) Il CitoMegaloVirus Esempio tratto da Stat Labs – Mathematical Statistics Through Applications Anteprima su books.google.it Il citomegalovirus (CMV) appartiene alla famiglia degli Herpesvirus (tra cui varicella, Herpes Simplex e altri). E’ molto comune e in generale asintomatico. La maggior parte degli adulti ne è portatore sano. In persone con immunodeficienza (ad es. AIDS) la malattia ha invece un decorso grave, con possibili polmonite, encefalite, epatite, ulcere, et cetera...

12 (folklore) Patterns in DNA Il DNA contiene tutta l’informazione per la vita del virus. Il DNA può esser pensato come una lunga sequenza i cui elementi base sono 4 lettere (ACGT). Le lettere sono a due a due complementari (A-T e C-G). A causa del numero esiguo di “lettere”, il DNA contiene molti “patterns” (strutture).

13 In molti virus della stessa famiglia, il punto in cui ha origine la replicazione del virus è indicato dalla presenza di palindromi complementari. Un palindromo complementare è una sequenza di lettere tale che la sua complementare, letta al contrario, è uguale alla sequenza stessa; ad esempio ATGGTACCAT  TACCATGGTA  ATGGTACCAT Individuare il punto di origine della replicazione di un DNA può aiutare a realizzare farmaci e vaccini per combattere il virus. (folklore) Patterns in DNA

14 Problema Dati: le localizzazioni di tutte le sequenze di palindromi lunghe almeno 10 basi (l’intera sequenza del DNA del CMV pubblicata nel 1990 da Leung et al.) Individuare i siti di replicazione in laboratorio è una procedura molto laboriosa (si spezzetta il DNA in segmenti e si cerca di far replicare ciascun segmento). L’obiettivo è quello di individuare il sito di replicazione su base statistica, osservando la distribuzione dei palindromi e cercando eventuali anomalie nella distribuzione stessa.

15 Osserviamo il dato carichiamo il dato data = load( ‘ DATA_DNA.dat ‘ ); Un’occhiata ai datiplot(data) Un plot più significativo plot(data,ones(size(data)), ‘. ‘) Meglio ancorahist(data) Guardiamo come son distribuite le distanze tra uno e il successivo Il DNA del CMV contiene 229,354 “lettere”. Le posizioni dei 296 palindromi lunghi almeno 10 lettere sono contenute nel file DATA_DNA.dat hist(data(2:end)-data(1:end-1))

16 Istogrammi in quanti intervalli?? Pochi intervalli  buona statistica, poca informazione Tanti intervalli  poca statistica, molta informazione NUM = [ ] for i=1:size(NUM,2) figure hist(data,NUM(i)) end Domanda: possono questi dati essere frutto di una distribuzione casuale? 1.costruiamo dei dati distribuiti “a caso” e li confrontiamo coi nostri 2.confrontiamo i dati del DNA con i valori attesi tramite test statistici Facciamo istogrammi con diverso numero di intervalli

17 Parte 1.1 confronto con dati simulati

18 Quale modello per i dati? Abbiamo 296 valori distribuiti su un segmento (il DNA) di lunghezza 229,354 Quale modello matematico potrebbe descrivere i nostri dati? Abbiamo osservato un discreto livello di omogeneità. Abbiamo osservato la distribuzione delle differenze tra palindromi contigui. Gli indizi accumulati puntano verso il processo di Poisson!


Scaricare ppt "Laboratorio di Processi Stocastici Alberto Sorrentino www.fisica.unige.it/~sorrentino/Teaching."

Presentazioni simili


Annunci Google