La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Esercitazioni. Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)

Presentazioni simili


Presentazione sul tema: "Esercitazioni. Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)"— Transcript della presentazione:

1 Esercitazioni

2 Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)

3 Esercitazioni: Contenuti  Stima parametri Intra-popolazione (MtDNA, Y Chr.)  Stima parametri demografici (MtDNA)  Stima parametri Inter-popolazione (MtDNA, Y Chr.)  Rappresentazioni grafiche (PAST) (MtDNA, Y Chr.)

4 Flusso genico differenziale Pigmei Bantu PIGMEI Cacciatori raccoglitori Piccole dimensioni Bassa taglia effettiva Struttura sociale variabile BANTU Agricoltori Grandi dimensioni Alta taglia effettiva Patrilocali Poliginia

5 Flusso genico differenziale Pigmei Bantu <5000 BP Areale di distribuzione delle popolazioni Pigmee Flusso genico elevato tra popolazioni Pigmee

6 Flusso genico differenziale Pigmei Bantu 5000 – 3000 BP Areale di distribuzione delle popolazioni Pigmee Origine espansione Bantu Frammentazione dell’areale dei Pigmei Diminuzione del flusso genico tra i Pigmei

7 Flusso genico differenziale Pigmei Bantu Cavalli Sforza

8 Flusso genico differenziale Pigmei Bantu

9 Flusso differenziale Pigmei Bantu 5000 – 3000 BP Areale di distribuzione delle popolazioni Pigmee Frammentazione dell’areale dei Pigmei Diminuzione del flusso genico tra i Pigmei

10 Flusso genico differenziale Pigmei Bantu L’ipotesi

11 Flusso genico differenziale Pigmei Bantu Impedimenti di natura socioculturale PigmeiBantu La donna Pigmea va a vivere insieme al marito Bantu. Nel caso di decesso o divorzio la donna Pigmea torna al suo villaggio portando con se i figli.

12 Flusso genico differenziale Pigmei Bantu Valutare la presenza di questo pattern attraverso gli effetti sulla variabilità genetica BANTUPIGMEI Variabilità interna mtDNA Y chr Variabilità inter-popolazione mtDNA diversità più marcata tra Bantu e Pigmei Y chr Diversità meno marcata tra Bantu e Pigmei Parametri demografici Bantu segnali di espansione Pigmei segnali di stazionarietà

13 Flusso genico differenziale Pigmei Bantu PIGMEI Babinga Baka Bakola Biaka Mbenzele BANTU Bakaka Bassa Bateke Ewondo Ngoumba  DNA mitocondriale (HVR1)  Cromosoma Y (6 STR)

14 Database online Database primari

15 Database online : database secondari HGDP Human genome diversity project HGDP Human genome diversity project

16 Database online: NCBI Peopling of Sahul: mtDNA variation in aboriginal Australian and Papua New Guinean populations. Redd,A.J. and Stoneking,M. (1999) Am. J. Hum. Genet. 65:(3)

17 Database online: NCBI Formato Fasta La sequenza viene scritta con una riga di intestazione che riporta il nome della entry preceduta dal simbolo «>» e quindi di seguito sulle righe successive la sequenza stessa. Più sequenze possono essere scritte una sotto l’altra. >gi| |gb|DQ | Homo sapiens isolate AN01 control region, partial sequence; mitochondrial ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCA CCCATCAACAACCGCTATGTACTTCGTACATTACTGCCAGTCACCATGAATATTGTACGGTACCATAAAT ACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAACCCCCTCCCCATGCTTACAAGCAAGTA CAGCAATCAACCTTCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCA ACAAACCTATCCACCCTTAACAGTACATAGTACATAAAACCATTTACCGTACATAGCACATTACAGTCAA ATCCCTTCTCGCCCCCATGGATGACCCCCCTCAGATAGGGGTCCCTTGACCACCATCC >gi| |gb|DQ | Homo sapiens isolate AN02 control region, partial sequence; mitochondrial ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCA CCCATCAACAACCGCTATGTATTTCGTACATTACTGCCAGTCACCATGAATATTGTACGGTACCATAAAT ACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAACCCCCTCCCCATGCTTACAAGCAAGTA CAGCAATCAACCTTCAACTATCACACATCAACTGCAACTCCAAAGCCACTCCTCACCCACTAGGATACCA ACAAACCTATCCACCCTTAACAGTACATAGTACATAAAACCATTTACCGTACATAGCACATTACAGTCAA ATCCCTTCTCGCCCCCATGGATGACCCCCCTCAGATAGGGGTCCCTTGACCACCATCC >gi| |gb|DQ | Homo sapiens isolate AN03 control region, partial sequence; mitochondrial ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCA CCCATCAACAACCGCTATGTATTTCGTACATTACTGCCAGTCACCATGAATATTGTACGGTACCATAAAT ACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAACCCCCTCCCCATGCTTACAAGCAAGTA CAACAATCAACCTTCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCA ACAAACCTATCTACCCTTAACAGTACATAGTACATAAAACCATTTACCGTACATAGCACATTACAGTCAA ATCCCTTCTCGCCCCCATGGATGACCCCCCTCAGATAGGGGTCCCTTGACCACCATCC

18 DNA alignment Software : Aligner Le sequenze scaricate non sono sempre pronte per l’uso. LE SEQUENZE VANNO ALLINEATE L’allineamento è una procedura bioinformatica nella quale vengono confrontate più sequenze (DNA, RNA, Amminoacidi) allo scopo di identificare regioni identiche o simili. Queste regioni infatti possono avere relazioni funzionali (nel nostro caso filogenetiche). Per l’MtDNA l’allineamento serve per rendere le sequenze confrontabili andando ad identificare inserzioni e/o delezioni che se non rilevate rendono DNA BLAST: Verificare se una sequenza sconosciuta è già presente in un database di sequenze già note.

19 DNA alignment Per l’MtDNA l’allineamento avviene confrontanto le sequenze con la sequenze di riferimento (detta sequenza di Anderson). Questo serve per rendere le sequenze confrontabili e per identificare i siti mutati rispetto alla sequenza di riferimento. ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTAC ATTCTTATTTAAACTATTCTCTGTTCTTTATGGGGAAGCAGATTTGGGTAC ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTCGGGTAC ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTAC ATTCTTATTTAAACTATTCTCTGTTCTTTATGGGGAAGCAGATTTGGGTAC ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTCGGGTAC ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTT - GGGTAC ATTCTTATTTAAACTATTCTCTGTTCTTT –ATGGGGAAGCAGATTT - GGGTAC ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTC GGGTAC Software : Aligner

20 Dataset MtDNA (HVR I; ) Dataset da 16 popolazioni (5 continenti) che hanno storie demografiche ed evolutive diverse. EUROPA Serbi (Vojvodina) Italiani (Lazio) Romeni (Est) Baschi (Spagnoli) AFRICA Kenya (Nairobi) Sudan (vari) Ewondo (Sud Camerron) Baka (Pigmei, Cameroon) Babinga (Pigmei,Cameroon) Khoisan, Kung! (2 Khoisan, Sud Africa) Egiziani (Cairo) ASIA Cinesi (Yunan) Kazaki (Vari) OCEANIA Aborigeni australiani (vari) SUD AMERICA Perù (Nativi)

21 Database online: NCBI Attraverso i database NCBI scegliete un set di dati da aggiungere al dataset. Database POPSET o NUCLEOTIDE Parole chiave generiche:; mtDNA human; D-loop human. Parole chiave specifiche: France mtDNA; Europe mtDNA; Africa mtDNA etc...

22 Dataset Cromosoma Y – 6 STR (DYS19; DYS389I; DYS390; DYS391;DYS392;DYS393) EUROPA Bosnia Italiani (Lazio) Spagna (Catalani) Baschi (Spagnoli) Macedonia (Skopje) Germania (Hannover) AFRICA Baka (Pigmei) Babinga (Pigmei) Ewondo (Cameroon) Sudan (Vari) Sud Africa (Vari) ASIA Cinesi (Han) Giapponesi (Osaka) Iran (Arabi) Emirati arabi uniti SUD AMERICA Nativi Americani (U.S.A.) Bolibia (Nativi)

23 Arlequin Arlequin è un pacchetto di software per analisi che fornisce all’utente di genetica di popolazione un gran numero di metodi di base e test statistici, al fine di estrarre informazioni sulle caratteristiche genetiche e demografiche di una raccolta di campioni di popolazione.

24 Settaggio e preparazione file Arlequin [Profile] NbSamples=1 DataType=STANDARD # - {DNA, RFLP, MICROSAT, STANDARD, FREQUENCY} GenotypicData=0 # - {0, 1} GameticPhase=1 # - {0, 1} LocusSeparator=WHITESPACE # - {TAB, WHITESPACE, NONE} RecessiveData=0 # - {0, 1} MissingData='?' # A single character specifying missing data # Some advanced settings the experienced user can uncomment # Frequency= ABS # - {ABS, REL} # FrequencyThreshold= 1.0e-5 # - (Any real number, usually between 1.0e-7 and 1.e-3) # EpsilonValue= 1.0e-7 # - (Any real number, usually between 1.0e-12 and 1.0e-5) [Data] [[Samples]] SampleName="Name of Population number 1" SampleSize= 6 #Fictive number, but must match the sume of haplotype frequencies given below SampleData= { #Example of a sample consisiting of haplotypic data (2 haplotypes, 2 loci): h1 2 TC h2 4 GT }

25 Variabilità Intra-Popolazione (MtDNA e cromosoma Y)

26 Arlequin: Variabilità Intra-Popolazione (MtDNA) S: Number of polymorphic sites (numero di siti polimorfi) Numero di posizioni dove è presente una mutazione (SNP). Relazionando questo numero alla lunghezza della sequenza considerata si ha un’idea della variabilità nucleotidica (Nucleotide diversity) H: Number of Haplotypes (numero di aplotipi diversi) Il numero di aplotipi diversi trovati nella popolazione HD: Haplotype diversity (Gene diversity) La probabilità che due aplotipi (alleli) presi a caso all’interno del pool siano diversi. n= numero di individui K= numero diverso di aplotipi P= frequenza dell’i-esimo aplotipo Permette di fare confronti dal momento che tiene in considerazione la taglia del campione (N)

27 Arlequin: Variabilità Intra-Popolazione (MtDNA) MNPD: Mean number of paiwise differences (numero medio di differenze a coppie) Numero di differenze,al livello di sequenze, tra tutti gli individui della popolazione confrontati a coppie. k= il numero di differenze tra le sequenze generiche i e j n= numero di sequenze nel campione n(n-1)/2=numero di confronti totale AMOVA: Analysis of Molecular Variance Analisi per valutare il grado di strutturazione delle popolazioni. Un analisi gerarchica della varianza basata sulle frequenze geniche e le differenze tra aplotipi: La varianza è poi suddivisa in componenti relative a: Diversità all’interno delle popolazioni Diversità tra popolazioni all’interno dei gruppi Diversità tra gruppi

28 Arlequin: Variabilità Intra-Popolazione (Cromosoma Y) h, Hd, MNPD, AMOVA Garza-Williamson index (G-W) Indice sensibile a recenti colli di bottiglia k=numero di alleli in un dato locus R= range allelico Valori bassi di G-W: collo di bottiglia Valori prossimi a 1 di G-W: popolazione stazionaria R: Allelic range (range allelico) Il range di alleli differenti per ogni locus S: Number of alleles (numero di alleli) Numero di alleli per ogni locus

29 Parametri demografici (MtDNA)

30 Arlequin: Parametri demografici (mtDNA) Test di selezione basati sul confronto tra i vari stimatori del parametro  =4Nµ (2Nµ per i sistemi aploidi). MtDNA e Cromosoma Y non soggetti a selezione quindi i test stimano gli effetti della demografia sulla struttura genetica delle popolazioni  (Hom): una stima che si ottiene dall’omozigosità osservata  (S): una stima che si ottiene dal numero osservato di siti segreganti  (k): una stima che si ottiene dal numero osservato di alleli  ( π ): una stima che si ottiene dal numero medio di differenze a coppie Le variazioni della taglia effettiva di una popolazione nel tempo Non tutti i metodi sono utilizzabili con i diversi marcatori In definitiva tutti questi metodi dovrebbero dare lo stesso risultato Dal momento che ogni metodo fa delle assunzioni a priori e differenze nella stima possono essere interpretate come una violazione di tali assunzioni

31 Arlequin: Parametri demografici (mtDNA) TAJIMA’S D Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Tante mutazioni di cui poche condivise tra aplotipi diversi D>0 Selezione bilanciante o Espansione demografica Poche mutazioni di cui molte condivise tra aplotipi diversi D<0 Neutralità selettiva o Stazionarietà La significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di D minori o uguali all’osservato.

32 Arlequin: Parametri demografici (mtDNA) P-Value del D è calcolato attraverso un approccio di simulazione che fornisce la probabilità di ottenere valori di D minori o uguali da una popolazione selettivamente neutrale generata a random. Espansione Stazionarietà

33 Arlequin: Parametri demografici (mtDNA) F s di Fu Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Valuta la differenza tra la variabilità osservata e quella attesa secondo un modello di evoluzione neutrale. Si calcola prima la probabilità (S’) di osservare un campione neutrale con un numero di alleli minore o uguale al valore osservato, dato il numero di differenze a coppie (stima di  ) F s positivo: il numero di alleli minore rispetto all’atteso selezione positiva o bottleneck recente F s negativo: il numero di alleli maggiore rispetto all’atteso selezione bilanciante o espansione demografica F s vicino allo zero: assunzioni modello rispettate Neutralità selettiva o popolazione stazionaria Anche per Fs di Fu la significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di Fs minori o uguali all’osservato.

34 Arlequin: Parametri demografici (mtDNA) Mismatch distribution La distribuzione delle differenze a coppie tra sequenze La forma della distribuzione fornisce indizi sulla storia demografica della popolazione IIIIIIIVVp.d.NFreq. IAGTCTTACGTATCI-010,1 IIAGTCTTGCGTATC 1-150,5 IIIAGTTTTACGTATC ,3 IVAGTCTTGCGTCTC ,1 VAGTCTTACGTATCV0112-

35 Arlequin: Parametri demografici (mtDNA) RAGGEDNESS: indice che permette di distinguere tra i due tipi di distribuzione Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini. r più basso per le distribuzioni a campana r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.

36 Variabilità Inter-Popolazione (MtDNA e cromosoma Y)

37 Arlequin:Variabilità inter-popolazione Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg). Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità. Fst Parametro di distanza genetica che misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni. F st = V p / p (1-p) dove p e Vp sono la media e la varianza delle frequenze geniche tra le due subpopolazioni; Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni 0

38 Arlequin:Variabilità inter-popolazione DISTANZA GENETICA Fst TRA DUE POPOLAZIONI AD UN LOCUS CON DUE ALLELI Fst= Vp / P (1-P) p = frequenza allelica P = frequenza allelica media 1 e 2 = popolazione 1 e 2 Varianza =  (X-Xm)2/N La devianza/N Devianza =  (X- Xm)2 Somma degli scarti al quadrato scarto: un valore X sottratto rispetto alla media aritmetica Fst = (p 1 -P) 2 + (p 2 -P) 2 2 x 1 P (1-P)

39 Arlequin:Variabilità inter-popolazione ESEMPIO DI CALCOLO DELLA DISTANZA GENETICA Fst POP 1 POP 2 p 1 =0,3 p 2 =0,7 POP 1 POP 2 p 1 =0,1 p 2 =0,9 P=0,5 (0,3-0,5) 2 + (0,7-0,5) 2 2 x [0,5 x (1-0,5)] = = 0,16 Fst (0,1-0,5) 2 + (0,9-0,5) 2 2 x [0,5 x (1-0,5)] = = 0,64

40 Arlequin:Variabilità inter-popolazione Rst: Misura della distanza genetica equivalente all’Fst ma adattata ai loci microsatellite. Assume un modello stepwise ad alto tasso di mutazione. A x-yi = Numero di ripetizioni per il locus i nelle popolazioni x e y

41 Arlequin:Variabilità inter-popolazione Bisogna valutare se il valore ottenuto sia significativo, quindi se la suddivisione della popolazione è maggiore di quella attesa per caso Bisogna escludere che: La popolazione non sia differenziata Le differenze tra le frequenze alleliche siano dovute al campionamento L’accoppiamento sia casuale Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).

42 Arlequin:Variabilità inter-popolazione I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività. Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%. MONTE-CARLO PERMUTATION TEST

43 Past: rappresentazioni grafiche ANALISI MULTIVARIATE CLUSTER ANALISYS Seleziona e raggruppa elementi omogenei all’interno di un set di dati. Esistono diversi metodi (algoritmi) suddivisi principalmente in due categorie Clustering partitivo: L’appartenenza ad un gruppo è definita dalla distanza da un punto rappresentativo del cluster (centriode etc..) avendo determinato a priori il numero di cluster (K-means) Clustering gerarchico: Si costruisce una gerarchia di partizioni caratterizzata da un numero decrescente di cluster (UPGMA, Neighbour joining etc..)

44 Past: rappresentazioni grafiche Una matrice di distanza genetiche ha tante dimensioni quante sono le popolazioni quindi è impossibile da visualizzare graficamente a meno che non si riassume l’informazione in modo che possa essere rappresentata in due dimensioni. MDS (Multidimensional scaling) costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita di informazione possibile (minore distorsione possibile) La distorsione è rappresentata dal parametro stress

45 Flusso differenziale Pigmei Bantu RISULTATI HD mtDNA HD Y chromosome

46 Flusso differenziale Pigmei Bantu RISULTATI MNPD mtDNA MNPD Y chromosome

47 Flusso differenziale Pigmei Bantu

48 mtDNA Among pop.p-value Pigmies Bantu

49 Flusso differenziale Pigmei Bantu Y chromosome Among pop.p-value Pigmies Bantu

50 MISURE DI DISTRIBUZIONE DI DIVERSITA’ Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg). Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità. Fst, (software ARLEQUIN) usato per i marcatori classici, misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni. F st = V p / p (1-p) dove p e V p sono la media e la varianza delle frequenze geniche tra le due subpopolazioni; Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni 0

51 TEST DI SIGNIFICATIVITA’ Per dimostrare che la suddivisione della popolazione è maggiore di quella attesa per caso. Bisogna escludere che: La popolazione non sia differenziata Le differenze tra le frequenze alleliche siano dovute al campionamento L’accoppiamento sia casuale Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).

52 TEST di PERMUTAZIONE (metodo Monte Carlo) I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività. Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.


Scaricare ppt "Esercitazioni. Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)"

Presentazioni simili


Annunci Google