La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Esercitazioni. Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)

Presentazioni simili


Presentazione sul tema: "Esercitazioni. Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)"— Transcript della presentazione:

1 Esercitazioni

2 Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)

3 Esercitazioni: Contenuti  Stima parametri Intra-popolazione (MtDNA, Y Chr.)  Stima parametri demografici (MtDNA)  Stima parametri Inter-popolazione (MtDNA, Y Chr.)  Rappresentazioni grafiche (PAST) (MtDNA, Y Chr.)

4 Flusso genico differenziale Pigmei Bantu PIGMEI Cacciatori raccoglitori Piccole dimensioni Bassa taglia effettiva Struttura sociale variabile BANTU Agricoltori Grandi dimensioni Alta taglia effettiva Patrilocali Poliginia

5 Flusso genico differenziale Pigmei Bantu <5000 BP Areale di distribuzione delle popolazioni Pigmee Flusso genico elevato tra popolazioni Pigmee

6 Flusso genico differenziale Pigmei Bantu 5000 – 3000 BP Areale di distribuzione delle popolazioni Pigmee Origine espansione Bantu Frammentazione dell’areale dei Pigmei Diminuzione del flusso genico tra i Pigmei

7 Flusso genico differenziale Pigmei Bantu Cavalli Sforza

8 Flusso genico differenziale Pigmei Bantu

9 L’ipotesi

10 Flusso genico differenziale Pigmei Bantu Impedimenti di natura socioculturale PigmeiBantu La donna Pigmea va a vivere insieme al marito Bantu. Nel caso di decesso o divorzio la donna Pigmea torna al suo villaggio portando con se i figli.

11 Flusso genico differenziale Pigmei Bantu Valutare la presenza di questo pattern attraverso gli effetti sulla variabilità genetica BANTUPIGMEI Variabilità interna mtDNA Y chr Variabilità inter-popolazione mtDNA diversità più marcata tra Bantu e Pigmei Y chr Diversità meno marcata tra Bantu e Pigmei Parametri demografici Bantu segnali di espansione Pigmei segnali di stazionarietà

12 Flusso genico differenziale Pigmei Bantu PIGMEI Babinga Baka Bakola Biaka Mbenzele BANTU Bakaka Bassa Bateke Ewondo Ngoumba  DNA mitocondriale (HVR1)  Cromosoma Y (6 STR)

13 DNA alignment Software : Aligner Le sequenze scaricate non sono sempre pronte per l’uso. LE SEQUENZE VANNO ALLINEATE L’allineamento è una procedura bioinformatica nella quale vengono confrontate più sequenze (DNA, RNA, Amminoacidi) allo scopo di identificare regioni identiche o simili. Queste regioni infatti possono avere relazioni funzionali (nel nostro caso filogenetiche). Per l’MtDNA l’allineamento serve per rendere le sequenze confrontabili andando ad identificare inserzioni e/o delezioni che se non rilevate rendono DNA BLAST: Verificare se una sequenza sconosciuta è già presente in un database di sequenze già note.

14 Arlequin Arlequin è un pacchetto di software per analisi che fornisce all’utente di genetica di popolazione un gran numero di metodi di base e test statistici, al fine di estrarre informazioni sulle caratteristiche genetiche e demografiche di una raccolta di campioni di popolazione.

15 Settaggio e preparazione file Arlequin [Profile] NbSamples=1 DataType=STANDARD # - {DNA, RFLP, MICROSAT, STANDARD, FREQUENCY} GenotypicData=0 # - {0, 1} GameticPhase=1 # - {0, 1} LocusSeparator=WHITESPACE # - {TAB, WHITESPACE, NONE} RecessiveData=0 # - {0, 1} MissingData='?' # A single character specifying missing data # Some advanced settings the experienced user can uncomment # Frequency= ABS # - {ABS, REL} # FrequencyThreshold= 1.0e-5 # - (Any real number, usually between 1.0e-7 and 1.e-3) # EpsilonValue= 1.0e-7 # - (Any real number, usually between 1.0e-12 and 1.0e-5) [Data] [[Samples]] SampleName="Name of Population number 1" SampleSize= 6 #Fictive number, but must match the sume of haplotype frequencies given below SampleData= { #Example of a sample consisiting of haplotypic data (2 haplotypes, 2 loci): h1 2 TC h2 4 GT }

16 Variabilità Intra-Popolazione (MtDNA e cromosoma Y)

17 Arlequin: Variabilità Intra-Popolazione (MtDNA) S: Number of polymorphic sites (numero di siti polimorfi) Numero di posizioni dove è presente una mutazione (SNP). Relazionando questo numero alla lunghezza della sequenza considerata si ha un’idea della variabilità nucleotidica (Nucleotide diversity) H: Number of Haplotypes (numero di aplotipi diversi) Il numero di aplotipi diversi trovati nella popolazione HD: Haplotype diversity (Gene diversity) La probabilità che due aplotipi (alleli) presi a caso all’interno del pool siano diversi. n= numero di individui K= numero diverso di aplotipi P= frequenza dell’i-esimo aplotipo Permette di fare confronti dal momento che tiene in considerazione la taglia del campione (N)

18 Arlequin: Variabilità Intra-Popolazione (MtDNA) MNPD: Mean number of paiwise differences (numero medio di differenze a coppie) Numero di differenze,al livello di sequenze, tra tutti gli individui della popolazione confrontati a coppie. k= il numero di differenze tra le sequenze generiche i e j n= numero di sequenze nel campione n(n-1)/2=numero di confronti totale AMOVA: Analysis of Molecular Variance Analisi per valutare il grado di strutturazione delle popolazioni. Un analisi gerarchica della varianza basata sulle frequenze geniche e le differenze tra aplotipi: La varianza è poi suddivisa in componenti relative a: Diversità all’interno delle popolazioni Diversità tra popolazioni all’interno dei gruppi Diversità tra gruppi

19 Arlequin: Variabilità Intra-Popolazione (Cromosoma Y) h, Hd, MNPD, AMOVA Garza-Williamson index (G-W) Indice sensibile a recenti colli di bottiglia k=numero di alleli in un dato locus R= range allelico Valori bassi di G-W: collo di bottiglia Valori prossimi a 1 di G-W: popolazione stazionaria R: Allelic range (range allelico) Il range di alleli differenti per ogni locus S: Number of alleles (numero di alleli) Numero di alleli per ogni locus

20 Parametri demografici (MtDNA)

21 Arlequin: Parametri demografici (mtDNA) Test di selezione basati sul confronto tra i vari stimatori del parametro  =4Nµ (2Nµ per i sistemi aploidi). MtDNA e Cromosoma Y non soggetti a selezione quindi i test stimano gli effetti della demografia sulla struttura genetica delle popolazioni  (Hom): una stima che si ottiene dall’omozigosità osservata  (S): una stima che si ottiene dal numero osservato di siti segreganti  (k): una stima che si ottiene dal numero osservato di alleli  ( π ): una stima che si ottiene dal numero medio di differenze a coppie Le variazioni della taglia effettiva di una popolazione nel tempo Non tutti i metodi sono utilizzabili con i diversi marcatori In definitiva tutti questi metodi dovrebbero dare lo stesso risultato Dal momento che ogni metodo fa delle assunzioni a priori e differenze nella stima possono essere interpretate come una violazione di tali assunzioni

22 Arlequin: Parametri demografici (mtDNA) TAJIMA’S D Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Tante mutazioni di cui poche condivise tra aplotipi diversi D>0 Selezione bilanciante o Espansione demografica Poche mutazioni di cui molte condivise tra aplotipi diversi D<0 Neutralità selettiva o Stazionarietà La significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di D minori o uguali all’osservato.

23 Arlequin: Parametri demografici (mtDNA) P-Value del D è calcolato attraverso un approccio di simulazione che fornisce la probabilità di ottenere valori di D minori o uguali da una popolazione selettivamente neutrale generata a random. Espansione Stazionarietà

24 Arlequin: Parametri demografici (mtDNA) F s di Fu Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Valuta la differenza tra la variabilità osservata e quella attesa secondo un modello di evoluzione neutrale. Si calcola prima la probabilità (S’) di osservare un campione neutrale con un numero di alleli minore o uguale al valore osservato, dato il numero di differenze a coppie (stima di  ) F s positivo: il numero di alleli minore rispetto all’atteso selezione positiva o bottleneck recente F s negativo: il numero di alleli maggiore rispetto all’atteso selezione bilanciante o espansione demografica F s vicino allo zero: assunzioni modello rispettate Neutralità selettiva o popolazione stazionaria Anche per Fs di Fu la significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di Fs minori o uguali all’osservato.

25 Arlequin: Parametri demografici (mtDNA) Mismatch distribution La distribuzione delle differenze a coppie tra sequenze La forma della distribuzione fornisce indizi sulla storia demografica della popolazione IIIIIIIVVp.d.NFreq. IAGTCTTACGTATCI-010,1 IIAGTCTTGCGTATC 1-150,5 IIIAGTTTTACGTATC ,3 IVAGTCTTGCGTCTC ,1 VAGTCTTACGTATCV0112-

26 Arlequin: Parametri demografici (mtDNA) RAGGEDNESS: indice che permette di distinguere tra i due tipi di distribuzione Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini. r più basso per le distribuzioni a campana r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.

27 Variabilità Inter-Popolazione (MtDNA e cromosoma Y)

28 Arlequin:Variabilità inter-popolazione Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg). Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità. Fst Parametro di distanza genetica che misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni. F st = V p / p (1-p) dove p e Vp sono la media e la varianza delle frequenze geniche tra le due subpopolazioni; Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni 0

29 Arlequin:Variabilità inter-popolazione DISTANZA GENETICA Fst TRA DUE POPOLAZIONI AD UN LOCUS CON DUE ALLELI Fst= Vp / P (1-P) p = frequenza allelica P = frequenza allelica media 1 e 2 = popolazione 1 e 2 Varianza =  (X-Xm)2/N La devianza/N Devianza =  (X- Xm)2 Somma degli scarti al quadrato scarto: un valore X sottratto rispetto alla media aritmetica Fst = (p 1 -P) 2 + (p 2 -P) 2 2 x 1 P (1-P)

30 Arlequin:Variabilità inter-popolazione ESEMPIO DI CALCOLO DELLA DISTANZA GENETICA Fst POP 1 POP 2 p 1 =0,3 p 2 =0,7 POP 1 POP 2 p 1 =0,1 p 2 =0,9 P=0,5 (0,3-0,5) 2 + (0,7-0,5) 2 2 x [0,5 x (1-0,5)] = = 0,16 Fst (0,1-0,5) 2 + (0,9-0,5) 2 2 x [0,5 x (1-0,5)] = = 0,64

31 Arlequin:Variabilità inter-popolazione Rst: Misura della distanza genetica equivalente all’Fst ma adattata ai loci microsatellite. Assume un modello stepwise ad alto tasso di mutazione. A x-yi = Numero di ripetizioni per il locus i nelle popolazioni x e y

32 Arlequin:Variabilità inter-popolazione Bisogna valutare se il valore ottenuto sia significativo, quindi se la suddivisione della popolazione è maggiore di quella attesa per caso Bisogna escludere che: La popolazione non sia differenziata Le differenze tra le frequenze alleliche siano dovute al campionamento L’accoppiamento sia casuale Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).

33 Arlequin:Variabilità inter-popolazione I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività. Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%. MONTE-CARLO PERMUTATION TEST

34 Past: rappresentazioni grafiche ANALISI MULTIVARIATE CLUSTER ANALISYS Seleziona e raggruppa elementi omogenei all’interno di un set di dati. Esistono diversi metodi (algoritmi) suddivisi principalmente in due categorie Clustering partitivo: L’appartenenza ad un gruppo è definita dalla distanza da un punto rappresentativo del cluster (centriode etc..) avendo determinato a priori il numero di cluster (K-means) Clustering gerarchico: Si costruisce una gerarchia di partizioni caratterizzata da un numero decrescente di cluster (UPGMA, Neighbour joining etc..)

35 Past: rappresentazioni grafiche Una matrice di distanza genetiche ha tante dimensioni quante sono le popolazioni quindi è impossibile da visualizzare graficamente a meno che non si riassume l’informazione in modo che possa essere rappresentata in due dimensioni. MDS (Multidimensional scaling) costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita di informazione possibile (minore distorsione possibile) La distorsione è rappresentata dal parametro stress

36 Flusso differenziale Pigmei Bantu RISULTATI HD mtDNA HD Y chromosome

37 Flusso differenziale Pigmei Bantu RISULTATI MNPD mtDNA MNPD Y chromosome

38 Flusso differenziale Pigmei Bantu

39 mtDNA Among pop.p-value Pigmies Bantu

40 Flusso differenziale Pigmei Bantu Y chromosome Among pop.p-value Pigmies Bantu


Scaricare ppt "Esercitazioni. Software  Textpad (editor di testo)  Arlequin (Pacchetto per genetica di popolazioni)  Past (analisi varie)"

Presentazioni simili


Annunci Google