Esercitazioni.

Esercitazioni

Software Textpad (editor di testo)
Arlequin (Pacchetto per genetica di popolazioni) Past (analisi varie)

Esercitazioni: Contenuti
Stima parametri Intra-popolazione (MtDNA, Y Chr.) Stima parametri demografici (MtDNA) Stima parametri Inter-popolazione (MtDNA, Y Chr.) Rappresentazioni grafiche (PAST) (MtDNA, Y Chr.)

Flusso genico differenziale Pigmei Bantu
Cacciatori raccoglitori Piccole dimensioni Bassa taglia effettiva Struttura sociale variabile BANTU Agricoltori Grandi dimensioni Alta taglia effettiva Patrilocali Poliginia

<5000 BP Areale di distribuzione delle popolazioni Pigmee Flusso genico elevato tra popolazioni Pigmee

5000 – 3000 BP Areale di distribuzione delle popolazioni Pigmee Origine espansione Bantu Frammentazione dell’areale dei Pigmei Diminuzione del flusso genico tra i Pigmei

Cavalli Sforza

L’ipotesi

Impedimenti di natura socioculturale Pigmei Bantu La donna Pigmea va a vivere insieme al marito Bantu. Nel caso di decesso o divorzio la donna Pigmea torna al suo villaggio portando con se i figli.

Valutare la presenza di questo pattern attraverso gli effetti sulla variabilità genetica BANTU PIGMEI Variabilità interna mtDNA Y chr Variabilità inter-popolazione mtDNA diversità più marcata tra Bantu e Pigmei Y chr Diversità meno marcata tra Bantu e Pigmei Parametri demografici Bantu segnali di espansione Pigmei segnali di stazionarietà

Babinga Baka Bakola Biaka Mbenzele BANTU Bakaka Bassa Bateke Ewondo Ngoumba DNA mitocondriale (HVR1) Cromosoma Y (6 STR)

DNA alignment LE SEQUENZE VANNO ALLINEATE Software : Aligner
Le sequenze scaricate non sono sempre pronte per l’uso. LE SEQUENZE VANNO ALLINEATE L’allineamento è una procedura bioinformatica nella quale vengono confrontate più sequenze (DNA, RNA, Amminoacidi) allo scopo di identificare regioni identiche o simili. Queste regioni infatti possono avere relazioni funzionali (nel nostro caso filogenetiche). DNA BLAST: Verificare se una sequenza sconosciuta è già presente in un database di sequenze già note. Per l’MtDNA l’allineamento serve per rendere le sequenze confrontabili andando ad identificare inserzioni e/o delezioni che se non rilevate rendono

Arlequin Arlequin è un pacchetto di software per analisi che fornisce all’utente di genetica di popolazione un gran numero di metodi di base e test statistici, al fine di estrarre informazioni sulle caratteristiche genetiche e demografiche di una raccolta di campioni di popolazione.

Settaggio e preparazione file Arlequin
[Profile] NbSamples=1 DataType=STANDARD # - {DNA, RFLP, MICROSAT, STANDARD, FREQUENCY} GenotypicData=0 # - {0, 1} GameticPhase=1 # - {0, 1} LocusSeparator=WHITESPACE # - {TAB, WHITESPACE, NONE} RecessiveData=0 # - {0, 1} MissingData='?' # A single character specifying missing data # Some advanced settings the experienced user can uncomment # Frequency= ABS # - {ABS, REL} # FrequencyThreshold= 1.0e-5 # - (Any real number, usually between 1.0e-7 and 1.e-3) # EpsilonValue= 1.0e # - (Any real number, usually between 1.0e-12 and 1.0e-5) [Data] [[Samples]] SampleName="Name of Population number 1" SampleSize= 6 #Fictive number, but must match the sume of haplotype frequencies given below SampleData= { #Example of a sample consisiting of haplotypic data (2 haplotypes, 2 loci): h TC h GT }

Variabilità Intra-Popolazione (MtDNA e cromosoma Y)

Arlequin: Variabilità Intra-Popolazione (MtDNA)
S: Number of polymorphic sites (numero di siti polimorfi) Numero di posizioni dove è presente una mutazione (SNP). Relazionando questo numero alla lunghezza della sequenza considerata si ha un’idea della variabilità nucleotidica (Nucleotide diversity) H: Number of Haplotypes (numero di aplotipi diversi) Il numero di aplotipi diversi trovati nella popolazione HD: Haplotype diversity (Gene diversity) La probabilità che due aplotipi (alleli) presi a caso all’interno del pool siano diversi. n= numero di individui K= numero diverso di aplotipi P= frequenza dell’i-esimo aplotipo Permette di fare confronti dal momento che tiene in considerazione la taglia del campione (N)

Arlequin: Variabilità Intra-Popolazione (MtDNA)
MNPD: Mean number of paiwise differences (numero medio di differenze a coppie) Numero di differenze ,al livello di sequenze, tra tutti gli individui della popolazione confrontati a coppie. k= il numero di differenze tra le sequenze generiche i e j n= numero di sequenze nel campione n(n-1)/2=numero di confronti totale AMOVA: Analysis of Molecular Variance Analisi per valutare il grado di strutturazione delle popolazioni. Un analisi gerarchica della varianza basata sulle frequenze geniche e le differenze tra aplotipi: La varianza è poi suddivisa in componenti relative a: Diversità all’interno delle popolazioni Diversità tra popolazioni all’interno dei gruppi Diversità tra gruppi

Arlequin: Variabilità Intra-Popolazione (Cromosoma Y)
h, Hd, MNPD, AMOVA S: Number of alleles (numero di alleli) Numero di alleli per ogni locus R: Allelic range (range allelico) Il range di alleli differenti per ogni locus Garza-Williamson index (G-W) Indice sensibile a recenti colli di bottiglia k=numero di alleli in un dato locus R= range allelico Valori bassi di G-W: collo di bottiglia Valori prossimi a 1 di G-W: popolazione stazionaria

Parametri demografici (MtDNA)

Arlequin: Parametri demografici (mtDNA)
Le variazioni della taglia effettiva di una popolazione nel tempo Test di selezione basati sul confronto tra i vari stimatori del parametro  =4Nµ (2Nµ per i sistemi aploidi). MtDNA e Cromosoma Y non soggetti a selezione quindi i test stimano gli effetti della demografia sulla struttura genetica delle popolazioni  (Hom): una stima che si ottiene dall’omozigosità osservata  (S): una stima che si ottiene dal numero osservato di siti segreganti  (k): una stima che si ottiene dal numero osservato di alleli  (π): una stima che si ottiene dal numero medio di differenze a coppie Non tutti i metodi sono utilizzabili con i diversi marcatori In definitiva tutti questi metodi dovrebbero dare lo stesso risultato Dal momento che ogni metodo fa delle assunzioni a priori e differenze nella stima possono essere interpretate come una violazione di tali assunzioni

TAJIMA’S D Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Tante mutazioni di cui poche condivise tra aplotipi diversi D>0 Selezione bilanciante o Espansione demografica Poche mutazioni di cui molte condivise tra aplotipi diversi D<0 Neutralità selettiva o Stazionarietà La significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di D minori o uguali all’osservato.

Espansione Stazionarietà Stazionarietà P-Value del D è calcolato attraverso un approccio di simulazione che fornisce la probabilità di ottenere valori di D minori o uguali da una popolazione selettivamente neutrale generata a random.

Fs di Fu Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Valuta la differenza tra la variabilità osservata e quella attesa secondo un modello di evoluzione neutrale. Si calcola prima la probabilità (S’) di osservare un campione neutrale con un numero di alleli minore o uguale al valore osservato, dato il numero di differenze a coppie (stima di  ) Fs positivo: il numero di alleli minore rispetto all’atteso selezione positiva o bottleneck recente Fs negativo: il numero di alleli maggiore rispetto all’atteso selezione bilanciante o espansione demografica Fs vicino allo zero: assunzioni modello rispettate Neutralità selettiva o popolazione stazionaria Anche per Fs di Fu la significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di Fs minori o uguali all’osservato.

Mismatch distribution La distribuzione delle differenze a coppie tra sequenze La forma della distribuzione fornisce indizi sulla storia demografica della popolazione I II III IV V p.d. N Freq. A G T C - 1 0,1 5 0,5 2 3 0,3

RAGGEDNESS: indice che permette di distinguere tra i due tipi di distribuzione Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini. r più basso per le distribuzioni a campana r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.

Variabilità Inter-Popolazione (MtDNA e cromosoma Y)

Arlequin:Variabilità inter-popolazione
Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg). Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità. Fst Parametro di distanza genetica che misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni. Fst = Vp/ p (1-p) dove p e Vp sono la media e la varianza delle frequenze geniche tra le due subpopolazioni; Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni 0<Fst<1

DISTANZA GENETICA Fst TRA DUE POPOLAZIONI AD UN LOCUS CON DUE ALLELI Varianza =(X-Xm)2/N La devianza/N Devianza = (X- Xm)2 Somma degli scarti al quadrato scarto: un valore X sottratto rispetto alla media aritmetica Fst= Vp / P (1-P) p = frequenza allelica P = frequenza allelica media 1 e 2 = popolazione 1 e 2 Fst = (p1-P)2 + (p2-P)2 2 x 1 P (1-P)

ESEMPIO DI CALCOLO DELLA DISTANZA GENETICA Fst POP 1 POP 2 POP 1 POP 2 p1=0,3 p2=0,7 p1=0,1 p2=0,9 P=0,5 P=0,5 (0,3-0,5)2 + (0,7-0,5)2 (0,1-0,5)2 + (0,9-0,5)2 = = 0,16 Fst = = 0,64 2 x [0,5 x (1-0,5)] 2 x [0,5 x (1-0,5)]

Rst: Misura della distanza genetica equivalente all’Fst ma adattata ai loci microsatellite. Assume un modello stepwise ad alto tasso di mutazione. Ax-yi = Numero di ripetizioni per il locus i nelle popolazioni x e y

Bisogna valutare se il valore ottenuto sia significativo, quindi se la suddivisione della popolazione è maggiore di quella attesa per caso Bisogna escludere che: La popolazione non sia differenziata Le differenze tra le frequenze alleliche siano dovute al campionamento L’accoppiamento sia casuale Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).

MONTE-CARLO PERMUTATION TEST I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività. Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.

Past: rappresentazioni grafiche
ANALISI MULTIVARIATE CLUSTER ANALISYS Seleziona e raggruppa elementi omogenei all’interno di un set di dati. Esistono diversi metodi (algoritmi) suddivisi principalmente in due categorie Clustering partitivo: L’appartenenza ad un gruppo è definita dalla distanza da un punto rappresentativo del cluster (centriode etc..) avendo determinato a priori il numero di cluster (K-means) Clustering gerarchico: Si costruisce una gerarchia di partizioni caratterizzata da un numero decrescente di cluster (UPGMA, Neighbour joining etc..)

Past: rappresentazioni grafiche
Una matrice di distanza genetiche ha tante dimensioni quante sono le popolazioni quindi è impossibile da visualizzare graficamente a meno che non si riassume l’informazione in modo che possa essere rappresentata in due dimensioni. MDS (Multidimensional scaling) costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita di informazione possibile (minore distorsione possibile) La distorsione è rappresentata dal parametro stress

Flusso differenziale Pigmei Bantu
RISULTATI HD mtDNA HD Y chromosome

RISULTATI MNPD mtDNA MNPD Y chromosome

mtDNA Among pop. p-value Pigmies 26.85 0.00 Bantu 1.91

Y chromosome Among pop. p-value Pigmies 5.36 0.00 Bantu 11.36

Esercitazioni.

Presentazioni simili

Presentazione sul tema: "Esercitazioni."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Esercitazioni.

Presentazioni simili

Presentazione sul tema: "Esercitazioni."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back