Lezione Novembre 2009 corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione 11 Dicembre sequenziamento shot-gun metodo pyrofosfato 454 e 480 Roche. Dr.Rodriguez lezione 15 Dicembre Programmi informatici per confronti genomici. Dr.P. Daddabbo
analisi del genoma tramite wgs (wide genome screening) cosa significa e come si fa devono essere noti i marcatori SNPs o VNTR con una densità nota, distribuzione omogenea ed alta densità (≠ risoluzione) ultimi metodi a densità media di un marcatore / 500bp più marcatori più risoluzione necessità di nuove tecniche J.N.Hirschhorn & M.J.Daly Nature Reviews Genetics vol.6; Febr.2005 Genome-wide association studies for common diseases and complex traits
con quali obbiettivi analisi della variabilità genetica di popolazione linkage disequilibrium LD associazione con marcatori e triadi o famiglie (iniziata per malattie Mendeliane) analisi di associazione dei fenotipi e patologie confronto casi controlli
due diverse metodologie wide genome scr. association: analisi frequenze caso controllo analisi di lnkage disequilibrium: famiglie grandi, triadi, popolazioni inbred, popolazioni omogenee per definizione sappiamo che c’è linkage tre marcatori con 6 alleli: A a B b C c aplotipi con freq uguali se in disequilibrio aumenta la frequenza di uno degli aplotipi rispetto agli altri esiste disequilibrio per effetto della mutazione recente al’interno della stessa coorte
linkage mapping e gw association “linkage mapping” efficientissimo per malattie monogeniche Mendeliane le malattie monogeniche hanno una selezione negativa forte perciò varianti rare (morbidità e mortalità alte e precoci), alta penetranza per definizione, i markers cosegregano entro cM successo in alcune malattie multifattoriali: Inflam Bowel dis (IBD); Shizofrenia, Diabete tipo I
nelle patologie non Mendeliane o fenotipi multi fattoriali bassa penetranza: aumenta la necessità di ampiezza del campione per la significatività della statistica ricerca in coorti ad origine limitata e popolazioni isolate es. Sardegna, Giappone, Foresta Amazzonica ecc. analisi dei geni identificati per confronto
esempio dei gemelli Infl Bowel Disease solo 2x il rischio per fattori noti il calcolo totale del rischio è 30x quindi il n. di fattori ignoti è molto grande quali cause: basaa ereditabilità di tratti genetici complessi copertura parziale dei markers con microsatelliti definizione imprecisa dei fenotipi protocolli di studio non adeguatamente potenti necessità di studi estesi di geni candidati (più difficili?)
da regioni di 10 cM (~10 6 bp) al gene dalla regione di linkage per arrivare al gene analisi dei geni presenti possibili geni candidati per funzione sequenziamento e ricerca degli alleli nel caso di mutazioni non ci potrà essere disequilibrium il sistema è anche poco efficiente per trovare le varianti genetiche che hanno poco effetto sulla malattia
effetti quantitativi tratti con effetti quantitativi con architetture complesse influenzano il fenotipo con la somma e le interazioni tra fattori ambientali e genetici le singole varianti alleliche hanno poca influenza le varianti comuni freq >1% possono dare suscettibilità resistono alla selezione negativa per la bassa influenza ne sono stati trovati con un aumento di rischio = 2x
alcuni alleli introvabili con LD alleli a bassa suscettibilità non possono essere trovati a meno di screening con 10 6 individui es. variante Pro 12 Ala del gene proliferativo recettore g attivato del perossisoma PPARG rischio doppio per diabete tipo 2 mai potrebbe essere trovato per LD (link diseq) solo con screening su oltre un milione di soggetti ragionevole credere che le malattie comuni siano determinate da alleli comuni, rari e tratti con effetto quantitativo, necessaria strategia complementare
analisi di geni candidati sistema alternativo al LD per appartenenza a regioni in LD per evidenze che riguardano/influenzano la patologia analisi più comune con resequencing di pazienti e controlli (ricerca delle varianti che sono più presenti o assenti nella patologia) analisi spesso ristretta a regioni codificanti o a singolo esone come il gene recettore per la “melanocortin-4” implicato in una piccola percentuale dell’obesità giovanile
limiti degli studi gene candidato l’ipotesi biologica, fisiopatologica, testare tutti i geni del pathway insulin-signalling dipendente identificazione solo di una frazione dei fattori genetici di rischio nonostante le buone conoscenze biologiche in assenza di conoscenze fondamentali fisiopatologiche della patologia in esame il sistema è inadeguato (cercare l’ago nel pagliaio senza la calamita o metal detector)
studi di associazione in assenza di certezze fisiopatologiche della malattia l’analisi dei geni candidati non è possibile uso di varianti alleliche comuni meno caro del risequenziamento efficiente per evidenziare regioni complesse analisi per confronto delle varianti caso/controllo uso alternativo del controllo con analisi famiglia/malato
wgs per associazione si cercano le regioni associate “in linkage” con gli alleli possibili dei geni implicati (niente a che fare con LD) bassa penetranza per la presenza di molti fattori analisi di campioni sempre maggiori per gli alleli rari assenza di presunte regioni preferenziali, no bias assenza di evidenze della collocazione e funzione dei geni coinvolti
miglioramento delle tecniche essenziale per sveltire analisi molto estese database di 9 6 dbSNPs umani con frequenze > 1% costi attuali ~0.001 $ x genotipo = 500 $ per individuo varie tecniche adottate, la maggior parte con PCR e ibridazione su chip array
presenza di aplotipi e LD “ENCODE” encyclopedia of DNA elements esistenza di lunghi tratti di genoma in LD alta predittività degli SNPs vicini (o recenti o senza ricombinazione) conosciute le regioni in LD (aplotipi) si riducono gli SNPs da analizzare si deve analizzare la porzione di genoma a basso LD
nascita della Hap Map data poche centinaia di migliaia di SNPs per mappare l’intero genoma mappa degli aplotipi determina le regioni di LD e blocchi di genoma con gli stessi alleli che non ricombinano nelle popolazioni antiche come in Africa ci sono meno LD sono necessari più SNPs (c’è stato più tempo per ricombinazione, i gruppi etnici del resto del mondo partono da alcuni colli di bottiglia con meno alleli e meno aplotipi
approccio missenso scelta degli SNPs missenso in regioni codificanti 1-2 SNPs in media per gene riduce a x10 3 il n. di SNPs la ricerca di tutti gli SNPs dei geni comprende invece il resequencing bidirezionale di 3x10 5 esoni x 48 soggetti ~30 6 sequenziamenti possibile solo con i nuovi metodi di sequenziamento massivo possibili paradossi: linkage di SNP missenso con variante di regione regolativa (RR) es. CTLA4 cytotoxic T-lymphocyte-associated protein 4 Thr17Ala in LD con RR polimorfica non codificante in associazione + forte con autoimmunità
la prospettiva nel restante 95% del genoma genoma si ricomincia da capo nell’interattoma va inserito il genoma e si allargano le prospettive nuove tecniche, metodi, strumenti