lunedì 27 ottobre 2014

REFERENCE SEQUENCE, CONTIG, SCAFFOLD, ASSEMBLY, REFSEQ, ENSEMBL, UCSC: INTRODUZIONE A TERMINI E STRUMENTI BIOINFORMATICI

REFERENCE SEQUENCE, CONTIG, SCAFFOLD, ASSEMBLY, REFSEQ, ENSEMBL, UCSC: INTRODUZIONE A TERMINI E STRUMENTI BIOINFORMATICI
Chi si occupa di genetica sa che l’utilizzo dei database bioinformatici (e la terminologia in essi utilizzata) non è sempre facile e che, specialmente all'inizio, richiede un certo periodo di training. Ecco di seguito una breve introduzione ad alcuni dei termini e delle risorse bioinformatiche più utilizzate.


REFERENCE SEQUENCE

Come già spiegato in COS’È UNA REFERENCE SEQUENCE, per ogni gene, trascritto e proteina esistono nelle banche dati una o più sequenze di riferimento (reference sequences). Le reference sequences dei database rappresentano le sequenze tipo dell’uomo, con le quali le sequenze di un paziente specifico vengono messe a confronto allo scopo di identificare eventuali mutazioni patogene.

CONTIG, SCAFFOLD, ASSEMBLY

Poiché non è possibile sequenziare le molecole di DNA nella loro interezza, l’unico modo per ricostruire un gemona umano è quello di frammentare a caso il DNA in tanti piccoli pezzetti di dimensioni tali da poter essere sequenziati (shotgun sequencing). I prodotti del sequenziamento, le cosiddette reads, vengono poi riassemblate come in un puzzle sfruttando le regioni di sovrapposizione alle estremità di ciascuna read. Dall’allineamento delle reads si ottengono quindi delle sequenze più lunghe, dette contigui (o contig), i quali vengono a loro volta riuniti in sequenze di dimensioni ancora maggiori dette scaffold. Gli scaffold vengono ulteriormente allineati fino a costruire un assemblato finale (assembly). Un assembly genomico, dunque, non è altro che un genoma completo. Si badi bene, tuttavia, che non esistono solo assembly genomici, ma anche assembly di soli trascritti, detti EST assembly, nei quali si rappresenta soltanto la parte trascritta del genoma: per saperne di più puoi leggere anche EST - EXPRESSED SEQUENCE TAG).

BANCHE DATI BIOINFORMATICHE (DATABASE)

I database più utilizzati per reperire sequenze di riferimento sono RefSeq (prodotto da NCBI), Ensembl (prodotto da EMBL-EBI e da Wellcome Trust Sanger Institute) e UCSC Genome Bioinformatics (prodotto dalla University of California Santa Cruz). Meno conosciuto è il DDBJ (DNA Databank of Japan, dall'utilizzo apparentemente un po' ostico, ma importante perché facente parte del consorzio International Nucleotide Sequence Database Collaboration - INSDC). Forse ancor meno conosciuto, per ora, è lo LRG (Locus Reference Genomics, il cui contenuto è ancora limitato).

Per saperne di più:


Nessun commento: