Przeglądarka genomu UCSC — UCSC Genome Browser

Przeglądarka genomu UCSC
Baza danych.png
Zadowolony
Opis Przeglądarka genomu UCSC
Kontakt
Centrum Badań Uniwersytet Kalifornijski w Santa Cruz
Laboratorium Centrum Nauki i Inżynierii Biomolekularnej, Baskin School of Engineering ,
Cytat podstawowy Navarro Gonzalez i in. (2021)
Dostęp
Strona internetowa genom .ucsc .edu

UCSC Genome Browser jest on-line i do pobrania, genom przeglądarka organizowane przez University of California, Santa Cruz (UCSC). Jest to interaktywna strona internetowa oferująca dostęp do danych dotyczących sekwencji genomu różnych gatunków kręgowców i bezkręgowców oraz głównych organizmów modelowych, zintegrowana z dużym zbiorem dopasowanych adnotacji. Przeglądarka jest przeglądarką graficzną zoptymalizowaną pod kątem szybkiego działania interaktywnego i jest pakietem narzędzi internetowych typu open source, zbudowanym na bazie bazy danych MySQL, w celu szybkiej wizualizacji, badania i wykonywania zapytań o dane na wielu poziomach. Baza danych przeglądarki genomu, narzędzia do przeglądania, pliki danych do pobrania i dokumentacja można znaleźć na stronie UCSC Genome Bioinformatics.

Historia

Początkowo zbudowana i nadal zarządzana przez Jima Kenta , a następnie absolwenta i Davida Hausslera , profesora informatyki (obecnie inżynieria biomolekularna) na Uniwersytecie Kalifornijskim w Santa Cruz w 2000 r., Przeglądarka genomu UCSC zaczęła być źródłem dystrybucji pierwsze owoce Projektu Ludzkiego Genomu . Ufundowana przez Howard Hughes Medical Institute i National Human Genome Research Institute, NHGRI (jeden z amerykańskich Narodowych Instytutów Zdrowia ), przeglądarka oferowała graficzną prezentację pierwszego pełnego zestawu chromosomów sekwencji ludzkiego genomu. Obecnie przeglądarka jest używana przez genetyków, biologów molekularnych i lekarzy, a także studentów i nauczycieli ewolucji w celu uzyskania dostępu do informacji genomicznych.

Genomy

Genomy UCSC

W ciągu lat od momentu powstania przeglądarka UCSC została rozszerzona o sekwencje genomów wszystkich gatunków kręgowców i wybranych bezkręgowców, dla których dostępne są sekwencje genomowe o dużym zasięgu, obecnie obejmując 46 gatunków. Wysokie pokrycie jest konieczne, aby umożliwić nakładanie się, aby kierować konstrukcją większych sąsiadujących regionów. Sekwencje genomowe o mniejszym pokryciu są uwzględniane w ścieżkach wielokrotnego wyrównania w niektórych przeglądarkach, ale fragmentaryczny charakter tych zespołów nie sprawia, że ​​są one odpowiednie do tworzenia w pełni funkcjonalnych przeglądarek. (więcej poniżej na torach wielokierunkowych). Gatunki hostowane przez w pełni funkcjonalne przeglądarki genomowe są pokazane w tabeli.

Genomy
wielkie małpy człowiek , pawian, bonobo, szympans , gibon, goryl , orangutan
inne niż małpy naczelne krzak, pazurczatka, lemur myszy, makak rezus, małpa wiewiórka, wyrak, ryjówka nadrzewna
ssaki nienaczelne mysz, alpaka, pancernik, kot, chomik chiński, krowa, pies, delfin, słoń, fretka, świnka morska, jeż, koń, kangur szczur, manat, płetwal karłowaty, nagi kretoszczur, opos, panda, świnia, pika, dziobak , królik, szczur, góralek skalny, owca, ryjówka, leniwiec, wiewiórka, diabeł tasmański, tenrec, wallaby, nosorożec biały
strunowce inne niż ssaki aligator amerykański, dorsz atlantycki, papużka falista, kurczak, coelacanth, żarłacz słoniowy, fugu, minóg, jaszczurka, medaka, zięba pospolita, tilapia nilowa, żółw malowany, ciernik, tetraodon, indyk, Xenopus tropicalis , zeberka , danio pręgowany
bezkręgowce Caenorhabditis spp (5), Drosophila spp. (11), pszczoła miodna, lancet, komar, P. Pacificus , zając morski , żachwa, jeżowiec, drożdże
wirusy Ebola , SARS CoV, 2 koronawirusa

Dzięki hubom zespołów użytkownicy mogą ładować unikalne zespoły. Przykład można zobaczyć w centrum montażowym projektu Vertebrate Genomes Project .

Funkcjonalność przeglądarki

Duża ilość gromadzonych w literaturze danych o układach biologicznych powoduje konieczność zbierania i trawienia informacji za pomocą narzędzi bioinformatyki . Przeglądarka genomu UCSC prezentuje zróżnicowany zbiór zestawów danych adnotacji (znanych jako „ścieżki” i przedstawionych graficznie), w tym wyrównania mRNA, mapowania elementów powtórzeń DNA, przewidywania genów, dane o ekspresji genów, dane dotyczące chorób (reprezentujące relacje genów chorób) oraz mapowania dostępnych w handlu chipów genowych (np. Illumina i Agilent). Podstawowym paradygmatem wyświetlania jest pokazanie sekwencji genomu w wymiarze poziomym i pokazanie graficznej reprezentacji lokalizacji mRNA, przewidywania genów itp. Kolorowe bloki wzdłuż osi współrzędnych pokazują lokalizacje dopasowań różnych typów danych . Możliwość wyświetlania tak dużej różnorodności typów danych na jednej osi współrzędnych sprawia, że ​​przeglądarka jest przydatnym narzędziem do pionowej integracji danych.

Aby znaleźć konkretny gen lub region genomowy, użytkownik może wpisać nazwę genu, sekwencję DNA, numer dostępu dla RNA, nazwę genomowego prążka cytologicznego (np. 20p13 dla prążka 13 na krótkim ramieniu chr20) lub pozycję na chromosomie (chr17:38 450 000-38531 000 dla regionu wokół genu BRCA1 ).

Prezentacja danych w formacie graficznym umożliwia przeglądarce prezentowanie linku dostępu do szczegółowych informacji o dowolnej z adnotacji. Strona ze szczegółami genu na ścieżce UCSC Genes zawiera dużą liczbę linków do bardziej szczegółowych informacji o genie w wielu innych zasobach danych, takich jak Online Mendelian Inheritance in Man ( OMIM ) i SwissProt .

Zaprojektowana do prezentacji złożonych i obszernych danych przeglądarka UCSC jest zoptymalizowana pod kątem szybkości. Poprzez wstępne dopasowanie 55 milionów RNA GenBank do każdego z 81 zespołów genomu (wiele z 46 gatunków ma więcej niż jeden zespół), przeglądarka umożliwia natychmiastowy dostęp do dopasowania dowolnego RNA do dowolnego z hostowanych gatunków.

Wiele produktów genowych genu FOXP2 (u góry) i konserwacja ewolucyjna ukazana w wielokrotnym dopasowaniu (u dołu)

Zestawienie wielu rodzajów danych pozwala badaczom wyświetlić dokładnie taką kombinację danych, która odpowie na konkretne pytania. Funkcjonalność wyjścia pdf/postscript umożliwia eksport obrazu gotowego do użycia w aparacie do publikacji w czasopismach akademickich.

Unikalną i użyteczną cechą, która odróżnia przeglądarkę UCSC od innych przeglądarek genomów, jest ciągła zmienna natura wyświetlania. Można wyświetlić sekwencję dowolnej wielkości, od pojedynczej zasady DNA do całego chromosomu (ludzki chr1 = 245 milionów zasad, Mb) z pełnymi ścieżkami adnotacji. Naukowcy mogą wyświetlać pojedynczy gen, pojedynczy ekson lub cały zespół chromosomów, pokazując dziesiątki lub setki genów i dowolną kombinację wielu adnotacji. Wygodna funkcja przeciągania i powiększania pozwala użytkownikowi wybrać dowolny region na obrazie genomu i rozszerzyć go, aby zajmował cały ekran.

Badacze mogą również używać przeglądarki do wyświetlania własnych danych za pomocą narzędzia Custom Tracks. Ta funkcja pozwala użytkownikom przesłać plik z własnymi danymi i przeglądać dane w kontekście referencyjnego zespołu genomu. Użytkownicy mogą również korzystać z danych hostowanych przez UCSC, tworząc wybrane przez siebie podzbiory danych za pomocą narzędzia Table Browser (takie jak tylko SNP, które zmieniają sekwencję aminokwasową białka) i wyświetlać ten konkretny podzbiór danych w przeglądarce jako ścieżka niestandardowa.

Każdy widok przeglądarki utworzony przez użytkownika, w tym widok zawierający ścieżki niestandardowe, może być udostępniany innym użytkownikom za pośrednictwem narzędzia Zapisane sesje.

Utwory

Ścieżki przeglądarki genomu UCSC

Poniżej wyświetlanego obrazu przeglądarki genomu UCSC znajduje się dziewięć kategorii dodatkowych ścieżek, które można wybrać i wyświetlić obok oryginalnych danych. Te kategorie to mapowanie i sekwencjonowanie, geny i przewidywania genów, fenotyp i literatura, mRNA i EST, ekspresja, regulacja, genomika porównawcza, zmienność i powtórzenia.

Kategorie
Kategoria Opis Przykłady utworów
Mapowanie i sekwencjonowanie Umożliwia kontrolę nad wyświetlanym stylem sekwencjonowania. Pozycja podstawowa . Alt Mapa , Przerwa
Geny i przewidywania genów Które programy przewidywać geny i z których baz danych wyświetlać znane geny. GENCODE v24 , Geneid Geneid , Pfam w UCSC Gene
Fenotyp i literatura Bazy danych zawierające określone style danych fenotypowych. Allele OMIM , Cancer Gene Expr Super-track
mRNA i EST Dostęp do mRNA i EST dla wyszukiwań specyficznych dla ludzi lub ogólnych wyszukiwań wszystkich celów. Ludzkie EST , inne EST , inne mRNA
Wyrażenie Wyświetlaj unikalne wyrażenia z góry określonych sekwencji. Gen GTEx , Affy U133
Rozporządzenie Informacje istotne dla regulacji transkrypcji z różnych badań. ENCODE Regulacja Super-Track Ustawienia , OregAnno
Genomika porównawcza Umożliwia porównanie poszukiwanej sekwencji z innymi grupami zwierząt o zsekwencjonowanych genomach. Ochrona , minus 7 punktów , minus 30 naczelnych
Zmiana Porównuje wyszukiwaną sekwencję ze znanymi odmianami. Wspólne SNP (150) , Wszystkie SNP (146) , Oflagowane SNP(144)
Powtórzenia Umożliwia śledzenie różnego rodzaju powtarzających się sekwencji w zapytaniu. RepeatMasker , mikrosatelita , WM + SDust

Mapowanie i sekwencjonowanie

Ścieżki te umożliwiają użytkownikowi kontrolę nad wyświetlaniem współrzędnych genomowych, sekwencji i przerw. Badacze mają możliwość wybrania ścieżek, które najlepiej reprezentują ich zapytanie, aby umożliwić wyświetlanie bardziej odpowiednich danych w zależności od rodzaju i głębokości prowadzonych badań. Ścieżki mapowania i sekwencjonowania mogą również wyświetlać ścieżkę opartą na procentach, aby pokazać badaczowi, czy określony element genetyczny jest bardziej rozpowszechniony na określonym obszarze.

Geny i przewidywania genów

Ścieżki przewidywań genów i genów kontrolują wyświetlanie genów i ich kolejnych części. Różne ścieżki umożliwiają użytkownikowi wyświetlanie modeli genów, regionów kodujących białka i niekodującego RNA, a także innych danych związanych z genami. Dostępnych jest wiele ścieżek, które umożliwiają naukowcom szybkie porównanie ich zapytania z wcześniej wybranymi zestawami genów w celu znalezienia korelacji między znanymi zestawami genów.

Fenotyp i literatura

Ścieżki fenotypowe i literaturowe dotyczą fenotypu bezpośrednio związanego z genami, a także fenotypu genetycznego. Zastosowania tych utworów są przeznaczone głównie dla lekarzy i innych specjalistów zajmujących się zaburzeniami genetycznymi, badaczy genetyki oraz zaawansowanych studentów nauk ścisłych i medycyny. Badacz może również wyświetlić ścieżkę, która pokazuje pozycje genomowe naturalnych i sztucznych wariantów aminokwasów.

mRNA i EST

Ścieżki te są powiązane z eksprymowanymi znacznikami sekwencji i informacyjnym RNA. EST są sekwencjami z pojedynczym odczytem, ​​zwykle o długości około 500 zasad, które zazwyczaj reprezentują fragmenty transkrybowanych genów. Ścieżki mRNA umożliwiają wyświetlanie danych wyrównania mRNA u ludzi, a także u innych gatunków. Istnieją również ślady umożliwiające porównanie z regionami EST, które wykazują oznaki splicingu po dopasowaniu do genomu.

Wyrażenie

Ścieżki ekspresji są używane do powiązania danych genetycznych z obszarami tkanki, w których ulegają ekspresji. Pozwala to badaczowi odkryć, czy określony gen lub sekwencja jest połączona z różnymi tkankami w całym ciele. Ścieżki ekspresji umożliwiają również wyświetlanie danych konsensusu dotyczących tkanek, które wyrażają region zapytania.

Rozporządzenie

Ścieżki regulacyjne przeglądarki genomu UCSC to kategoria ścieżek, które kontrolują reprezentację regionów promotora i kontroli w genomie. Naukowiec może dostosować ścieżki regulacji, aby dodać wykres wyświetlania do przeglądarki genomu. Prezentacje te pozwalają uzyskać więcej szczegółów na temat regionów regulatorowych, miejsc wiązania czynników transkrypcyjnych, miejsc wiązania RNA, wariantów regulatorowych, haplotypów i innych elementów regulatorowych.

Genomika porównawcza

Przeglądarka genomu UCSC umożliwia użytkownikowi wyświetlanie różnych rodzajów danych dotyczących ochrony. Użytkownik może wybierać spośród różnych ścieżek, w tym między innymi naczelnych, kręgowców, ssaków, i zobaczyć, jak przeszukiwana sekwencja genów jest zachowana wśród innych gatunków. Porównawcze zestawienia dają graficzny obraz powiązań ewolucyjnych między gatunkami. To sprawia, że ​​jest użytecznym narzędziem zarówno dla badacza, który może wizualizować obszary ochrony w grupie gatunków i przewidywać elementy funkcjonalne w nieznanych regionach DNA, jak i w klasie jako narzędzie do zilustrowania jednego z najbardziej przekonujących argumentów za ewolucja gatunków. 44-drożna ścieżka porównawcza na zespole ludzkim wyraźnie pokazuje, że im dalej w czasie ewolucyjnym, tym mniej homologii sekwencji pozostaje, ale funkcjonalnie ważne regiony genomu (np. eksony i elementy kontrolne, ale zazwyczaj nie introny) są zachowane znacznie dalej w czasie ewolucyjnym.

Dane dotyczące zmian

Wyświetlanych jest również wiele typów danych zmienności. Na przykład, cała zawartość każdego wydania bazy danych dbSNP z NCBI jest mapowana na genomy ludzkie, mysie i inne. Obejmuje to owoce Projektu 1000 Genomów, gdy tylko zostaną uwolnione w dbSNP. Inne typy danych o zmienności obejmują dane o zmienności liczby kopii ( CNV ) i częstości alleli populacji ludzkiej z projektu HapMap .

Powtórzenia

Powtarzające się ścieżki przeglądarki genomu pozwalają użytkownikowi zobaczyć wizualną reprezentację obszarów DNA o niskiej złożoności powtórzeń. Możliwość wizualizacji powtórzeń w sekwencji pozwala na szybkie wnioskowanie na temat zapytania wyszukiwania w przeglądarce genomu. Badacz może szybko zauważyć, że ich określone wyszukiwanie zawiera dużą liczbę powtarzających się sekwencji na pierwszy rzut oka i odpowiednio dostosować swoje wyniki wyszukiwania lub śledzenia.

Narzędzia analityczne

Witryna UCSC zawiera zestaw narzędzi do analizy genomu, w tym w pełni funkcjonalny interfejs GUI do wyszukiwania informacji w bazie danych przeglądarki, narzędzie do dopasowywania sekwencji FAST BLAT, które jest również przydatne do prostego znajdowania sekwencji w ogromnej sekwencji (genom ludzki = 3,23 miliarda zasad [Gb]) dowolnego z przedstawionych genomów.

Narzędzie liftOver wykorzystuje dopasowania całego genomu, aby umożliwić konwersję sekwencji z jednego zespołu do drugiego lub między gatunkami. Narzędzie Genome Graphs umożliwia użytkownikom przeglądanie wszystkich chromosomów jednocześnie i wyświetlanie wyników badań asocjacyjnych całego genomu (GWAS). Gene Sorter wyświetla geny pogrupowane według parametrów niezwiązanych z lokalizacją genomu, takich jak wzór ekspresji w tkankach.

Open source / lustra

Baza kodu przeglądarki UCSC Browser jest oprogramowaniem typu open source do użytku niekomercyjnego i jest lokalnie odzwierciedlana przez wiele grup badawczych, umożliwiając prywatne wyświetlanie danych w kontekście danych publicznych. Przeglądarka UCSC jest dublowana w kilku lokalizacjach na całym świecie, jak pokazano w tabeli.

oficjalne strony lustrzane
Lustro europejskie — prowadzone przez UCSC na Uniwersytecie w Bielefeld, Niemcy
Azjatyckie lustro — utrzymywane przez UCSC w RIKEN, Yokohama, Japonia

Kod przeglądarki jest również używany w oddzielnych instalacjach przez przeglądarkę UCSC Malaria Genome Browser i przeglądarkę Archaea .

Zobacz też

Bibliografia

Zewnętrzne linki