Wyrażony tag sekwencji - Expressed sequence tag
W genetyce , wyrażony znacznik sekwencji ( EST ) jest krótką podsekwencją sekwencji cDNA . ESTs mogą być stosowane do identyfikacji transkryptów genów i odegrały zasadniczą rolę w odkrywaniu genów i określaniu sekwencji genów. Identyfikacja EST postępuje szybko, a około 74,2 miliona EST jest obecnie dostępnych w publicznych bazach danych (np. GenBank 1 stycznia 2013, wszystkie gatunki). Podejścia EST zostały w dużej mierze zastąpione przez sekwencjonowanie całego genomu i transkryptomu oraz sekwencjonowanie metagenomu.
EST wynika z one-shot sekwencjonowania z sklonowanego cDNA . cDNA stosowane do generowania EST to zazwyczaj pojedyncze klony z biblioteki cDNA . Powstała sekwencja jest fragmentem stosunkowo niskiej jakości, którego długość jest ograniczona przez obecną technologię do około 500 do 800 nukleotydów . Ponieważ te klony składają się z DNA, który jest komplementarny do mRNA, EST stanowią części eksprymowanych genów. Mogą być reprezentowane w bazach danych jako sekwencja cDNA/mRNA lub jako odwrotny komplement mRNA, nić matrycowa .
Można map EST do konkretnych miejsc chromosomowych za pomocą fizycznych mapowania technik, takich jak promieniowanie hybrydowego odwzorowania , szczęśliwy mapowania lub FISH . Alternatywnie, jeśli genom organizmu, który zapoczątkował EST został zsekwencjonowany, można dopasować sekwencję EST do tego genomu za pomocą komputera.
Obecne rozumienie ludzkiego zestawu genów (stan na 2006 r.) obejmuje istnienie tysięcy genów opartych wyłącznie na dowodach EST. Pod tym względem EST stały się narzędziem do udoskonalania przewidywanych transkryptów dla tych genów, co prowadzi do przewidywania ich produktów białkowych i ostatecznie ich funkcji. Ponadto sytuacja, w której te ESTs są otrzymywane (tkanka, narząd, stan chorobowy - np. rak ) dostarcza informacji o warunkach, w jakich działa odpowiedni gen. EST zawierają wystarczającą ilość informacji, aby umożliwić zaprojektowanie precyzyjnych sond dla mikromacierzy DNA, które następnie można wykorzystać do określenia profili ekspresji genów .
Niektórzy autorzy używają terminu „EST” do opisania genów, dla których poza znacznikiem istnieje niewiele dodatkowych informacji lub nie ma ich wcale.
Historia
W 1979 roku zespoły z Harvardu i Caltech rozszerzyły podstawową ideę tworzenia kopii DNA mRNA in vitro na amplifikację takiej biblioteki w plazmidach bakteryjnych.
W 1982 pomysł wybrania losowych lub półlosowych klonów z takiej biblioteki cDNA do sekwencjonowania został zbadany przez Grega Sutcliffe'a i współpracowników.
W 1983 r. Putney i in. zsekwencjonowano 178 klonów z biblioteki cDNA mięśni królika.
W 1991 Adams i współpracownicy ukuli termin EST i zainicjowali bardziej systematyczne sekwencjonowanie jako projekt (zaczynając od 600 mózgowych cDNA).
Źródła danych i adnotacje
dbEST
dbEST jest oddziałem Genbank założonym w 1992 roku. Jeśli chodzi o GenBank , dane w dbEST są bezpośrednio przesyłane przez laboratoria na całym świecie i nie są nadzorowane.
EST contigs
Ze względu na sposób sekwencjonowania EST, wiele odrębnych znaczników sekwencji ulegających ekspresji jest często sekwencjami częściowymi, które odpowiadają temu samemu mRNA organizmu. W celu zmniejszenia liczby eksprymowanych znaczników sekwencji dla dalszych analiz odkrywania genów, kilka grup złożyło eksprymowane znaczniki sekwencji w kontigi EST . Przykładowe zasoby, które dostarczają kontigów EST obejmują: indeksy genów TIGR, Unigene i STACK
Konstruowanie kontigów EST nie jest trywialne i może dawać artefakty (kontigi zawierające dwa różne produkty genów). Gdy dostępna jest pełna sekwencja genomu organizmu i transkrypty są opatrzone adnotacjami, możliwe jest ominięcie składania kontigów i bezpośrednie dopasowanie transkryptów do EST. To podejście jest stosowane w systemie TissueInfo (patrz poniżej) i ułatwia łączenie adnotacji w genomowej bazie danych z informacjami o tkankach dostarczanymi przez dane EST.
Informacje o tkankach
Analizy EST o wysokiej przepustowości często napotykają podobne wyzwania związane z zarządzaniem danymi. Pierwszym wyzwaniem jest to, że tkankowe pochodzenie bibliotek EST jest opisane w prostym języku angielskim w dbEST. Utrudnia to pisanie programów, które mogą jednoznacznie określić, że dwie biblioteki EST zostały zsekwencjonowane z tej samej tkanki. Podobnie stany chorobowe tkanki nie są opisywane w sposób przyjazny obliczeniowo. Na przykład, pochodzenie biblioteki nowotworowej jest często mieszane z nazwą tkanki (np. nazwa tkanki „ glejaka wielopostaciowego ” wskazuje, że biblioteka EST została zsekwencjonowana z tkanki mózgowej, a stanem chorobowym jest rak). Z godnym uwagi wyjątkiem raka, stan chorobowy często nie jest rejestrowany we wpisach dbEST. Projekt TissueInfo został rozpoczęty w 2000 roku, aby pomóc w sprostaniu tym wyzwaniom. Projekt dostarcza wyselekcjonowane dane (aktualizowane codziennie) w celu ujednoznacznienia pochodzenia tkanki i stanu choroby (rak/nierak), oferuje ontologię tkanki, która łączy tkanki i narządy poprzez relacje „jest częścią” (tj. formalizuje wiedzę, że podwzgórze jest częścią mózgu , a mózg jest częścią ośrodkowego układu nerwowego) i dystrybuuje oprogramowanie typu open source do łączenia adnotacji transkrypcji z sekwencjonowanych genomów z profilami ekspresji tkankowej obliczonymi na podstawie danych w dbEST.
Zobacz też
- Ekspresja genu
- Komplementarny DNA (cDNA)
- transkryptomika
- Klony cDNA IMAGE
- Sekwencjonowanie całego genomu (WGS)
Bibliografia
Linki zewnętrzne
- „EST: łatwiejsze odkrywanie genów” . Nauka Primer . NCBI. 29 marca 2004 r. Zarchiwizowane z oryginału 28 lutego 2007 r.
-
Poncjusz, Joanna U.; Wagnera, Łukasza; Schuler, Gregory D. (2003) [2002]. „21 UniGene: ujednolicony widok transkryptomu § wyrażonych znaczników sekwencji (EST)” . W McEntyre, J; Ostell, J (red.). Podręcznik NCBI [Internet] . Narodowe Centrum Informacji Biotechnologicznej. NBK21101.
Niniejsza publikacja ma wyłącznie charakter historyczny, a informacje mogą być nieaktualne
-
Friedla, CC1; Jahna, KH; Sommer, S; wzdręga, S; Mewes, HW; Tetko, IV (15.04.2005). „Maszyny obsługujące wektory do rozdzielania kolekcji mieszanych roślin i patogenów EST w oparciu o wykorzystanie kodonów (ECLAT)” . Bioinformatyka . 21 (8): 1383-8. doi : 10.1093/bioinformatyka/bti200 . PMID 15585526 .
-
"ECLAT" . MIPS . Zarchiwizowane z oryginału 27 września 2008 r.
Serwer do klasyfikacji EST z mieszanych pul EST (z roślin zakażonych grzybami) przy użyciu kodonów
-
"ECLAT" . MIPS . Zarchiwizowane z oryginału 27 września 2008 r.
-
"najlepsza" . GenBank .
- "podsumowanie dbEST" . GenBank . 1 stycznia 2013 r. Zarchiwizowane od oryginału 7 czerwca 2019 r.
-
Ranganathan, Shoba. „Bioinformatyka” .
- „Zasoby internetowe dla danych i analiz EST” . Zarchiwizowane z oryginału w dniu 29 sierpnia 2007 r.
Informacje o tkankach
- „Informacje o tkankach” . Wiki .
-
„Informacje o tkankach” . Zarchiwizowane od oryginału w dniu 4 czerwca 2008 r.
Wyselekcjonowane pochodzenie tkanek EST, ontologia tkanek, oprogramowanie typu open source
- Skrabanek L, Campagne F (1 listopada 2001). „TissueInfo: wysokoprzepustowa identyfikacja profili ekspresji tkankowej i swoistości” . Kwasy nukleinowe Res . 29 (21): E102–2. doi : 10.1093/nar/29.21.e102 . PMC 60201 . PMID 11691939 .