Sekwencjonowanie białek - Protein sequencing

Korzystanie z sekwencera białkowo-peptydowego Beckman-Spinco, 1970

Sekwencjonowanie białek to praktyczny proces określania sekwencji aminokwasów całości lub części białka lub peptydu . Może to służyć do identyfikacji białka lub scharakteryzowania jego potranslacyjnych modyfikacji . Typowo, częściowe sekwencjonowanie białka dostarcza wystarczające informacje (jeden lub więcej znaczników sekwencji) do identyfikowania go w odniesieniu do bazy danych dla sekwencji białkowych pochodzących z koncepcyjnym translacji w genach .

Dwie główne metody bezpośredniego sekwencjonowania białek to spektrometria mas i degradacja Edmana przy użyciu sekwenatora białek (sekwenatora). Metody spektrometrii mas są obecnie najpowszechniej stosowane do sekwencjonowania i identyfikacji białek, ale degradacja Edmana pozostaje cennym narzędziem do charakteryzowania N- końca białka .

Określenie składu aminokwasowego

Często pożądana jest znajomość nieuporządkowanego składu aminokwasów białka przed próbą znalezienia uporządkowanej sekwencji, ponieważ wiedza ta może być wykorzystana do ułatwienia wykrywania błędów w procesie sekwencjonowania lub rozróżnienia niejednoznacznych wyników. Znajomość częstotliwości niektórych aminokwasów może być również wykorzystana do wyboru proteazy, która ma być użyta do trawienia białka. Można również określić błędne włączenie niskich poziomów niestandardowych aminokwasów (np. Norleucyny) do białek. Uogólniona metoda określania częstości aminokwasów często nazywana analizą aminokwasów jest następująca:

  1. Hydrolizuje znaną ilość białka do aminokwasów składowych.
  2. Oddziel i określ ilościowo aminokwasy w jakiś sposób.

Hydroliza

Hydrolizę przeprowadza się przez ogrzewanie próbki białka w 6 M kwasie solnym do 100–110 ° C przez 24 godziny lub dłużej. Białka z wieloma masywnymi grupami hydrofobowymi mogą wymagać dłuższych okresów ogrzewania. Jednak warunki te są tak intensywne, że niektóre aminokwasy ( seryna , treonina , tyrozyna , tryptofan , glutamina i cysteina ) ulegają degradacji. Aby obejść ten problem, Biochemistry Online sugeruje ogrzewanie oddzielnych próbek przez różne czasy, analizę każdego otrzymanego roztworu i ekstrapolację z powrotem do zerowego czasu hydrolizy. Rastall sugeruje różnorodne odczynniki zapobiegające lub zmniejszające degradację, takie jak odczynniki tiolowe lub fenol chroniące tryptofan i tyrozynę przed atakiem chloru oraz wstępnie utleniająca cysteina. Sugeruje również pomiar ilości wydzielanego amoniaku w celu określenia stopnia hydrolizy amidu .

Separacja i oznaczanie ilościowe

Aminokwasy można rozdzielić metodą chromatografii jonowymiennej, a następnie derywatyzować w celu ułatwienia ich wykrywania. Częściej aminokwasy przeprowadza się w pochodne, a następnie rozdziela metodą HPLC z odwróconymi fazami .

Przykład chromatografii jonowymiennej podaje NTRC wykorzystując jako matrycę sulfonowany polistyren, dodając aminokwasy w roztworze kwasu i przepuszczając przez kolumnę bufor o stale rosnącym pH . Aminokwasy są wymywane, gdy pH osiąga ich odpowiednie punkty izoelektryczne . Po oddzieleniu aminokwasów określa się ich odpowiednie ilości przez dodanie odczynnika, który utworzy barwną pochodną. Jeśli ilości aminokwasów przekraczają 10 nmoli, można do tego użyć ninhydryny ; daje żółty kolor w reakcji z proliną i intensywny fioletowy kolor z innymi aminokwasami. Stężenie aminokwasu jest proporcjonalne do absorbancji otrzymanego roztworu. Przy bardzo małych ilościach, aż do 10 pmoli, można utworzyć fluorescencyjne pochodne przy użyciu odczynników, takich jak ortoftaldehyd (OPA) lub fluorescamina .

Derywatyzacja przedkolumnowa może wykorzystywać odczynnik Edmana do wytworzenia pochodnej wykrywanej za pomocą światła UV. Większą czułość uzyskuje się stosując odczynnik, który generuje fluorescencyjną pochodną. Derywatyzowane aminokwasy poddaje się chromatografii z odwróconymi fazami, zwykle stosując kolumnę z krzemionką C8 lub C18 i zoptymalizowany gradient elucji . Wymywane aminokwasy są wykrywane za pomocą detektora UV lub fluorescencyjnego, a powierzchnie pików porównuje się z tymi dla wzorców derywatyzowanych w celu ilościowego oznaczenia każdego aminokwasu w próbce.

Analiza aminokwasów N -końcowych

Metodę Sangera analizy peptydów grup końcowych: pochodnych z N -końcową końca z odczynnikiem Sangera (DNFB), B całkowita hydroliza kwasowa peptydu dinitrofenylo

Określenie, które aminokwasowe związków w postaci N -końcu z peptydem łańcucha jest użyteczne z dwóch powodów: wspomagania kolejność sekwencji poszczególnych fragmentów peptydowych w całej sieci, a ponieważ pierwsza runda degradacji Edmana jest często zanieczyszczona przez zanieczyszczenia, a zatem nie nie dają dokładnego określenia N -końcowego aminokwasu. Uogólniona metoda analizy aminokwasów N -końcowych jest następująca:

  1. Reaguj peptyd za pomocą odczynnika, który wybiórczo wyznakuje końcowy aminokwas.
  2. Hydrolizuj białko.
  3. Oznaczyć aminokwas za pomocą chromatografii i porównania ze standardami.

Istnieje wiele różnych odczynników, których można użyć do znakowania końcowych aminokwasów. Wszystkie one reagują z grupami aminowymi i dlatego też wiążą się z grupami aminowymi w łańcuchach bocznych aminokwasów, takich jak lizyna - z tego powodu należy zachować ostrożność przy interpretacji chromatogramów, aby wybrać właściwe miejsce. Dwa z bardziej powszechnych odczynników to odczynnik Sangera ( 1-fluoro-2,4-dinitrobenzen ) i pochodne dansylu, takie jak chlorek dansylu . Można również użyć fenyloizotiocyjanianu , odczynnika do degradacji Edmana. Obowiązują tu te same pytania, co przy określaniu składu aminokwasów, z wyjątkiem tego, że nie jest potrzebne żadne zabarwienie, ponieważ odczynniki wytwarzają barwne pochodne i wymagana jest tylko analiza jakościowa. Tak więc aminokwas nie musi być eluowany z kolumny chromatograficznej, wystarczy porównać go ze standardem. Inną kwestią, którą należy wziąć pod uwagę, jest to, że ponieważ wszelkie grupy aminowe przereagowałyby z odczynnikiem znakującym, nie można zastosować chromatografii jonowymiennej, a zamiast tego należy zastosować chromatografię cienkowarstwową lub wysokociśnieniową chromatografię cieczową .

Analiza aminokwasów C-końcowych

Liczba dostępnych metod analizy C-końcowych aminokwasów jest znacznie mniejsza niż liczba dostępnych metod analizy N-końcowych. Najpopularniejszą metodą jest dodanie karboksypeptydaz do roztworu białka, pobieranie próbek w regularnych odstępach czasu i określenie końcowego aminokwasu poprzez analizę wykresu stężeń aminokwasów w funkcji czasu. Ta metoda będzie bardzo przydatna w przypadku polipeptydów i końców N blokowanych przez białka. Sekwencjonowanie C-końca byłoby bardzo pomocne w weryfikacji pierwotnych struktur białek przewidywanych na podstawie sekwencji DNA oraz w wykrywaniu wszelkich postranslacyjnych przetwarzania produktów genów ze znanych sekwencji kodonów.

Degradacja Edmana

Degradacji Edmana jest bardzo ważne reakcji sekwencjonowania, ponieważ pozwala na uporządkowane aminokwas kompozycja białka odkrycie. Zautomatyzowane sekwencery Edmana są obecnie w powszechnym użyciu i są w stanie sekwencjonować peptydy o długości do około 50 aminokwasów. Następuje schemat reakcji sekwencjonowania białka przez degradację Edmana; niektóre kroki zostaną omówione później.

  1. Przełam wszelkie mostki dwusiarczkowe w białku za pomocą środka redukującego, takiego jak 2-merkaptoetanol . Grupa zabezpieczająca, taka jak kwas jodooctowy, może być konieczna, aby zapobiec ponownemu tworzeniu się wiązań.
  2. Oddziel i oczyść poszczególne łańcuchy kompleksu białkowego, jeśli jest ich więcej niż jeden.
  3. Określ skład aminokwasów każdego łańcucha.
  4. Określ końcowe aminokwasy każdego łańcucha.
  5. Rozbij każdy łańcuch na fragmenty o długości poniżej 50 aminokwasów.
  6. Oddziel i oczyść fragmenty.
  7. Określ sekwencję każdego fragmentu.
  8. Powtórz z innym wzorem dekoltu.
  9. Skonstruuj sekwencję całego białka.

Trawienie na fragmenty peptydów

Peptydy dłuższe niż około 50-70 aminokwasów nie mogą być zsekwencjonowane w sposób wiarygodny przez degradację Edmana. Z tego powodu długie łańcuchy białek muszą zostać podzielone na małe fragmenty, które można następnie zsekwencjonować indywidualnie. Trawienie odbywa się za pomocą endopeptydaz, takich jak trypsyna lub pepsyna, lub odczynników chemicznych, takich jak bromek cyjanu . Różne enzymy dają różne wzory cięcia, a zachodzenie na siebie fragmentów można wykorzystać do skonstruowania ogólnej sekwencji.

Reakcja

Sekwencjonowany peptyd jest adsorbowany na stałej powierzchni. Jednym z powszechnych substratów jest włókno szklane pokryte polibrenem , kationowym polimerem . Odczynnik Edmana, fenyloizotiocyjanian (PITC), dodaje się do zaadsorbowanego peptydu wraz z lekko zasadowym roztworem buforowym 12% trimetyloaminy . To reaguje z grupą aminową N-końcowego aminokwasu.

Aminokwas końcowy można następnie selektywnie odłączyć przez dodanie bezwodnego kwasu. Pochodna następnie izomeryzuje dając podstawioną fenylotiohydantoinę , którą można zmyć i zidentyfikować metodą chromatografii, a cykl można powtórzyć. Wydajność każdego etapu wynosi około 98%, co pozwala wiarygodnie określić około 50 aminokwasów.

Maszyna do sekwencjonowania białek Beckman-Coulter Porton LF3000G

Sekwencer białek

Sekwenatora białko jest urządzenie, które wykonuje degradacji Edmana w sposób zautomatyzowany. Próbkę białka lub peptydu unieruchamia się w naczyniu reakcyjnym sekwenatora białek i przeprowadza się degradację Edmana. Każdy cykl uwalnia i derywatyzuje jeden aminokwas z N- końca białka lub peptydu, a uwolniona pochodna aminokwasu jest następnie identyfikowana za pomocą HPLC. Proces sekwencjonowania jest wykonywany powtarzalnie dla całego polipeptydu, aż do ustalenia całej mierzalnej sekwencji lub przez określoną wcześniej liczbę cykli.

Identyfikacja metodą spektrometrii mas

Identyfikacja białka to proces nadawania nazwy białku będącego przedmiotem zainteresowania (POI) na podstawie jego sekwencji aminokwasowej. Zazwyczaj tylko część sekwencji białka musi być określona eksperymentalnie w celu zidentyfikowania białka w odniesieniu do baz danych sekwencji białek wydedukowanych z sekwencji DNA ich genów. Dalsza charakterystyka białka może obejmować potwierdzenie rzeczywistych końców N i C POI, określenie wariantów sekwencji i identyfikację wszelkich obecnych modyfikacji potranslacyjnych.

Trawienia proteolityczne

Opisano ogólny schemat identyfikacji białek.

  1. POI jest izolowany, zazwyczaj za pomocą SDS-PAGE lub chromatografii .
  2. Wyizolowane POI można modyfikować chemicznie w celu stabilizacji reszt cysteiny (np. S-amidometylacja lub S-karboksymetylacja).
  3. POI jest trawiony specyficzną proteazą w celu wytworzenia peptydów. Najczęściej stosowaną proteazą jest trypsyna , która rozszczepia selektywnie po stronie C-końcowej reszt lizyny lub argininy. Jego zalety to i) częstość występowania reszt Lys i Arg w białkach, ii) wysoka specyficzność enzymu, iii) stabilność enzymu oraz iv) przydatność peptydów trypsynowych do spektrometrii mas.
  4. Peptydy można odsolić w celu usunięcia zanieczyszczeń ulegających jonizacji i poddać spektrometrii mas MALDI-TOF . Bezpośredni pomiar mas peptydów może dostarczyć wystarczających informacji do identyfikacji białka (patrz Odcisk palca masy peptydów ), ale do uzyskania informacji o sekwencjach peptydów często stosuje się dalszą fragmentację peptydów wewnątrz spektrometru mas. Alternatywnie, peptydy można odsolić i rozdzielić metodą HPLC z odwróconymi fazami i wprowadzić do spektrometru mas poprzez źródło ESI . LC-ESI-MS może dostarczyć więcej informacji niż MALDI-MS do identyfikacji białek, ale zużywa więcej czasu przyrządu.
  5. W zależności od typu spektrometru mas fragmentacja jonów peptydowych może zachodzić poprzez różne mechanizmy, takie jak dysocjacja indukowana kolizją (CID) lub rozpad po źródle (PSD). W każdym przypadku wzór fragmentów jonów peptydu dostarcza informacji o jego sekwencji.
  6. Informacje obejmujące zmierzoną masę przypuszczalnych jonów peptydowych i ich fragmentów jonów są następnie porównywane z obliczonymi wartościami mas z konceptualnej (in silico) proteolizy i fragmentacji baz danych sekwencji białek. Pomyślne dopasowanie zostanie znalezione, jeśli jego wynik przekroczy próg określony na podstawie parametrów analizy. Nawet jeśli rzeczywiste białko nie jest reprezentowane w bazie danych, dopasowanie tolerujące błędy umożliwia przypuszczalną identyfikację białka na podstawie podobieństwa do białek homologicznych . Dostępnych jest wiele pakietów oprogramowania do przeprowadzania tej analizy.
  7. Pakiety oprogramowania zazwyczaj generują raport pokazujący tożsamość (kod dostępu) każdego zidentyfikowanego białka, jego wynik dopasowania i dostarczają miary względnej siły dopasowania, gdy zidentyfikowanych jest wiele białek.
  8. Diagram dopasowanych peptydów na sekwencji zidentyfikowanego białka jest często używany do pokazania pokrycia sekwencji (% białka wykrytego jako peptydy). Tam, gdzie uważa się, że POI jest znacznie mniejsze niż dopasowane białko, diagram może sugerować, czy POI jest N- czy C-końcowym fragmentem zidentyfikowanego białka.

Sekwencjonowanie de novo

Wzór fragmentację peptydu pozwala na bezpośrednie określenie jego sekwencji przez de novo sekwencjonowania . Sekwencja ta może być użyta do dopasowania baz danych sekwencji białek lub do zbadania modyfikacji potranslacyjnych lub chemicznych. Może dostarczyć dodatkowych dowodów na identyfikację białek wykonaną w powyższy sposób.

Końcówki N i C.

Peptydy dopasowane podczas identyfikacji białka niekoniecznie obejmują końce N lub C przewidziane dla dopasowanego białka. Może to wynikać z tego, że N- lub C-końcowe peptydy są trudne do zidentyfikowania przez MS (np. Są albo zbyt krótkie albo zbyt długie), są potranslacyjnie zmodyfikowane (np. N-końcowa acetylacja) lub rzeczywiście różnią się od przewidywanych. Modyfikacje potranslacyjne lub obcięte końce można zidentyfikować po dokładniejszym zbadaniu danych (tj. Sekwencjonowaniu de novo ). Przydatne może być również powtórne trawienie z użyciem proteazy o różnej specyficzności.

Modyfikacje potranslacyjne

Chociaż szczegółowe porównanie danych MS z przewidywaniami opartymi na znanej sekwencji białka może być wykorzystane do zdefiniowania modyfikacji potranslacyjnych, można również zastosować ukierunkowane podejścia do pozyskiwania danych. Na przykład specyficzne wzbogacenie fosfopeptydów może pomóc w identyfikacji miejsc fosforylacji w białku. Alternatywne metody fragmentacji peptydów w spektrometrze mas, takie jak ETD lub ECD , mogą dostarczyć uzupełniających informacji o sekwencji.

Oznaczanie całej masy

Cała masa białka to suma mas jego reszt aminokwasowych plus masa cząsteczki wody i dostosowana do wszelkich modyfikacji potranslacyjnych. Chociaż białka jonizują gorzej niż pochodzące z nich peptydy, białko w roztworze może być poddane ESI-MS, a jego masa jest mierzona z dokładnością do 1 części na 20 000 lub lepszą. Jest to często wystarczające, aby potwierdzić końce (a zatem, że zmierzona masa białka jest zgodna z przewidywaną na podstawie jego sekwencji) i wywnioskować obecność lub brak wielu modyfikacji potranslacyjnych.

Ograniczenia

Proteoliza nie zawsze daje zestaw łatwych do analizy peptydów obejmujących całą sekwencję POI. Fragmentacja peptydów w spektrometrze mas często nie daje jonów odpowiadających rozszczepieniu na każdym wiązaniu peptydowym. Zatem wydedukowana sekwencja dla każdego peptydu niekoniecznie jest kompletna. Standardowe metody fragmentacji nie rozróżniają reszt leucyny i izoleucyny, ponieważ są one izomeryczne.

Ponieważ degradacja Edmana zachodzi od końca N białka, nie będzie działać, jeśli koniec N został zmodyfikowany chemicznie (np. Przez acetylację lub tworzenie kwasu piroglutaminowego). Degradacja Edmana na ogół nie jest przydatna do określania pozycji mostków dwusiarczkowych. Wymaga również ilości peptydu wynoszącej 1 pikomol lub więcej, aby uzyskać dostrzegalne wyniki, co czyni go mniej czułym niż spektrometria mas .

Przewidywanie na podstawie sekwencji DNA / RNA

W biologii białka są wytwarzane przez translację informacyjnego RNA (mRNA) z sekwencją białkową pochodzącą z sekwencji kodonów w mRNA. Sam mRNA powstaje w wyniku transkrypcji genów i może być dalej modyfikowany. Procesy te są wystarczająco zrozumiałe, aby wykorzystywać algorytmy komputerowe do automatyzacji przewidywania sekwencji białek na podstawie sekwencji DNA, na przykład z projektów sekwencjonowania DNA całego genomu, i doprowadziły do ​​wygenerowania dużych baz danych sekwencji białek, takich jak UniProt . Przewidywane sekwencje białek są ważnym zasobem do identyfikacji białek metodą spektrometrii mas.

Historycznie rzecz biorąc, krótkie sekwencje białek (od 10 do 15 reszt) określone przez degradację Edmana były poddawane translacji wstecznej do sekwencji DNA, które można było wykorzystać jako sondy lub startery do izolacji klonów molekularnych odpowiedniego genu lub komplementarnego DNA. Następnie określono sekwencję sklonowanego DNA i zastosowano ją do wywnioskowania pełnej sekwencji aminokwasów białka.

Narzędzia bioinformatyczne

Istnieją narzędzia bioinformatyczne , które pomagają w interpretacji widm masowych (patrz sekwencjonowanie peptydów De novo ), porównywaniu lub analizowaniu sekwencji białek (patrz Analiza sekwencji ) lub przeszukiwaniu baz danych przy użyciu sekwencji peptydów lub białek (patrz BLAST ).

Zobacz też

Bibliografia

Dalsza lektura

  • Steen H, Mann M (wrzesień 2004). „ABC (i XYZ) sekwencjonowania peptydów”. Nature Reviews Molecular Cell Biology . 5 (9): 699–711. doi : 10.1038 / nrm1468 . PMID  15340378 .