Tekst równoległy — Parallel text

Rosetta Stone , A stela z wygrawerowanym samego dekretu w obu starożytnych egipskich skryptów , a także starożytnej greki . Jego odkrycie było kluczem do rozszyfrowania języka starożytnego Egiptu.

Tekst równoległy jest tekst umieszczony obok jego tłumaczenie lub tłumaczenia. Wyrównanie tekstu równoległego to identyfikacja odpowiednich zdań w obu połowach tekstu równoległego. Loeb Classical Library i Clay sanskryt Library są dwa przykłady serii dual-językowych tekstów. Biblie referencyjne mogą zawierać oryginalne języki i tłumaczenie lub kilka przekładów samych w celu ułatwienia porównania i badania; Orygenes „s Hexapla (z greckiego«sześciokrotnie») umieszcza się sześć wersji strony starotestamentowej siebie. Znanym przykładem jest Rosetta Stone , którego odkrycie pozwoliło na starożytnych egipskich język , aby rozpocząć ich rozszyfrować .

Duże zbiory tekstów równoległych nazywane są korpusami równoległymi (patrz korpus tekstu ). Wyrównanie równoległych korpusów na poziomie zdania jest warunkiem wstępnym wielu obszarów badań językowych . Podczas tłumaczenia zdania mogą być dzielone, łączone, usuwane, wstawiane lub zmieniane przez tłumacza. To sprawia, że wyrównanie nie jest trywialnym zadaniem.

Rodzaje korpusów równoległych

Korpusy równoległe można podzielić na cztery główne kategorie:

Równolegle korpus zawiera tłumaczenia z tego samego dokumentu w dwóch lub więcej językach, dostosowane przynajmniej na poziomie zdania. Są one rzadsze niż mniej porównywalne korpusy.

Głośny równolegle korpus zawiera zdań dwujęzyczne, które nie są idealnie dopasowane i mają słabą jakość tłumaczenia. Niemniej jednak większość jego treści to dwujęzyczne tłumaczenia konkretnego dokumentu.

Porównywalny korpus zbudowany jest z non-zdaniowych wyrównany i nieprzetłumaczonych dokumentów dwujęzycznych, ale dokumenty są tematem wyrównany.

Quasi porównywalne korpus zawiera bardzo niejednorodnych, a nie równolegle w dwóch językach dokumentów, które mogą lub nie mogą być wyrównane temat.

Hałas w korpusach

Duże korpusy używane jako zestawy szkoleniowe dla algorytmów tłumaczenia maszynowego są zwykle pobierane z dużych zbiorów podobnych źródeł, takich jak bazy danych artykułów prasowych napisanych w pierwszym i drugim języku, opisujących podobne zdarzenia.

Wyodrębnione fragmenty mogą być jednak zaszumione, z dodatkowymi elementami wstawianymi w każdym korpusie. Techniki ekstrakcji mogą rozróżniać elementy dwujęzyczne reprezentowane zarówno w korpusach, jak i elementy jednojęzyczne reprezentowane tylko w jednym korpusie w celu wyodrębnienia czystszych równoległych fragmentów elementów dwujęzycznych. Porównywalne korpusy służą do bezpośredniego pozyskiwania wiedzy do celów tłumaczeniowych. Równoległe dane wysokiej jakości są jednak trudne do uzyskania, zwłaszcza w przypadku języków o niewystarczających zasobach.

Bitext

W dziedzinie translatoryki bitext jest scalona dokument składa się z obu source- i target-językowych wersjach danego tekstu.

Bitexts są generowane przez kawałek oprogramowania zwane narzędzie wyrównywania , albo bitext narzędzie , które automatycznie dostosowuje oryginalnych i przetłumaczonych wersji tego samego tekstu. Narzędzie generalnie dopasowuje te dwa teksty zdanie po zdaniu. Zbiór bitextów nazywany jest bazą danych bitext lub dwujęzycznym korpusem i można go przeglądać za pomocą wyszukiwarki.

Bitexty i pamięci tłumaczeniowe

Biteksty mają pewne podobieństwa z pamięciami tłumaczeniowymi. Najistotniejsza różnica polega na tym, że pamięć tłumaczeniowa traci oryginalny kontekst, podczas gdy bitekst zachowuje pierwotną kolejność zdań. To powiedziawszy, niektóre implementacje pamięci tłumaczeniowej, takie jak Translation Memory eXchange (TMX), standardowy format XML służący do wymiany pamięci tłumaczeniowych między programami do tłumaczenia wspomaganego komputerowo (CAT), pozwalają na zachowanie oryginalnej kolejności zdań.

Bitexts mają na celu być konsultowany przez człowieka tłumacza , a nie przez maszynę. W związku z tym małe błędy wyrównania lub drobne rozbieżności, które mogłyby spowodować awarię pamięci tłumaczeniowej, nie mają znaczenia.

W swoim oryginalnym artykule z 1988 roku Harris stwierdził również, że bitext reprezentuje sposób, w jaki tłumacze w miarę postępów utrzymują razem tekst źródłowy i docelowy w pamięci roboczej. Jednak ta hipoteza nie została potwierdzona.

Można również nazwać biteksty online i pamięci tłumaczeniowe konkordancje dwujęzyczne online. Kilka z nich jest dostępnych w publicznej sieci Web, w tym Linguee , Reverso i Tradooit.

Zobacz też

Bibliografia

Linki zewnętrzne

Korpusy równoległe

Wielojęzyczny równoległy korpus prawny Unii Europejskiej (UE): Acquis Communautaire z 231 parami językowymi.
Postępowania w Parlamencie Europejskim Parallel Corpus 1996-2011
Projekt Opus ma na celu zebranie ogólnodostępnych korpusów równoległych
Japońsko-angielski dwujęzyczny korpus artykułów z Kioto z Wikipedii
COMPARA - portugalskie/angielskie korpusy równoległe
TERMSEARCH — angielskie/rosyjskie/francuskie korpusy równoległe (główne traktaty międzynarodowe, konwencje, umowy itp.
TradooIT — angielski/francuski/hiszpański — bezpłatne narzędzia online
Nunavut Hansard - korpus równoległy z języka angielskiego/inuktitut
ParaSol - Równoległy korpus języków słowiańskich i innych
Glosbe: Wielojęzyczne korpusy równoległe z interfejsem wyszukiwania online
InterCorp: wielojęzyczny równoległy korpus 40 języków dostosowany do czeskiego, internetowego interfejsu wyszukiwania
myCAT - Olanto , concordancer (open source AGPL) z wyszukiwaniem online w korpusie JCR i UNO
TAUS , z interfejsem wyszukiwania online.
linguatools wielojęzyczne korpusy równoległe, interfejs wyszukiwania online.
EUR-Lex Corpus - korpus utworzony z bazy danych EUR-Lex zawiera prawo Unii Europejskiej i inne publiczne dokumenty Unii Europejskiej
Language Grid - Wielojęzyczna platforma usługowa obejmująca równoległe usługi tekstowe

Dokumentacja

Narzędzia do wyrównywania

^ Ralf Steinberger Ralf; Bruno Pouliquena; Anna Widiger; Kamelia Ignat; Tomasz Erjavec; Dan Tufis; Daniela Vargi (2006). Dorobek prawny JRC: wielojęzyczny, dostosowany równoległy korpus z ponad 20 językami . Materiały z V Międzynarodowej Konferencji Zasobów Językowych i Oceny (LREC'2006). Genua, Włochy, 24-26 maja 2006 .

[8] Ralf Steinberger Ralf; Bruno Pouliquena; Anna Widiger; Kamelia Ignat; Tomasz Erjavec; Dan Tufis; Daniela Vargi (2006). Dorobek prawny JRC: wielojęzyczny, dostosowany równoległy korpus z ponad 20 językami . Materiały z V Międzynarodowej Konferencji Zasobów Językowych i Oceny (LREC'2006). Genua, Włochy, 24-26 maja 2006 .

Languages

In other projects