Tekst równoległy — Parallel text
Tekst równoległy jest tekst umieszczony obok jego tłumaczenie lub tłumaczenia. Wyrównanie tekstu równoległego to identyfikacja odpowiednich zdań w obu połowach tekstu równoległego. Loeb Classical Library i Clay sanskryt Library są dwa przykłady serii dual-językowych tekstów. Biblie referencyjne mogą zawierać oryginalne języki i tłumaczenie lub kilka przekładów samych w celu ułatwienia porównania i badania; Orygenes „s Hexapla (z greckiego«sześciokrotnie») umieszcza się sześć wersji strony starotestamentowej siebie. Znanym przykładem jest Rosetta Stone , którego odkrycie pozwoliło na starożytnych egipskich język , aby rozpocząć ich rozszyfrować .
Duże zbiory tekstów równoległych nazywane są korpusami równoległymi (patrz korpus tekstu ). Wyrównanie równoległych korpusów na poziomie zdania jest warunkiem wstępnym wielu obszarów badań językowych . Podczas tłumaczenia zdania mogą być dzielone, łączone, usuwane, wstawiane lub zmieniane przez tłumacza. To sprawia, że wyrównanie nie jest trywialnym zadaniem.
Rodzaje korpusów równoległych
Korpusy równoległe można podzielić na cztery główne kategorie:
- Równolegle korpus zawiera tłumaczenia z tego samego dokumentu w dwóch lub więcej językach, dostosowane przynajmniej na poziomie zdania. Są one rzadsze niż mniej porównywalne korpusy.
- Głośny równolegle korpus zawiera zdań dwujęzyczne, które nie są idealnie dopasowane i mają słabą jakość tłumaczenia. Niemniej jednak większość jego treści to dwujęzyczne tłumaczenia konkretnego dokumentu.
- Porównywalny korpus zbudowany jest z non-zdaniowych wyrównany i nieprzetłumaczonych dokumentów dwujęzycznych, ale dokumenty są tematem wyrównany.
- Quasi porównywalne korpus zawiera bardzo niejednorodnych, a nie równolegle w dwóch językach dokumentów, które mogą lub nie mogą być wyrównane temat.
Hałas w korpusach
Duże korpusy używane jako zestawy szkoleniowe dla algorytmów tłumaczenia maszynowego są zwykle pobierane z dużych zbiorów podobnych źródeł, takich jak bazy danych artykułów prasowych napisanych w pierwszym i drugim języku, opisujących podobne zdarzenia.
Wyodrębnione fragmenty mogą być jednak zaszumione, z dodatkowymi elementami wstawianymi w każdym korpusie. Techniki ekstrakcji mogą rozróżniać elementy dwujęzyczne reprezentowane zarówno w korpusach, jak i elementy jednojęzyczne reprezentowane tylko w jednym korpusie w celu wyodrębnienia czystszych równoległych fragmentów elementów dwujęzycznych. Porównywalne korpusy służą do bezpośredniego pozyskiwania wiedzy do celów tłumaczeniowych. Równoległe dane wysokiej jakości są jednak trudne do uzyskania, zwłaszcza w przypadku języków o niewystarczających zasobach.
Bitext
W dziedzinie translatoryki bitext jest scalona dokument składa się z obu source- i target-językowych wersjach danego tekstu.
Bitexts są generowane przez kawałek oprogramowania zwane narzędzie wyrównywania , albo bitext narzędzie , które automatycznie dostosowuje oryginalnych i przetłumaczonych wersji tego samego tekstu. Narzędzie generalnie dopasowuje te dwa teksty zdanie po zdaniu. Zbiór bitextów nazywany jest bazą danych bitext lub dwujęzycznym korpusem i można go przeglądać za pomocą wyszukiwarki.
Bitexty i pamięci tłumaczeniowe
Biteksty mają pewne podobieństwa z pamięciami tłumaczeniowymi. Najistotniejsza różnica polega na tym, że pamięć tłumaczeniowa traci oryginalny kontekst, podczas gdy bitekst zachowuje pierwotną kolejność zdań. To powiedziawszy, niektóre implementacje pamięci tłumaczeniowej, takie jak Translation Memory eXchange (TMX), standardowy format XML służący do wymiany pamięci tłumaczeniowych między programami do tłumaczenia wspomaganego komputerowo (CAT), pozwalają na zachowanie oryginalnej kolejności zdań.
Bitexts mają na celu być konsultowany przez człowieka tłumacza , a nie przez maszynę. W związku z tym małe błędy wyrównania lub drobne rozbieżności, które mogłyby spowodować awarię pamięci tłumaczeniowej, nie mają znaczenia.
W swoim oryginalnym artykule z 1988 roku Harris stwierdził również, że bitext reprezentuje sposób, w jaki tłumacze w miarę postępów utrzymują razem tekst źródłowy i docelowy w pamięci roboczej. Jednak ta hipoteza nie została potwierdzona.
Można również nazwać biteksty online i pamięci tłumaczeniowe konkordancje dwujęzyczne online. Kilka z nich jest dostępnych w publicznej sieci Web, w tym Linguee , Reverso i Tradooit.
Zobacz też
- Napis dwujęzyczny
- Recenzja wspomagana komputerowo
- Tłumaczenie maszynowe na podstawie przykładów
- Przetwarzanie języka naturalnego
- Poliglota (książka)
- Rubinowa postać
- Statystyczne tłumaczenie maszynowe
Bibliografia
Linki zewnętrzne
Korpusy równoległe
- Wielojęzyczny równoległy korpus prawny Unii Europejskiej (UE): Acquis Communautaire z 231 parami językowymi.
- Postępowania w Parlamencie Europejskim Parallel Corpus 1996-2011
- Projekt Opus ma na celu zebranie ogólnodostępnych korpusów równoległych
- Japońsko-angielski dwujęzyczny korpus artykułów z Kioto z Wikipedii
- COMPARA - portugalskie/angielskie korpusy równoległe
- TERMSEARCH — angielskie/rosyjskie/francuskie korpusy równoległe (główne traktaty międzynarodowe, konwencje, umowy itp.
- TradooIT — angielski/francuski/hiszpański — bezpłatne narzędzia online
- Nunavut Hansard - korpus równoległy z języka angielskiego/inuktitut
- ParaSol - Równoległy korpus języków słowiańskich i innych
- Glosbe: Wielojęzyczne korpusy równoległe z interfejsem wyszukiwania online
- InterCorp: wielojęzyczny równoległy korpus 40 języków dostosowany do czeskiego, internetowego interfejsu wyszukiwania
- myCAT - Olanto , concordancer (open source AGPL) z wyszukiwaniem online w korpusie JCR i UNO
- TAUS , z interfejsem wyszukiwania online.
- linguatools wielojęzyczne korpusy równoległe, interfejs wyszukiwania online.
- EUR-Lex Corpus - korpus utworzony z bazy danych EUR-Lex zawiera prawo Unii Europejskiej i inne publiczne dokumenty Unii Europejskiej
- Language Grid - Wielojęzyczna platforma usługowa obejmująca równoległe usługi tekstowe
Dokumentacja
- Bibliografia równoległego przetwarzania tekstu autorstwa J. Veronisa i M.-D. Mahimon
- Materiały z warsztatów 2003 na temat budowania i używania tekstów równoległych
- Materiały z warsztatów 2005 nt. budowania i używania tekstów równoległych
Narzędzia do wyrównywania
- Narzędzie do wyrównywania GIZA++ (1999)
- Uplug - narzędzia do obróbki korpusów równoległych (2003)
- Implementacja algorytmu wyrównywania zdań Gale and Church (2005)
- Wyrównywacz zdań Hunalign (2005)
- Champollion (2006)
- MALIGNA (2008 - 2020)
- Wyrównywacz zdań Gargantua (2010)
- Bleualign - wyrównywanie zdań oparte na tłumaczeniu maszynowym (2010)
- YASA (2013)
- Narzędzie do hierarchicznego wyrównywania (HAT) (2018)
- Algorytm wyrównania zdań Vecalign (2019)
- Web Alignment Tool na Uniwersytecie w Grenoble
- ^ Ralf Steinberger Ralf; Bruno Pouliquena; Anna Widiger; Kamelia Ignat; Tomasz Erjavec; Dan Tufis; Daniela Vargi (2006). Dorobek prawny JRC: wielojęzyczny, dostosowany równoległy korpus z ponad 20 językami . Materiały z V Międzynarodowej Konferencji Zasobów Językowych i Oceny (LREC'2006). Genua, Włochy, 24-26 maja 2006 .