Korpus języka chorwackiego - Croatian Language Corpus
Korpus Języka Chorwackiego (CLC) ( chorwacki : Hrvatski jezični korpus , HJK ) jest korpusem języka chorwackiego opracowanym w Instytucie Języka i Lingwistyki Chorwackiej ( IHJJ ).
tło
CLC było początkowo finansowane jako podprojekt programu badawczego Riznica ( Repozytorium Języka Chorwackiego ) przez Ministerstwo Nauki, Edukacji i Sportu Republiki Chorwacji ( MZOŠ ) (nr projektu 0212010) od maja 2005 roku. Druga faza rozwoju, od 2007 r., dalsza rozbudowa i rozwój CLC została włączona do programu badawczego The Croatian Language Repository (CLR) przyznanego przez MZOŠ (por. Ćavar i Brozović Rončević, 2012). Będąc programem badawczym (PI Dunja Brozović Rončević ) z wieloma niezależnymi projektami badawczymi, które wykorzystują CLC, korpus jest głównie rozwijany jako produkt uboczny tych projektów badawczych w CLR. Obecnie Dunja Brozović Rončević i Damir Ćavar odpowiadają za rozwój korpusu.
Cele
Jednym z głównych celów projektu CLC jest stworzenie publicznie dostępnego korpusu chorwackiego, który jest anotowany na wielu poziomach, tj. lematyzowany , morfologicznie segmentowany i morfologicznie z adnotacjami, fonemicznie transkrybowany i sylabizowany oraz analizowany składniowo. Podczas gdy obecna wersja korpusu zapewnia środki z chorwackim normy językowej, kilka korpusów z różnych fazach rozwojowych chorwacki są tworzone, jak również, w tym zasobów w formacie cyfrowym rękopisów i chorwackich słowników.
Format i dostępność
Od samego początku zebrane i zdigitalizowane teksty w CLC były adnotowane przy użyciu standardu Text Encoding Initiative ( TEI ) P5 XML . Obecnie ok. 90 mln tokeny dostępne są w formacie TEI P5 XML . Corpus mogą być dostępne online za pośrednictwem interfejsu Philologic (patrz ARTFL projekt, Wydział Języków i Literatur Romańskich, University of Chicago ). Jest zwirtualizowany na różne podkorporacje, a indywidualne lub szczegółowe definicje podkorporacji mogą być dostarczane na żądanie.
Zawartość
CLC składa się z wybranych tekstów chorwackich , obejmujących różne dziedziny funkcjonalne i gatunki. Obejmuje literaturę i inne źródła pisane z okresu początku ostatecznego kształtowania się standaryzacji języka chorwackiego , czyli od drugiej połowy XIX wieku.
WŻCh składa się z:
- podstawowa literatura chorwacka (np. powieści, opowiadania, dramaty, poezja)
- literatura faktu
- publikacje naukowe z różnych dziedzin oraz podręczniki uniwersyteckie
- książki szkolne
- przetłumaczono literaturę wybitnych tłumaczy chorwackich
- czasopisma i gazety internetowe
- książki z okresu przed standaryzacją języka chorwackiego, które są dostosowane do dzisiejszego standardu chorwackiego
Współpraca
Realizacja CLC była możliwa przy współpracy z:
- Školska knjiga dd
- Chorwacka Akademia Nauk i Sztuki (HAZU)
- Stoljeća hrvatske književnosti, Matica hrvatska
Bibliografia
Linki zewnętrzne
- Strona internetowa korpusu językowego chorwackiego (CLC) i interfejs filologiczny
- (chorwacki) Croatian National Corpus , inny chorwacki corpus przez Instytut Lingwistyki na Wydziale Nauk Humanistycznych i Społecznych , Uniwersytet w Zagrzebiu