Korpus języka chorwackiego - Croatian Language Corpus

Korpus Języka Chorwackiego (CLC) ( chorwacki : Hrvatski jezični korpus , HJK ) jest korpusem języka chorwackiego opracowanym w Instytucie Języka i Lingwistyki Chorwackiej ( IHJJ ).

tło

CLC było początkowo finansowane jako podprojekt programu badawczego Riznica ( Repozytorium Języka Chorwackiego ) przez Ministerstwo Nauki, Edukacji i Sportu Republiki Chorwacji ( MZOŠ ) (nr projektu 0212010) od maja 2005 roku. Druga faza rozwoju, od 2007 r., dalsza rozbudowa i rozwój CLC została włączona do programu badawczego The Croatian Language Repository (CLR) przyznanego przez MZOŠ (por. Ćavar i Brozović Rončević, 2012). Będąc programem badawczym (PI Dunja Brozović Rončević ) z wieloma niezależnymi projektami badawczymi, które wykorzystują CLC, korpus jest głównie rozwijany jako produkt uboczny tych projektów badawczych w CLR. Obecnie Dunja Brozović Rončević i Damir Ćavar odpowiadają za rozwój korpusu.

Cele

Jednym z głównych celów projektu CLC jest stworzenie publicznie dostępnego korpusu chorwackiego, który jest anotowany na wielu poziomach, tj. lematyzowany , morfologicznie segmentowany i morfologicznie z adnotacjami, fonemicznie transkrybowany i sylabizowany oraz analizowany składniowo. Podczas gdy obecna wersja korpusu zapewnia środki z chorwackim normy językowej, kilka korpusów z różnych fazach rozwojowych chorwacki są tworzone, jak również, w tym zasobów w formacie cyfrowym rękopisów i chorwackich słowników.

Format i dostępność

Od samego początku zebrane i zdigitalizowane teksty w CLC były adnotowane przy użyciu standardu Text Encoding Initiative ( TEI ) P5 XML . Obecnie ok. 90 mln tokeny dostępne są w formacie TEI P5 XML . Corpus mogą być dostępne online za pośrednictwem interfejsu Philologic (patrz ARTFL projekt, Wydział Języków i Literatur Romańskich, University of Chicago ). Jest zwirtualizowany na różne podkorporacje, a indywidualne lub szczegółowe definicje podkorporacji mogą być dostarczane na żądanie.

Zawartość

CLC składa się z wybranych tekstów chorwackich , obejmujących różne dziedziny funkcjonalne i gatunki. Obejmuje literaturę i inne źródła pisane z okresu początku ostatecznego kształtowania się standaryzacji języka chorwackiego , czyli od drugiej połowy XIX wieku.

WŻCh ​​składa się z:

  • podstawowa literatura chorwacka (np. powieści, opowiadania, dramaty, poezja)
  • literatura faktu
  • publikacje naukowe z różnych dziedzin oraz podręczniki uniwersyteckie
  • książki szkolne
  • przetłumaczono literaturę wybitnych tłumaczy chorwackich
  • czasopisma i gazety internetowe
  • książki z okresu przed standaryzacją języka chorwackiego, które są dostosowane do dzisiejszego standardu chorwackiego

Współpraca

Realizacja CLC była możliwa przy współpracy z:

Bibliografia

Linki zewnętrzne