Duży5 - Big5

Duży5
MIME / IANA Duży5
Skróty) Duża 5,
Języki) chiński tradycyjny , angielski
Stworzone przez Instytut Przemysłu Informacyjnego
Klasyfikacja Rozszerzone ASCII , kodowanie o zmiennej szerokości , DBCS , kodowanie CJK
Rozszerza ASCII
Rozszerzenia Windows-950 , Big5-HKSCS , wiele innych
Inne powiązane kodowanie(-a) CNS 11643

Big-5 lub Big5 to chińska metoda kodowania znaków używana na Tajwanie , Hongkongu i Makau dla tradycyjnych chińskich znaków .

The Republiki Ludowej (ChRL) , który korzysta uproszczony chińskich znaków , używa GB 18030 zestaw znaków zamiast.

Big5 zawdzięcza swoją nazwę konsorcjum pięciu firm z Tajwanu, które go opracowało.

Organizacja

Oryginalny zestaw znaków Big5 jest sortowany najpierw według częstotliwości użycia, drugi według liczby pociągnięć, a na końcu według radykalnej Kangxi .

W oryginalnym zestawie znaków Big5 brakowało wielu powszechnie używanych znaków. Aby rozwiązać ten problem, każdy dostawca opracował własne rozszerzenie. Rozszerzenie ETen stało się częścią obecnego standardu Big5 dzięki popularności.

Struktura Big5 nie jest zgodna ze standardem ISO 2022 , ale raczej nosi pewne podobieństwo do kodowania Shift JIS . Jest to zestaw znaków dwubajtowych (DBCS) o następującej strukturze:

Pierwszy bajt („bajt wiodący”) 0x81 do 0xfe (lub 0xa1 do 0xf9 dla znaków niezdefiniowanych przez użytkownika)
Drugi bajt 0x40 do 0x7e, 0xa1 do 0xfe

(przedrostek 0x oznaczający liczby szesnastkowe).

Przypisania standardowe (z wyłączeniem rozszerzeń dostawcy lub zdefiniowanych przez użytkownika) nie używają bajtów od 0x7F do 0xA0 ani 0xFF jako bajtów wiodących (pierwszych) lub końcowych (drugi). Bajty od 0xA1 do 0xFE są używane zarówno dla bajtów wiodących, jak i końcowych dla kodów dwubajtowych (Big5). Bajty od 0x40 do 0x7E są używane jako bajty śladu następujące po bajcie wiodącym lub w przypadku kodów jednobajtowych w inny sposób. Jeśli drugi bajt nie znajduje się w żadnym zakresie, zachowanie jest nieokreślone (tzn. różni się w zależności od systemu). Dodatkowo, niektóre warianty zestawu znaków Big5, na przykład HKSCS , używają rozszerzonego zakresu dla bajtu wiodącego, w tym wartości z zakresu od 0x81 do 0xA0 (podobnie do Shift JIS ), podczas gdy inne używają skróconych zakresów bajtów wiodących (na przykład wariant Apple Macintosh wykorzystuje kody od 0xFD do 0xFF jako kody jednobajtowe, ograniczając zakres bajtów wiodących do 0xA1 do 0xFC).

Wartość liczbowa poszczególnych kodów Big5 jest często podawana jako 4-cyfrowa liczba szesnastkowa, która opisuje dwa bajty składające się na kod Big5 tak, jakby te dwa bajty były reprezentacją big endian liczby 16-bitowej. Na przykład kod Big5 dla przestrzeni o pełnej szerokości, czyli bajty 0xa1 0x40, jest zwykle zapisywany jako 0xa140 lub po prostu A140.

Ściśle mówiąc, kodowanie Big5 zawiera tylko znaki DBCS. Jednak w praktyce kody Big5 są zawsze używane razem z nieokreślonym, zależnym od systemu zestawem znaków jednobajtowych ( ASCII lub 8-bitowy zestaw znaków, taki jak strona kodowa 437 ), dzięki czemu można znaleźć mieszankę DBCS znaki i znaki jednobajtowe w tekście zakodowanym w Big5. Bajty z zakresu od 0x00 do 0x7f, które nie są częścią znaku dwubajtowego, są uznawane za znaki jednobajtowe. (Aby uzyskać bardziej szczegółowy opis tego problemu, zapoznaj się z omówieniem „Dopasowanie SBCS” poniżej.)

Znaczenie pojedynczych bajtów spoza zestawu ASCII poza dozwolonymi wartościami, które nie są częścią znaku dwubajtowego, różni się w zależności od systemu. W starych systemach opartych na MSDOS mogą być wyświetlane jako znaki 8-bitowe; w nowoczesnych systemach mogą albo dawać nieprzewidywalne wyniki, albo generować błąd.

Bardziej szczegółowe spojrzenie na organizację

W oryginalnym Big5 kodowanie jest podzielone na różne strefy:

0x8140 do 0xa0fe Zarezerwowane dla znaków zdefiniowanych przez użytkownika 造字
0xa140 do 0xa3bf „Znaki graficzne” 圖形碼
0xa3c0 do 0xa3fe Zarezerwowane, nie dla znaków zdefiniowanych przez użytkownika
0xa440 do 0xc67e Często używane znaki 常用字
0xc6a1 do 0xc8fe Zarezerwowane dla znaków zdefiniowanych przez użytkownika
0xc940 do 0xf9d5 Rzadziej używane znaki 次常用字
0xf9d6 do 0xfefe Zarezerwowane dla znaków zdefiniowanych przez użytkownika

„Znaki graficzne” w rzeczywistości obejmują znaki interpunkcyjne, częściowe znaki interpunkcyjne (np. pół myślnika, pół wielokropka; patrz poniżej), dingbaty , znaki obce i inne znaki specjalne (np. formy prezentacyjne „pełnej szerokości”, cyfry dla cyfr Suzhou , zhuyin fuhao itp.)

W większości rozszerzeń dostawców znaki rozszerzone są umieszczane w różnych strefach zarezerwowanych dla znaków zdefiniowanych przez użytkownika, z których każdy jest zwykle uważany za powiązany z poprzednią strefą. Na przykład oczekuje się, że dodatkowe „znaki graficzne” (np. znaki interpunkcyjne) zostaną umieszczone w zakresie 0xa3c0–0xa3fe, a dodatkowe logogramy zostaną umieszczone w zakresie 0xc6a1–0xc8fe lub 0xf9d6–0xfefe. Czasami nie jest to możliwe ze względu na dużą liczbę znaków rozszerzonych do dodania; na przykład litery cyrylicy i japońskie kana zostały umieszczone w strefie związanej z „często używanymi znakami”.

Co właściwie koduje kod Big5

Pojedynczy kod Big5 nie zawsze reprezentuje kompletną jednostkę semantyczną. Kody Big5 logogramów są zawsze logogramami, ale kody w sekcji „znaki graficzne” nie zawsze są kompletnymi „znakami graficznymi”. To, co koduje Big5, to szczególne graficzne reprezentacje znaków lub części znaków, które przypadkiem mieszczą się w przestrzeni zajmowanej przez dwa znaki ASCII o stałej szerokości. Jest to właściwość zestawów znaków dwubajtowych, jaka jest zwykle używana w obliczeniach CJK (chiński, japoński i koreański) i nie jest unikalnym problemem Big5.

(Powyższe może wymagać wyjaśnienia, umieszczając je w perspektywie historycznej, ponieważ jest to teoretycznie niepoprawne: W czasach, gdy komputery osobiste w trybie tekstowym były nadal normą, znaki były zwykle przedstawiane jako pojedyncze bajty, a każdy znak zajmuje jedną pozycję na ekranie. jest to zatem praktyczny powód, by nalegać, aby znaki dwubajtowe zajmowały dwie pozycje na ekranie, a mianowicie, że gotowe, amerykańskie oprogramowanie byłoby wtedy użyteczne bez modyfikacji w systemie opartym na DBCS. dowolna liczba pozycji na ekranie, oprogramowanie, które zakłada, że ​​jeden bajt tekstu zajmuje jedną pozycję na ekranie, dałoby nieprawidłowe wyniki.Oczywiście, gdyby komputer nigdy nie miał do czynienia z ekranem tekstowym, producent nie narzuciłby tego sztucznego ograniczenia; Przykładem jest Macintosh. Niemniej jednak samo kodowanie musi być zaprojektowane tak, aby działało poprawnie w systemach opartych na ekranie tekstowym).

Aby zilustrować ten punkt, rozważmy kod Big5 0xa14b (…). Dla osób anglojęzycznych wygląda to jak wielokropek, a standard Unicode identyfikuje go jako taki; jednak w języku chińskim wielokropek składa się z sześciu kropek, które mieszczą się w przestrzeni dwóch chińskich znaków (……), więc w rzeczywistości nie ma kodu Big5 dla chińskiej elipsy, a kod Big5 0xa14b reprezentuje tylko połowę chińskiego elipsy . Reprezentuje tylko połowę wielokropka, ponieważ cały wielokropek powinien zajmować przestrzeń dwóch chińskich znaków, aw wielu systemach DBCS jeden znak DBCS musi zajmować dokładnie odstęp jednego chińskiego znaku.

Znaki zakodowane w Big5 nie zawsze reprezentują rzeczy, które można łatwo wykorzystać w zwykłych plikach tekstowych; przykładem jest „znak cytatu” (0xa1ca, ﹋), który, gdy jest używany, musi być napisany pod tytułem dzieła literackiego. Innym przykładem są cyfry Suzhou , które są formą notacji naukowej, która wymaga ułożenia liczby w formie dwuwymiarowej składającej się z co najmniej dwóch rzędów.

Pasujące SBCS

W praktyce Big5 nie może być używany bez pasującego zestawu znaków jednobajtowych (SBCS) ; wynika to głównie z powodu kompatybilności. Jednak, podobnie jak w przypadku innych zestawów znaków CJK DBCS, używany SBCS nigdy nie został określony. Big5 zawsze był definiowany jako DBCS, chociaż gdy jest używany, musi być sparowany z odpowiednim, nieokreślonym SBCS i dlatego używany jako coś, co niektórzy nazywają MBCS ; niemniej jednak Big5 sam w sobie, zgodnie z definicją, jest ściśle DBCS.

Nieokreślony SBCS do użycia oznacza, że ​​używany SBCS może teoretycznie różnić się w zależności od systemu. Obecnie ASCII jest jedynym możliwym SBCS, którego można użyć. Jednak w starych systemach opartych na DOS , Code Page 437 — z dodatkowymi specjalnymi symbolami w obszarze kodu kontrolnego, w tym w pozycji 127 — był znacznie bardziej powszechny. Jednak w systemie Macintosh z pakietem Chinese Language Kit lub w systemie Unix z emulatorem terminala cxterm, SBCS sparowany z Big5 nie byłby stroną kodową 437.

Poza prawidłowym zakresem Big5, stare systemy oparte na DOS rutynowo interpretowałyby rzeczy zgodnie z SBCS, który jest sparowany z Big5 w tym systemie. W takich systemach, znaki od 127 do 160, na przykład, były bardzo prawdopodobne, że nie były unikane, ponieważ dawałyby nieprawidłowe Big5, ale były używane, ponieważ byłyby poprawnymi znakami w stronie kodowej 437.

Współczesna charakterystyka Big5 jako MBCS składającego się z DBCS Big5 plus SBCS ASCII jest zatem historycznie niepoprawna i potencjalnie błędna, ponieważ wybór pasującego SBCS był i teoretycznie nadal jest całkowicie niezależny od używanego smaku Big5 .

Historia

Niezdolność ASCII do obsługi dużych zestawów znaków, takich jak używane w języku chińskim, japońskim i koreańskim, skłoniła rządy i przemysł do znalezienia kreatywnych rozwiązań umożliwiających renderowanie ich języków na komputerach. Różnorodność doraźnych i zwykle zastrzeżonych metod wprowadzania danych doprowadziła do wysiłków zmierzających do opracowania standardowego systemu. W rezultacie kodowanie Big5 zostało zdefiniowane przez tajwański Instytut Przemysłu Informatycznego w 1984 roku. Nazwa „Big5” jest wyrazem uznania, że ​​standard powstał w wyniku współpracy pięciu największych tajwańskich firm informatycznych: Acer (宏碁); MiTAC (神通); JiaJia (佳佳), technologia ZERO ONE (零壹 lub 01tech ); oraz Pierwszy Międzynarodowy Komputer (FIC) (大眾).

Big5 został szybko spopularyzowany na Tajwanie i na całym świecie wśród Chińczyków, którzy używali tradycyjnego chińskiego zestawu znaków poprzez jego przyjęcie w kilku komercyjnych pakietach oprogramowania, w szczególności w chińskim systemie wprowadzania E-TEN DOS ( ETen Chinese System ). Rząd Republiki Chińskiej ogłosił Big5 jako swój standard w połowie lat 80., ponieważ był to wówczas de facto standard używania tradycyjnego języka chińskiego na komputerach.

Rozszerzenia

Oryginalny Big-5 zawiera tylko logogramy CJK z wykresów standardowych form powszechnych znaków narodowych (4808 znaków) i mniej niż powszechne znaki narodowe (6343 znaki), ale nie litery od imion ludzi, nazw miejsc, dialektów, chemii , biologia , japońska kana . W rezultacie wiele programów wspierających Big-5 zawiera rozszerzenia, które rozwiązują problemy.

Mnóstwo odmian sprawia, że UTF-8 lub UTF-16 są bardziej spójną stroną kodową do nowoczesnego użytku.

Rozszerzenia dostawcy

Rozszerzenia ETEN

W chińskim systemie operacyjnym ETEN (倚天) dodaje się następujące punkty kodowe, aby zapewnić zgodność ze stroną kodową IBM5550 :

  • A3C0–A3E0: 33 znaki kontrolne.
  • C6A1–C875: koło 1–10, nawias 1–10, cyfry rzymskie 1–9 (i–ix), radykalne glify CJK, japońska hiragana , japońska katakana , znaki cyrylicy
  • F9D6–F9FE: „碁”, „銹”, „恒”, „裏”, „墻”, „粧”, „嫺” i 34 dodatkowe symbole.

W niektórych wersjach Eten istnieją dodatkowe symbole graficzne i znaki chińskiego uproszczonego .

Strony kodowe Microsoft

Microsoft (微軟) stworzył własną wersję rozszerzenia Big5 jako stronę kodową 950 do użytku z systemem Microsoft Windows , który obsługuje rozszerzenia ETEN, ale tylko punkty kodowe F9D6-F9FE. W Windows ME The euro symbol waluty została odwzorowana na punkcie Big-5 Kod A3E1, ale nie w nowszych wersjach systemu operacyjnego.

Po zainstalowaniu poprawki Microsoft HKSCS na tradycyjnym chińskim systemie Windows (lub dowolnej wersji systemu Windows 2000 i nowszych z odpowiednim pakietem językowym), aplikacje korzystające ze strony kodowej 950 automatycznie używają ukrytej tabeli strony kodowej 951. Tabela obsługuje wszystkie punkty kodowe w HKSCS-2001, z wyjątkiem punktów kodowych zgodności określonych w standardzie.

Strona kodowa 950 używana w systemach Windows 2000 i Windows XP mapuje znaki hiragana i katakana na blok prywatnego obszaru użytku Unicode podczas eksportowania do formatu Unicode, ale na odpowiednie bloki Unicode hiragana i katakana w systemie Windows Vista.

Czcionka ChinaSea

Czcionki ChinaSea (中國海字集) to tradycyjne chińskie czcionki produkowane przez ChinaSea. Czcionki rzadko są sprzedawane osobno, ale są dołączane do innych produktów, takich jak chińska wersja pakietu Microsoft Office 97 . Czcionki obsługują japońskie kana , kokuji i inne znaki, których brakuje w Big-5. W rezultacie rozszerzenia ChinaSea stały się bardziej popularne niż rozszerzenia obsługiwane przez rząd. Niektóre BBSy z Hongkongu używały kodowania w czcionkach ChinaSea przed wprowadzeniem HKSCS .

Czcionka „Sakura”

'Sakura' font (日和字集Sakura Version) został opracowany w Hong Kongu i ma być kompatybilny z HKSCS . Dodaje obsługę kokuji i zastrzeżonych dingbatów (w tym Doraemon ), których nie ma w HKSCS.

Unicode-at-on

Unicode-at-on ( Unicode補完計畫), dawniej rozszerzenie BIG5, rozszerza BIG-5 poprzez zmianę tabel stron kodowych, ale używa rozszerzeń ChinaSea począwszy od wersji 2. Jednak wraz z bankructwem ChinaSea, późnym rozwojem i rosnącym popularność HKSCS i Unicode (projekt nie jest kompatybilny z HKSCS), sukces tego rozszerzenia jest w najlepszym razie ograniczony.

Pomimo problemów, znaki wcześniej mapowane do prywatnego obszaru użytku Unicode są ponownie mapowane do standardowych odpowiedników podczas eksportowania znaków do formatu Unicode.

OPG

Strony internetowe Oriental Daily News i Sun Daily , należących do Oriental Press Group Limited (東方報業集團有限公司) w Hongkongu, używały czcionki do pobrania z innym kodem rozszerzenia Big-5 niż HKSCS .

Oficjalne rozszerzenia

Czcionka Ministerstwa Edukacji Tajwanu

Ministerstwo Edukacji Tajwanu dostarczyło własną czcionkę, czcionkę Ministerstwa Edukacji Tajwanu (臺灣教育部造字檔) do użytku wewnętrznego.

Tajwańska Rada Rolnictwa czcionka

Czcionka Rady Rolnictwa Tajwanu , Executive Yuan, wprowadził niestandardową czcionkę o długości 133 znaków, czcionkę Rady Rolnictwa Tajwanu (臺灣農委會常用中文外字集), która zawiera 84 znaki z radykału „ryba” i 7 z radykału „ptak” .

Duży5+

Fundacja chiński do digitalizacji Technologii (中文數位化技術推廣委員會) wprowadziła BIG5 + w 1997 roku, który używany ponad 20000 punktów kodowych do włączenia wszystkich logograms CJK w Unicode 1.1. Jednak dodatkowe punkty kodowe przekroczyły oryginalną definicję Big-5 (Big5+ używa wysokobajtowych wartości 81-FE i niskich wartości bajtowych 40-7E i 80-FE), uniemożliwiając zainstalowanie go w systemie Microsoft Windows bez nowych plików strony kodowej.

Duży-5E

Aby umożliwić użytkownikom systemu Windows korzystanie z niestandardowych czcionek, chińska Fundacja Technologii Cyfryzacji wprowadziła Big-5E, która dodała 3954 znaków (w trzech blokach punktów kodowych: 8E40-A0FE, 8140-86DF, 86E0-875C) i usunęła japońskie kana z rozszerzenie ETEN. W przeciwieństwie do Big-5+, Big5E rozszerza Big-5 w swojej pierwotnej definicji. Mac OS X 10.3 i nowsze obsługują Big-5E w czcionkach LiHei Pro (儷黑 Pro.ttf) i LiSong Pro (儷宋 Pro.ttf).

Duży5-2003

Fundacja chiński do digitalizacji Techniki wykonane definicję BIG5 i umieścić go w OUN 11643 w formie notatki, dzięki czemu część oficjalnego standardu na Tajwanie.

Big5-2003 zawiera wszystkie znaki Big-5 wprowadzone w rozszerzeniach ETEN 1984 (punkty kodowe A3C0-A3E0, C6A1-C7F2 i F9D6-F9FE) oraz symbol Euro. Nie uwzględniono znaków cyrylicy, ponieważ władze twierdziły, że CNS 11643 nie zawiera takich znaków.

CDP

Academia Sinica wykonane czcionkę chiński przetwarzania danych (漢字構形資料庫) w latach 1990, którego najnowsza wersja wersja 2.5 włączonych 112,533 znaków, niektóre mniej niż Mojikyo czcionek.

HKSCS

Hongkong przyjął również Big5 do kodowania znaków. Jednak pisemny kantoński ma swoje własne znaki niedostępne w normalnym zestawie znaków Big5. Aby rozwiązać ten problem, rząd Hongkongu stworzył rozszerzenia Big5 Government Chinese Character Set (GCCS) w 1995 r. i Hong Kong Supplementary Character Set w 1999 r. Rozszerzenia Hongkongu były powszechnie dystrybuowane jako łatka. Wciąż jest rozpowszechniana jako łatka przez Microsoft, ale pełna czcionka Unicode jest również dostępna na stronie internetowej rządu Hongkongu.

Istnieją dwa schematy kodowania HKSCS: jeden dla standardu kodowania Big-5, a drugi dla standardu ISO 10646 . Po pierwszym wydaniu istnieją również HKSCS-2001 i HKSCS-2004. HKSCS-2004 jest zgodny technicznie z normą ISO/IEC 10646:2003 i jej poprawką 1 opublikowaną w kwietniu 2004 r. przez Międzynarodową Organizację Normalizacyjną (ISO).

HKSCS zawiera wszystkie znaki z popularnego rozszerzenia ETEN, a także niektóre znaki z języka chińskiego uproszczonego , nazwy miejsc, imiona osób i zwroty kantońskie (w tym wulgaryzmy ).

Od 2020 r. najnowsza edycja HKSCS to HKSCS-2016; jednak ostatnią edycją HKSCS do zakodowania wszystkich jego znaków w Big5 był HKSCS-2008, podczas gdy znaki dodane w nowszych wydaniach są mapowane tylko do ISO 10646 / Unicode (jako rozszerzenie poziome glifów CJK Unified Ideographs w stosownych przypadkach). Dodatkowo, podobnie jak w przypadku Hongkongu, istnieją również postacie, które są potrzebne Makau, ale nie są zawarte ani w Big5, ani w HKSCS, dlatego opracowano Uzupełniający Zestaw Znaków Makau , zawierający postacie, których nie ma w Big5 ani HKSCS; to jednak również nie jest zakodowane w Big5. Pierwsza partia 121 znaków MSCS została przesłana do włączenia do mapowania do Unicode w 2009 roku, a pierwsza ostateczna wersja MSCS powstała w 2020 roku.

Kana i cyrylica

Istnieją dwa główne układy rozszerzeń Big5 do kodowania kana , rosyjskiej cyrylicy i znaczników listy w zakresie od 0xC6A1 do 0xC875. Nie są one ze sobą kompatybilne. Porównano je w poniższej tabeli.

Układ ETEN kana i cyrylica jest również używany przez warianty HKSCS (w tym HTML5 ) i Unicode-At-On, a także przez wersję strony kodowej 950 IBM, a układ ETEN kana (z pominięciem cyrylicy) jest również używany przez wariant Big5-2003. Opublikowane pliki mapowania dla systemu Windows-950 nie zawierają żadnego z nich, a ten zakres Big5 jest mapowany do obszaru prywatnego użytku przez implementację systemu Windows-950 firmy International Components for Unicode . Wbudowana implementacja kodeka Pythonacp950 , używana w systemach innych niż Windows lub gdy strona kodowa 950 nie jest aktywną stroną kodową systemu Windows, używa układu BIG5.TXT. Klasyczny Mac OS wersja zawiera ani układ.

Zobacz też

Bibliografia

Zewnętrzne linki