ISO/IEC 8859 - ISO/IEC 8859
Standard | ISO/IEC 8859 |
---|---|
Klasyfikacja | 8-bitowy rozszerzony ASCII , ISO 4873 poziom 1 |
Rozszerza | US-ASCII |
Poprzedzony | ISO 646 |
zastąpiony przez | ISO/IEC 10646 ( Unicode ) |
Inne powiązane kodowanie(-a) | ISO/IEC 10367 , Windows-125x |
ISO/IEC 8859 to wspólna seria standardów ISO i IEC dla 8-bitowego kodowania znaków . Seria norm składa się z ponumerowanych części, takich jak ISO/IEC 8859-1 , ISO/IEC 8859-2 itp. Jest 15 części, z wyjątkiem porzuconej normy ISO/IEC 8859-12 . Grupa robocza ISO utrzymująca tę serię norm została rozwiązana.
ISO/IEC 8859 części 1, 2, 3 i 4 były pierwotnie międzynarodową normą Ecma ECMA-94 .
Wstęp
Podczas gdy wzorce bitowe 95 drukowalnych znaków ASCII są wystarczające do wymiany informacji we współczesnym języku angielskim , większość innych języków używających alfabetów łacińskich wymaga dodatkowych symboli nieobjętych ASCII. ISO/IEC 8859 starało się rozwiązać ten problem, wykorzystując ósmy bit w 8-bitowym bajcie, aby umożliwić pozycje dla kolejnych 96 znaków drukowalnych. Wczesne kodowanie było ograniczone do 7 bitów ze względu na ograniczenia niektórych protokołów transmisji danych, a częściowo z powodów historycznych. Jednak potrzebnych było więcej znaków, niż mieściłoby się w pojedynczym 8-bitowym kodowaniu znaków, więc opracowano kilka mapowań, w tym co najmniej dziesięć odpowiednich dla różnych alfabetów łacińskich.
Części normy ISO/IEC 8859 definiują tylko znaki drukowane, chociaż wyraźnie oddzielają zakresy bajtów 0x00–1F i 0x7F–9F jako „kombinacje, które nie reprezentują znaków graficznych” (tj. które są zarezerwowane do użycia jako znaki kontrolne ) zgodnie z ISO/IEC 4873 ; zostały zaprojektowane do użytku w połączeniu z oddzielnym standardem definiującym funkcje kontrolne związane z tymi bajtami, takim jak ISO 6429 lub ISO 6630 . W tym celu do serii kodowań zarejestrowanych w IANA dodaje się zestaw kontrolny C0 (znaki kontrolne odwzorowane na bajty od 0 do 31) z ISO 646 oraz zestaw kontrolny C1 (znaki kontrolne odwzorowane na bajty od 128 do 159) z ISO 6429, w wyniku pełne 8-bitowe mapy znaków z większością, jeśli nie wszystkimi, przypisanymi bajtami. Te zestawy mają ISO-8859- n jako preferowaną nazwę MIME lub, w przypadkach, gdy preferowana nazwa MIME nie jest określona, ich nazwa kanoniczna. Wiele osób używa zamiennie terminów ISO/IEC 8859- n i ISO-8859- n . ISO/IEC 8859-11 nie otrzymało takiego zestawu znaków, prawdopodobnie dlatego, że był prawie identyczny z TIS 620 .
Postacie
Norma ISO/IEC 8859 została zaprojektowana z myślą o niezawodnej wymianie informacji, a nie typografii ; standard pomija symbole potrzebne do wysokiej jakości typografii, takie jak opcjonalne ligatury, kręcone cudzysłowy, myślniki itp. W rezultacie wysokiej jakości systemy składu często wykorzystują zastrzeżone lub idiosynkratyczne rozszerzenia poza standardami ASCII i ISO/IEC 8859 lub zamiast tego użyj Unicode .
Niedokładna zasada oparta na praktycznym doświadczeniu mówi, że jeśli znak lub symbol nie był już częścią powszechnie używanego zestawu znaków do przetwarzania danych i nie był zwykle umieszczany na klawiaturach maszyn do pisania dla języka narodowego, to się nie pojawiał. Stąd też kierunkowość Uwzględniono podwójne cudzysłowy « i » używane w niektórych językach europejskich, ale nie zastosowano kierunkowych podwójnych cudzysłowów „ i ” używanych w języku angielskim i niektórych innych językach.
Francuskie nie otrzymały ligatur œ i Œ, ponieważ można je było wpisać jako „oe”. Podobnie, Ÿ , potrzebne dla tekstu pisanego wielkimi literami, również zostało usunięte. Chociaż pod różnymi kodami, te trzy znaki zostały później ponownie wprowadzone w normie ISO/IEC 8859-15 w 1999 r., która wprowadziła również nowy znak euro. Podobnie niderlandzki nie otrzymał liter ij i IJ , ponieważ osoby mówiące po holendersku przyzwyczaiły się do wpisywania ich jako dwóch liter.
Rumuński początkowo nie otrzymał swoich liter Ș / ș i Ț / ț ( z przecinkiem ), ponieważ te litery zostały początkowo ujednolicone z Ş / ş i Ţ / ţ ( z cedillą ) przez Konsorcjum Unicode , biorąc pod uwagę kształty z przecinkiem poniżej warianty glifów kształtów z cedillą. Jednak litery z wyraźnym przecinkiem poniżej zostały później dodane do standardu Unicode i są również w ISO/IEC 8859-16 .
Większość kodowań ISO/IEC 8859 zawiera znaki diakrytyczne wymagane dla różnych języków europejskich przy użyciu alfabetu łacińskiego. Inne zapewniają alfabety inne niż łacińskie: grecki , cyrylica , hebrajski , arabski i tajski . Większość kodowań zawiera tylko znaki odstępu , chociaż kodowania tajski, hebrajski i arabski zawierają również znaki łączące .
Norma nie przewiduje skryptów języków wschodnioazjatyckich ( CJK ), ponieważ ich systemy pisma ideograficznego wymagają wielu tysięcy punktów kodowych. Chociaż używa znaków opartych na łacinie, wietnamski również nie mieści się w 96 pozycjach (bez łączenia znaków diakrytycznych, jak w Windows-1258 ). Każdy japoński alfabet sylabiczny (hiragana lub katakana, patrz Kana ) pasowałby, tak jak w JIS X 0201 , ale jak kilka innych alfabetów świata nie są one zakodowane w systemie ISO/IEC 8859.
Części ISO/IEC 8859
ISO/IEC 8859 dzieli się na następujące części:
Część | Nazwa | Rewizje | Inne standardy | Opis |
---|---|---|---|---|
Część 1 |
zachodnioeuropejskie Latin-1 |
1987 , 1998 | ECMA-94 ( 1985 , 1986) | Być może najczęściej stosowana część normy ISO/IEC 8859, obejmująca większość języków zachodnioeuropejskich: duński (częściowo), holenderski (częściowo), angielski , farerski , fiński (częściowy), francuski (częściowy), niemiecki , islandzki , irlandzki , włoski , norweski , portugalski , retoromański , gaelicki szkocki , hiszpański , kataloński i szwedzki . Obejmuje również języki z innych części świata, w tym: wschodnioeuropejski albański , indonezyjski z Azji Południowo-Wschodniej , a także języki afrykańskie afrikaans i suahili .
Modyfikacja DEC MCS ; pierwsza (1985) wersja standardowa na poziomie ECMA nie zawierała znaku czasu i podziału obelus , które dodano w następnym roku. Brakujący znak euro i kapitał Ÿ są w zmienionej wersji ISO/IEC 8859-15 (patrz poniżej). Odpowiedni zestaw znaków IANA to ISO-8859-1. |
Część 2 |
Łacińskie-2 Środkowoeuropejskie |
1987 , 1999 | ECMA-94 (1986) | Obsługuje języki Europy Środkowo-Wschodniej używające alfabetu łacińskiego, w tym bośniacki , polski , chorwacki , czeski , słowacki , słoweński , serbski i węgierski . Brakujący znak euro można znaleźć w wersji ISO/IEC 8859-16. |
Część 3 |
Łacińskie-3 Południowoeuropejskie |
1988 , 1999 | turecki , maltański i esperanto . W dużej mierze zastąpione przez ISO/IEC 8859-9 dla języka tureckiego. | |
Część 4 |
Latin-4 Północnoeuropejskie |
1988 , 1998 | estoński , łotewski , litewski , grenlandzki i lapoński . | |
Część 5 | łaciński/cyrylica | 1988 , 1999 | ECMA-113 (1988, 1999) | Obejmuje głównie języki słowiańskie używające cyrylicy , w tym białoruski , bułgarski , macedoński , rosyjski , serbski i ukraiński (częściowo). |
Część 6 | łaciński/arabski | 1987 , 1999 | ASMO 708 (1986) / ECMA-114 (1986, 2000) | Obejmuje najpopularniejsze znaki języka arabskiego . Nie obsługuje innych języków używających alfabetu arabskiego . Aby wyświetlić, musi być przetworzone BiDi i łączenie kursywą . |
Część 7 | łaciński/grecki | 1987 , 2003 | ELOT 928 (1986) / ECMA-118 (1986) | Obejmuje współczesny język grecki ( ortografia monotoniczna ). Może być również używany dla starożytnej greki pisanej bez akcentów lub w monotonicznej ortografii, ale brakuje znaków diakrytycznych dla ortografii politonicznej . Zostały one wprowadzone wraz z Unicode. Zaktualizowany 2003 by dodać znak euro , drachma znak i rozstaw ypogegrammeni . |
Część 8 | łaciński/hebrajski | 1988 , 1999 | ECMA-121 (1987, 2000) / SI 1311 ( 2002 ) | Obejmuje współczesny alfabet hebrajski używany w Izraelu. W praktyce istnieją dwa różne kodowania, porządku logicznym (potrzeb do dwukierunkowego zrealizowane na wyświetlaczu) i wizualnej (od lewej do prawej) rozkaz (w praktyce, po bidi obróbki i linia przerywania). Zaktualizowano 1999, aby dodać LRM i RLM . Zaktualizowano na poziomie norm krajowych w 2002 r. w celu dodania znaków euro i szekla oraz większej liczby efektorów formatu dwukierunkowego; dodatki z 2002 roku nigdy nie zostały ponownie włączone do standardowej wersji ISO. |
Część 9 |
Łaciński-5 turecki |
1989 , 1999 | ECMA-128 (1988, 1999) | W dużej mierze to samo co ISO/IEC 8859-1, zastępując rzadko używane litery islandzkie literami tureckimi . |
Część 10 |
Latin-6 Nordic |
1992 , 1998 | ECMA-144 (1990, 1992, 2000) | Rearanżacja Latin-4. Uważany za bardziej przydatny dla języków skandynawskich. Języki bałtyckie częściej używają Latin-4. |
Część 11 | łaciński/tajski | 2001 | TIS-620 (1986, 1990) | Zawiera znaki wymagane dla języka tajskiego . Pierwsza rewizja ustanowiona w 1986 r. na poziomie norm krajowych jako TIS 620 . Podniesiony do statusu normy ISO w ramach ISO 8859 w 2001 roku, z dodatkiem spacji niełamliwej . |
|
łaciński/dewanagari | Nie dotyczy | - | Prace nad wykonaniem części 8859 dla Devanagari zostały oficjalnie przerwane w 1997 roku. ISCII i Unicode/ISO/IEC 10646 obejmują Devanagari. |
Część 13 |
Łacińska 7 obręcz bałtycka |
1998 | - | Dodano kilka znaków dla języków bałtyckich, których brakowało w Latin-4 i Latin-6. Powiązane z wcześniej opublikowanym Windows-1257 . |
Część 14 |
latynoski 8 celtycki |
1998 | - | Obejmuje języki celtyckie, takie jak gaelicki i język bretoński . Litery walijskie odpowiadają wcześniejszemu (1994) ISO-IR-182 . |
Część 15 | łaciński-9 | 1999 | - | Wersja 8859-1, która usuwa niektóre rzadko używane symbole, zastępując je znakiem euro € i literami Š , š , Ž , ž , Œ , œ i Ÿ , co uzupełnia zakres francuskiego , fińskiego i estońskiego . |
Część 16 |
Łacińska-10 południowo-wschodnia europejska |
2001 | SR 14111 (1998) | Przeznaczony dla albańskiego , chorwackiego , węgierskiego , włoskiego , polskiego , rumuńskiego i słoweńskiego , ale także fińskiego, francuskiego, niemieckiego i irlandzkiego gaelickiego (nowa ortografia). Nacisk kładzie się bardziej na litery niż symbole. Znak waluty otrzymuje z symbolem euro . |
Każda część ISO/IEC 8859 jest zaprojektowana do obsługi języków, które często pożyczają od siebie nawzajem, więc znaki potrzebne w każdym języku są zwykle umieszczane w jednej części. Istnieją jednak pewne kombinacje znaków i języków, które nie są obsługiwane bez transkrypcji. Dołożono starań, aby konwersje przebiegały tak płynnie, jak to tylko możliwe. Na przykład w języku niemieckim wszystkie siedem znaków specjalnych znajdują się na tych samych pozycjach we wszystkich wariantach łacińskich (1–4, 9, 10, 13–16), a w wielu pozycjach znaki różnią się tylko diakrytycznymi między zestawami. W szczególności warianty 1–4 zostały zaprojektowane wspólnie i mają tę właściwość, że każdy zakodowany znak pojawia się albo w danym miejscu, albo wcale.
Tabela
Dwójkowy | Październik | Grudzień | Klątwa | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Nieprzerwana przestrzeń (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ja | A | H | A | Ё | ' | ja | A | ก | ” | B | ja | A | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ' | ¢ | ¢ | MI | ข | ¢ | b | ¢ | a | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | R | Ѓ | £ | G | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | I | ค | ¤ | C | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | I | Ѕ | ₯ | ¥ | I | ฅ | „ | C | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | | | S | H | Ļ | І | | | K | ฆ | | | D | S | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ø | W | s | ||||||||
1010 1001 | 251 | 169 | A9 | © | S | I | S | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | S | MI | Њ | ͺ | × | ª | S | ช | R | W | ª | S | |||
1010 1011 | 253 | 171 | AB | « | T | G | G | Ћ | « | T | ซ | « | D | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | J | T | Ќ | ja | ¬ | Ž | ฌ | ¬ | Y | ¬ | Ź | |||
1010 1101 | 255 | 173 | OGŁOSZENIE | Łącznik miękki (SHY) | ญ | NIEŚMIAŁY | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | ® | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | Ż | Ż | Ż | Џ | ? | Ż | N | ฏ | Ć | ź | Ż | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | F | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | a | h | a | Б | ± | a | ฑ | ± | F | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | mi | ฒ | ² | G | ² | C | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | r | Г | ³ | g | ณ | ³ | g | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | i | ด | “ | M | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | i | Е | ΅ | µ | i | ต | µ | m | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | s | h | ¸ | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | P | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ¸ | ธ | ø | W | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | s | i | s | Й | Ή | ¹ | đ | น | ¹ | P | ¹ | C | |||
1011 1010 | 272 | 186 | BA | º | s | mi | К | Ί | ÷ | º | s | บ | r | W | º | s | |||
1011 1011 | 273 | 187 | nocleg ze śniadaniem | » | T | g | g | Л | ? | » | T | ป | » | S | » | ||||
1011 1100 | 274 | 188 | pne | ¼ | ź | J | T | М | Ό | ¼ | ž | ผ | ¼ | Y | Ś | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | N | Н | ½ | ? | ฝ | ½ | W | œ | |||||
1011 1110 | 276 | 190 | BYĆ | ¾ | ž | ž | О | Ύ | ¾ | ¾ | พ | ¾ | W | ź | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | n | П | ja | Ώ | ¿ | n | ฟ | … | s | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | A | R | A | A | Р | ΐ | A | A | ภ | A | A | |||||
1100 0001 | 301 | 193 | C1 | A | С | ء | Α | A | ม | I | A | ||||||||
1100 0010 | 302 | 194 | C2 | A | Т | آ | Β | A | ย | A | A | ||||||||
1100 0011 | 303 | 195 | C3 | A | A | A | У | أ | Γ | A | ร | C | A | A | |||||
1100 0100 | 304 | 196 | C4 | A | Ф | ؤ | Δ | A | ฤ | A | |||||||||
1100 0101 | 305 | 197 | C5 | A | Ł | C | A | Х | إ | Ε | A | ล | A | C | |||||
1100 0110 | 306 | 198 | C6 | Ć | C | C | Ć | Ц | ئ | Ζ | Ć | ฦ | MI | Ć | |||||
1100 0111 | 307 | 199 | C7 | C | I | Ч | ا | Η | C | I | ว | MI | C | ||||||
1100 1000 | 310 | 200 | C8 | MI | C | MI | C | Ш | ب | Θ | MI | C | ศ | C | MI | ||||
1100 1001 | 311 | 201 | C9 | MI | Щ | ة | Ι | MI | ษ | MI | |||||||||
1100 1010 | 312 | 202 | CA | MI | MI | MI | MI | Ъ | ت | Κ | MI | MI | ส | Ź | MI | ||||
1100 1011 | 313 | 203 | CB | MI | Ы | ث | Λ | MI | ห | MI | MI | ||||||||
1100 1100 | 314 | 204 | CC | I | MI | I | MI | Ь | ج | Μ | I | MI | ฬ | G | I | ||||
1100 1101 | 315 | 205 | Płyta CD | I | Э | ح | Ν | I | อ | K | I | ||||||||
1100 1110 | 316 | 206 | CE | I | Ю | خ | Ξ | I | ฮ | I | I | ||||||||
1100 1111 | 317 | 207 | CF | I | D | I | I | Я | د | Ο | I | ฯ | Ļ | I | |||||
Dwójkowy | Październik | Grudzień | Klątwa | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
1101 0000 | 320 | 208 | D0 | D | Đ | Đ | jak | ذ | Π | G | D | ะ | S | W | D | ||||
1101 0001 | 321 | 209 | D1 | N | N | N | N | б | ر | Ρ | N | N | ั | N | N | N | |||
1101 0010 | 322 | 210 | D2 | Ò | N | Ò | Ō | w | ز | Ò | Ō | า | N | Ò | |||||
1101 0011 | 323 | 211 | D3 | Ó | K | г | س | Σ | Ó | ำ | Ó | ||||||||
1101 0100 | 324 | 212 | D4 | Ô | д | ش | Τ | Ô | ิ | Ō | Ô | ||||||||
1101 0101 | 325 | 213 | D5 | Õ | Õ | G | Õ | iii | ص | Υ | Õ | ี | Õ | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | z | ط | Χ | × | × | ื | × | T | × | S | |||||
1101 1000 | 330 | 216 | D8 | Ø | R | G | Ø | и | ظ | Ψ | Ø | ุ | Ø | Ø | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | ù | Ù | Ø | . | ع | Ω | Ù | Ø | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | DA | Ú | к | غ | Ϊ | Ú | ฺ | S | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | ® | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | Y | ù | × | n | έ | I | Y | Ż | Y | MI | ||||||
1101 1110 | 336 | 222 | DE | NS | T | S | ® | о | ή | S | NS | Ž | Ŷ | NS | T | ||||
1101 1111 | 337 | 223 | DF | SS | п | ί | ? | SS | ฿ | SS | |||||||||
1110 0000 | 340 | 224 | E0 | a | r | a | a | р | ـ | ΰ | א | a | a | เ | a | a | |||
1110 0001 | 341 | 225 | E1 | a | tak | ف | α | ב | a | แ | i | a | |||||||
1110 0010 | 342 | 226 | E2 | a | т | ق | β | ג | a | โ | a | a | |||||||
1110 0011 | 343 | 227 | E3 | a | a | a | ty | ك | γ | ד | a | ใ | C | a | a | ||||
1110 0100 | 344 | 228 | E 4 | a | ф | ل | δ | ה | a | ไ | a | ||||||||
1110 0101 | 345 | 229 | E5 | a | ĺ | C | a | х | śmiać | ε | ו | a | ๅ | a | C | ||||
1110 0110 | 346 | 230 | E6 | … | C | C | … | ц | ن | ζ | ז | … | ๆ | mi | … | ||||
1110 0111 | 347 | 231 | E7 | C | i | ч | ه | η | ח | C | i | ็ | mi | C | |||||
1110 1000 | 350 | 232 | E8 | mi | C | mi | C | ш | و | θ | ט | mi | C | ่ | C | mi | |||
1110 1001 | 351 | 233 | E9 | mi | щ | ى | ι | י | mi | ้ | mi | ||||||||
1110 1010 | 352 | 234 | EA | mi | mi | mi | mi | ъ | ي | κ | ך | mi | mi | ๊ | ź | mi | |||
1110 1011 | 353 | 235 | EB | mi | ы | ً | λ | כ | mi | ๋ | mi | mi | |||||||
1110 1100 | 354 | 236 | WE | i | mi | i | mi | ü | ٌ | μ | ל | i | mi | ์ | g | i | |||
1110 1101 | 355 | 237 | ED | i | э | ٍ | ν | ם | i | ํ | ķ | i | |||||||
1110 1110 | 356 | 238 | EE | i | ю | َ | ξ | מ | i | ๎ | i | i | |||||||
1110 1111 | 357 | 239 | EF | i | D | i | i | ja | ُ | owszem | ן | i | ja | ¸ | i | ||||
1111 0000 | 360 | 240 | F0 | D | đ | đ | № | ِ | π | נ | g | D | 0 | s | W | D | đ | ||
1111 0001 | 361 | 241 | F1 | n | n | n | n | ё | ّ | ρ | ס | n | n | 1 | n | n | n | ||
1111 0010 | 362 | 242 | F2 | ò | n | ò | ' | ђ | ْ | ς | ע | ò | ' | 2 | n | ò | |||
1111 0011 | 363 | 243 | F3 | ó | ķ | ѓ | σ | ף | ó | 3 | ó | ||||||||
1111 0100 | 364 | 244 | F4 | ô | є | τ | פ | ô | 4 | ' | ô | ||||||||
1111 0101 | 365 | 245 | F5 | Õ | ő | g | Õ | ѕ | υ | ץ | Õ | 5 | ő | ||||||
1111 0110 | 366 | 246 | F6 | ö | jest | φ | צ | ö | 6 | ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ÷ | 7 | ÷ | T | ÷ | s | |||||
1111 1000 | 370 | 248 | F8 | ø | r | g | ø | ј | ψ | ר | ø | 8 | ų | ø | Ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | 9 | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | ? | s | ú | ||||||||
1111 1011 | 373 | 251 | pełne wyżywienie | û | Ű | û | ћ | ϋ | û | ja | ¾ | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ó | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ÷ | § | ύ | LRM | i | ý | ż | ý | mi | |||||
1111 1110 | 376 | 254 | FE | NS | T | s | ¾ | ў | ώ | RLM | s | NS | ž | Ŷ | NS | T | |||
1111 1111 | 377 | 255 | FF | ź | ˙ | џ | ź | ĸ | ' | ź | |||||||||
Dwójkowy | Październik | Grudzień | Klątwa | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 |
Na pozycji 0xA0 zawsze znajduje się spacja , która nie jest przerywana, a 0xAD to w większości miękki łącznik , który pokazuje się tylko przy przerwaniu wiersza . Inne puste pola to albo nieprzypisane lub używany system nie jest w stanie ich wyświetlić.
Są nowe dodatki w wersjach ISO/IEC 8859-7:2003 i ISO/IEC 8859-8:1999 . LRM oznacza znak od lewej do prawej (U+200E), a RLM oznacza znak od prawej do lewej (U+200F).
Związek z Unicode i LUW
Od 1991 roku Konsorcjum Unicode współpracuje z ISO i IEC w celu opracowania standardu Unicode i ISO/IEC 10646: Universal Character Set (UCS) w tandemie. Nowsze edycje ISO/IEC 8859 wyrażają znaki w kategoriach ich nazw Unicode/UCS i notacji U+nnnn , skutecznie powodując, że każda część ISO/IEC 8859 jest schematem kodowania znaków Unicode/UCS, który odwzorowuje bardzo mały podzbiór UCS na pojedyncze 8-bitowe bajty. Pierwsze 256 znaków w Unicode i UCS są identyczne jak w ISO/IEC-8859-1 ( Latin-1 ).
Jednobajtowe zestawy znaków, w tym części ISO/IEC 8859 i ich pochodne, były preferowane w latach 90. XX wieku, mając tę zaletę, że są dobrze ugruntowane i łatwiejsze w implementacji w oprogramowaniu: równanie jednego bajtu do jednego znaku jest proste i adekwatne dla większości aplikacji jednojęzycznych i nie ma łączenia znaków ani form wariantowych. Ponieważ systemy operacyjne obsługujące Unicode stały się bardziej rozpowszechnione, ISO/IEC 8859 i inne starsze kodowania stały się mniej popularne. Podczas gdy pozostałości ISO 8859 i jednobajtowych modeli znaków pozostają zakorzenione w wielu systemach operacyjnych, językach programowania, systemach przechowywania danych, aplikacjach sieciowych, sprzęcie wyświetlającym i oprogramowaniu aplikacji użytkownika końcowego, większość nowoczesnych aplikacji komputerowych używa wewnętrznie Unicode i polega na konwersji tabele do mapowania do i z innych kodowań, jeśli to konieczne.
Aktualny stan
Norma ISO/IEC 8859 była utrzymywana przez Wspólny Komitet Techniczny ISO/IEC 1, Podkomitet 2, Grupa Robocza 3 (ISO/IEC JTC 1/SC 2/WG 3). W czerwcu 2004 r. WG 3 została rozwiązana, a obowiązki związane z utrzymaniem zostały przeniesione do SC 2 . Standard nie jest obecnie aktualizowany, ponieważ jedyna pozostała grupa robocza podkomisji , WG 2, koncentruje się na rozwoju Universal Coded Character Set firmy Unicode .
WHATWG Kodowanie standardowa, która określa kodowania znaków dozwolona w HTML5 , która musi obsługiwać przeglądarki zgodne, obejmuje większość części ISO / IEC 8859, z wyjątkiem części 1, 9 i 11, które zamiast interpretować jako windows-1252 , windows-1254 i Windows-874 odpowiednio. Autorzy nowych stron i projektanci nowych protokołów mają zamiast tego używać UTF-8 .
Zobacz też
- Lista zestawów znaków komputerowych
- Zestaw znaków RPL (nadzbiór ISO 8859-1 w kalkulatorach HP, określany również jako „ECMA-94”)
- Wielonarodowy zestaw znaków DEC (MCS)
- Krajowy zestaw znaków zastępczych DEC (NRCS)
Uwagi
Bibliografia
- Opublikowane wersje każdej części ISO/IEC 8859 są dostępne za opłatą w witrynie katalogu ISO oraz w sklepie internetowym IEC .
- Wersje PDF końcowych projektów niektórych części normy ISO/IEC 8859 przedłożone do ISO/IEC JTC 1/SC 2/WG 3 do przeglądu i publikacji są dostępne na stronie internetowej WG 3 :
- ISO / IEC 8859-1: 1998 - 8-bitowe jednobajtowe zestawy znaków graficznych, Część 1: Alfabet łaciński nr 1 (projekt z dnia 12 lutego 1998 r., opublikowany 15 kwietnia 1998 r.)
- ISO / IEC 8859-4: 1998 - 8-bitowe jednobajtowe zestawy znaków graficznych, Część 4: Alfabet łaciński nr 4 (projekt z dnia 12 lutego 1998 r., opublikowany 1 lipca 1998 r.)
- ISO/IEC 8859-7:1999 — 8-bitowe jednobajtowe kodowane zestawy znaków graficznych, Część 7: Alfabet łaciński/grecki (wersja robocza z dnia 10 czerwca 1999; zastąpiona przez ISO/IEC 8859-7:2003, opublikowana 10 października, 2003)
- ISO / IEC 8859-10: 1998 - 8-bitowe jednobajtowe zestawy znaków graficznych, część 10: alfabet łaciński nr 6 (projekt z dnia 12 lutego 1998 r., opublikowany 15 lipca 1998 r.)
- ISO / IEC 8859-11: 1999 - 8-bitowe jednobajtowe kodowane zestawy znaków graficznych, Część 11: Zestaw znaków łacińskich / tajskich (projekt z dnia 22 czerwca 1999; zastąpiony przez ISO / IEC 8859-11: 2001, opublikowany 15 grudnia 2001)
- ISO / IEC 8859-13: 1998 - 8-bitowe jednobajtowe zestawy znaków graficznych, część 13: alfabet łaciński nr 7 (projekt z dnia 15 kwietnia 1998 r., opublikowany 15 października 1998 r.)
- ISO/IEC 8859-15:1998 — 8-bitowe jednobajtowe zestawy znaków graficznych, część 15: alfabet łaciński nr 9 (projekt z dnia 1 sierpnia 1997 r.; zastąpiony przez ISO/IEC 8859-15:1999, opublikowano 15 marca , 1999)
- ISO / IEC 8859-16: 2000 - 8-bitowe jednobajtowe kodowane zestawy znaków graficznych, część 16: alfabet łaciński nr 10 (projekt z dnia 15 listopada 1999 r.; zastąpiony przez ISO / IEC 8859-16: 2001, opublikowany 15 lipca , 2001)
-
Standardy ECMA , które w zamierzeniu dokładnie odpowiadają standardom zestawu znaków ISO/IEC 8859, można znaleźć pod adresem:
- Standard ECMA-94 : 8-bitowe, jednobajtowe kodowane zestawy znaków graficznych — alfabety łacińskie nr 1 do nr 4, wydanie drugie (czerwiec 1986)
- Standard ECMA-113 : 8-bitowe, jednobajtowe kodowane zestawy znaków graficznych — alfabet łaciński/cyrylica, wydanie trzecie (grudzień 1999)
- Standard ECMA-114 : 8-bitowe, jednobajtowe kodowane zestawy znaków graficznych — alfabet łaciński/arabski, wydanie drugie (grudzień 2000)
- Standard ECMA-118 : 8-bitowe jednobajtowe kodowane zestawy znaków graficznych — alfabet łaciński/grecki (grudzień 1986)
- Standard ECMA-121 : 8-bitowe, jednobajtowe kodowane zestawy znaków graficznych — alfabet łaciński/hebrajski, wydanie drugie (grudzień 2000)
- Standard ECMA-128 : 8-bitowe, jednobajtowe kodowane zestawy znaków graficznych — alfabet łaciński nr 5, wydanie drugie (grudzień 1999)
- Standard ECMA-144 : 8-bitowe zestawy znaków zakodowanych jednobajtowo — alfabet łaciński nr 6, wydanie trzecie (grudzień 2000)
- Tabele mapowania ISO/IEC 8859-1 na Unicode jako zwykłe pliki tekstowe znajdują się w witrynie FTP Unicode.
- Nieformalne opisy i tabele kodów dla większości norm ISO/IEC 8859 są dostępne w ISO/IEC 8859 Alphabet Soup (Mirror)