T.51/ISO/IEC 6937 - T.51/ISO/IEC 6937
Zestawy znaków kodowanych na podstawie alfabetu łacińskiego dla usług telematycznych | |
Status | Obowiązujący |
---|---|
Rok rozpoczęty | 1984 |
Ostatnia wersja | (09/92) wrzesień 1992 |
Organizacja | ITU-T |
Komisja | Grupa badawcza VIII |
Powiązane standardy | T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022 |
Domena | kodowanie |
Licencja | Łatwo dostępny |
Strona internetowa | https://www.itu.int/rec/T-REC-T.51 |
T.51 / ISO/IEC 6937:2001 , Informatyka — Zakodowany zestaw znaków graficznych do komunikacji tekstowej — Alfabet łaciński , jest wielobajtowym rozszerzeniem ASCII , a raczej ISO/IEC 646 -IRV. Został opracowany wspólnie z ITU-T (wtedy CCITT ) dla usług telematycznych pod nazwą T.51 i po raz pierwszy stał się standardem ISO w 1983 roku. Niektóre kody bajtowe są używane jako bajty wiodące dla liter ze znakami diakrytycznymi ( akcentami ). Wartość bajtu wiodącego często wskazuje, który znak diakrytyczny ma dana litera, a kolejny bajt ma wtedy wartość ASCII dla litery, na której znajduje się znak diakrytyczny.
Architektami ISO/IEC 6937 byli Hugh McGregor Ross , Peter Fenwick, Bernard Marti i Loek Zeckendorf .
ISO6937/2 definiuje 327 znaków występujących we współczesnych językach europejskich przy użyciu alfabetu łacińskiego . Znaki europejskie inne niż łacińskie, takie jak cyrylica i grecki , nie są uwzględniane w standardzie. Ponadto niektóre znaki diakrytyczne używane z alfabetem łacińskim, takie jak przecinek rumuński, nie są uwzględniane, zamiast tego używa się cedilli, ponieważ nie dokonano wówczas rozróżnienia między cedillą a przecinkiem poniżej.
IANA zarejestrowała nazwy zestawów znaków ISO_6937-2-25 i ISO_6937-2-add dla dwóch (starszych) wersji tego standardu (plus kody kontrolne). Ale w praktyce to kodowanie znaków nie jest używane w Internecie.
Znaki jednobajtowe
Podstawowym zestaw (pierwsza połowa) pierwotnie zastosowaną ISO 646-IRV zanim z ISO / IEC 646: 1991 rewizji, to znaczy przede wszystkim następujące ASCII , ale z charakterem 0x24 nadal oznaczone jako „ międzynarodowy znak waluty ” (¤) zamiast znaku dolara ($). Wydanie ITU T.51 z 1992 r. zezwala istniejącym usługom CCITT na dalsze interpretowanie 0x24 jako międzynarodowego znaku waluty, ale przewiduje, że nowe aplikacje telekomunikacyjne powinny używać go jako znaku dolara (tj. zgodnie z obecną normą ISO 646-IRV), a zamiast tego reprezentować międzynarodowy znak waluty za pomocą zestawu uzupełniającego.
Zestaw uzupełniający (druga połowa) zawiera wybór odstępów i nie odstępów znaków graficznych, dodatkowe symbole oraz niektóre miejsca zarezerwowane dla przyszłej normalizacji.
Oba są zestawami znaków graficznych ISO/IEC 2022 , przy czym zestaw podstawowy to zestaw 94 kodów, a zestaw dodatkowy to zestaw 96 kodów. W kontekstach, w których techniki rozszerzania kodu ISO 2022 nie są używane, zbiór podstawowy jest oznaczony jako zbiór G0 i wywoływany przez GL ( 0x 20..0x7F), podczas gdy zbiór uzupełniający jest oznaczony jako zbiór G2 i wywoływany przez GR (0xA0 ..0xFF) w środowisku 8-bitowym lub przy użyciu kodu sterującego 0x19 jako pojedynczej zmiany w środowisku 7-bitowym. To kodowanie kodu Single Shift Two odpowiada jego lokalizacji w ISO-IR- 106.
Sekwencja ucieczki ISO/IEC 2022 oznaczająca zestaw uzupełniający normy ISO/IEC 6937 jako zestaw G2 ESC . R
(hex 1B 2E 52
). Starszy zestaw uzupełniający ISO 6937/2:1983 jest zarejestrowany jako zestaw kodów 94 i oznaczony jako G2 za pomocą ESC * l
(hex 1B 2A 6C
).
Znaki dwubajtowe
Litery akcentowane, którym nie przydzielono pojedynczych kodów w zestawie podstawowym lub dodatkowym, są kodowane przy użyciu dwóch bajtów. Po pierwszym bajcie, „znaku diakrytycznym bez odstępów”, następuje litera z zestawu bazowego, np.:
small e with acute accent (é) = [Acute]+e
Standard ITU T.51 przydziela kolumnę 4 zestawu uzupełniającego (tj. 0x C0–CF, gdy jest używana w formacie 8-bitowym) na nierozdzielające znaki diakrytyczne. Jednak ISO/IEC 6937 definiuje w pełni określony repertuar znaków, mapując listę sekwencji kompozycji do nazw znaków ISO/IEC 10646 . Wyizolowane bajty bez odstępów nie są zawarte w tym repertuarze, chociaż uwzględniane są warianty odstępów znaków diakrytycznych, które nie występują w ASCII, przy czym spacja ASCII jest bajtem śladu. Dlatego tylko niektóre kombinacje bajtu wiodącego i bajtu następującego są zgodne ze standardem ISO/IEC.
Repertuar ten jest również dołączony do wersji ITU specyfikacji jako załącznik A, chociaż wersja ITU nie odwołuje się do niego w tekście głównym. Jest opisany jako „zunifikowany nadzbiór” repertuarów znaków pisma łacińskiego. Odpowiada repertuarowi normy ISO/IEC 10367, gdy używane są zestawy ASCII, Latin-1 (lub Latin-5 ), Latin-2 i uzupełniające zestawy łacińskie .
System ten różni się również od systemu znaków łączących Unicode tym, że kod diakrytyczny poprzedza literę (w przeciwieństwie do następującej po niej), czyniąc go bardziej podobnym do ANSEL .
Trochę anomalią jest to, że łacińska mała litera G z Cedillą jest zakodowana tak, jakby była z akcentem ostrym, czyli z bajtem wiodącym 0xC2, ponieważ ze względu na jego potomek zakłócający cedillę, mała litera jest zwykle z przecinkiem powyżej : ģ .
W sumie 13 znaków diakrytycznych może następować po wybranych znakach z zestawu podstawowego:
Akcent | Kod | Druga postać | Wynik |
---|---|---|---|
Mogiła | 0xC1 | AEIOUaeiou | ÀÈÌÒÙàèìò |
Ostry | 0xC2 | ACEILNORSUYZacegilnorsuyz | ÁĆÉÍŃÓŔŚÚÝŹáćéģíĺńóŕśúýź |
Circumflexus | 0xC3 | ACEGHIJOSUWYaceghijosuwy | ĈÊĜĤÎĴÔĜĤÎĴÔĜĤÎĴÔâĉêĝĥîĵôŝûŵŷ |
Tylda | 0xC4 | AINOUainou | ĨÑÕŨãĩñõũ |
Macron | 0xC5 | AEIOUaeiou | āēiōū |
Breve | 0xC6 | AGUagu | ĂĞŬăğŭ |
Kropka | 0xC7 | CEGIZcegz | ĖĠİŻċėġż |
Umlaut lub dieresis | 0xC8 | AEIOUYaeiouy | ĘËÏÖÜŸäëïöüÿ |
Dzwonić | 0xCA | Au au | Au au |
Cedilla | 0xCB | CGKLNRSTcklnrst | çķļņŗşţ |
Podwójne Ostre | 0xCD | OUou | ŐŰőű |
Ogonek | 0xCE | AEIUaeiu | ĄĘĘĘĘ |
Caron | 0xCF | CDELNRSTZcdelnrstz | ČĎĚĽŇŘŠŤŽčďěľňřšťž |
Układ strony kodowej
Odniesienie do łączenia znaków z zakresu U+0300—U+036F dla kodów z zakresu 0xC1—0xCF poniżej podlega wyżej wymienionym zastrzeżeniom; nie można ich po prostu zmapować do wymienionych punktów kodowych. Ponadto Unicode rozróżnia 0xE2 na D z udarem i wielkimi literami Eth , które zwykle wyglądają inaczej dla małych liter (0xF2 i 0xF3).
Starsze wydanie ITU T.51 z 1988 roku określało dwie wersje zestawu uzupełniającego, przy czym w pierwszej wersji brakowało spacji nierozdzielającej , łącznika miękkiego , znaku ( ¬ ) i łamanego kreski ( ¦ ) obecnych w wersji drugiej. Pierwsza wersja została określona jako rozszerzenie zestawu uzupełniającego T.61 , a druga wersja jako rozszerzenie wersji pierwszej. Obecne (1992) wydanie zawiera tylko drugą wersję, wycofuje niektóre znaki i aktualizuje podstawowy zestaw do aktualnego ISO-646-IRV ( ASCII ), chociaż istniejące usługi telematyczne mogą zachować starsze zachowanie.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _MI | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ||||||||||||||||
1_ | ||||||||||||||||
2_ |
SP 0020 |
! 0021 |
„ 0022 |
# 0023 |
$ / ¤ 0024/00A4 |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ |
@ 0040 |
0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
I 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ |
P 0050 |
P 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Tak 0059 |
Z 005A |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
6_ |
` 0060 |
0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
I 0069 |
j 006A |
k 006B |
L 006C |
m 006D |
n 006E |
o 006F |
7_ |
p 0070 |
q 0071 |
R 0072 |
s 0073 |
t 0.074 |
U 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
|
8_ | ||||||||||||||||
9_ | ||||||||||||||||
A_ |
NBSP 00A0 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
0024 zł |
¥ 00A5 |
# 0023 |
§ 00A7 |
¤ 00A4 |
' 2018 |
“ 201C |
« 00AB |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
B_ |
° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
μ 00B5 |
¶ 00B6 |
· 00B7 |
÷ 00F7 |
' 2019 |
” 201D |
» 00BB |
¼ 00BC |
½ 00BD |
¾ 00BE |
¿ 00BF |
C_ |
0300 |
0301 |
0302 |
0303 |
̄ 0304 |
̆ 0306 |
̇ 0307 |
̈ 0308 |
̊ 030A |
̧ 0327 |
0332 |
̋ 030B |
̨ 0328 |
̌ 030C |
||
D_ |
― 2015 |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
¬ 00AC |
¦ 00A6 |
215 mld |
⅜ 215C |
⅝ 215D |
⅞ 215E |
||||
MI_ |
Ω 2126 |
Æ 00C6 |
Đ / Ð 0110/00D0 |
ª 00AA |
Ħ 0126 |
IJ 0132 |
Ŀ 013F |
0141 Ł |
Ø 00D8 |
Œ 0152 |
º 00BA |
Þ 00DE |
Ŧ 0166 |
Ŋ 014A |
ʼn 0149 |
|
F_ |
ĸ 0138 |
æ 00E6 |
đ 0111 |
ð 00F0 |
ħ 0127 |
ı 0131 |
ij 0133 |
ŀ 0140 |
ł 0142 |
ø 00F8 |
– 0153 |
ß 00DF |
þ 00FE |
ŧ 0167 |
ŋ 014B |
NIEŚMIAŁA 00AD |
List Numer Interpunkcja Symbol Inne Nieokreślony Różnice w stosunku do T.61
Wersja Videotex
Wersje zestawu uzupełniającego używane przez standard ITU T.101 dla Videotex są oparte na pierwszym zestawie uzupełniającym wydania T.51 z 1988 roku.
Domyślny zestaw G2 Danych Syntax 2 dodaje się 0xC0, na połączeniu z kodami od A greckiego podstawowym zestawie.
Zestaw uzupełniający dla składni danych 3 dodaje znaki nierozdzielające dla nadkreślenia i solidusu oraz kilka znaków semigraficznych .
Wersja ETS 300 706
Standard ETS 300 706 dla Teletekstu Systemu Światowego opiera swój zestaw G2 na ISO 6937. Jest to nadzbiór zestawu dodatkowego T.61 i nadzbiór pierwszego zestawu uzupełniającego wersji T.51 z 1988 r., ale koliduje z aktualne wydanie T.51 w niektórych pozycjach. Kody diakrytyczne w wersji ETS są określone jako "do skojarzenia" z używanymi znakami G0 , takimi jak US-ASCII lub BS_viewdata . Ta wersja jest pokazana na poniższym wykresie.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _MI | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_/A_ |
SP 00A0 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
0024 zł |
¥ 00A5 |
# 0023 |
§ 00A7 |
¤ 00A4 |
' 2018 |
“ 201C |
« 00AB |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
3_/B_ |
° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
μ 00B5 |
¶ 00B6 |
· 00B7 |
÷ 00F7 |
' 2019 |
” 201D |
» 00BB |
¼ 00BC |
½ 00BD |
¾ 00BE |
¿ 00BF |
4_/C_ |
0300 |
0301 |
0302 |
0303 |
̄ 0304 |
̆ 0306 |
̇ 0307 |
̈ 0308 |
̣̣ 0323 |
̊ 030A |
̧ 0327 |
0332 |
̋ 030B |
̨ 0328 |
̌ 030C |
|
5_/D_ |
― 2015 |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
₠ 20A0 |
‰ 2030 |
α 03B1 |
215 mld |
⅜ 215C |
⅝ 215D |
⅞ 215E |
|||
6_/E_ |
Ω 2126 |
Æ 00C6 |
Đ / Ð 0110/00D0 |
ª 00AA |
Ħ 0126 |
IJ 0132 |
Ŀ 013F |
0141 Ł |
Ø 00D8 |
Œ 0152 |
º 00BA |
Þ 00DE |
Ŧ 0166 |
Ŋ 014A |
ʼn 0149 |
|
7_/P_ |
ĸ 0138 |
æ 00E6 |
đ 0111 |
ð 00F0 |
ħ 0127 |
ı 0131 |
ij 0133 |
ŀ 0140 |
ł 0142 |
ø 00F8 |
– 0153 |
ß 00DF |
þ 00FE |
ŧ 0167 |
ŋ 014B |
■ 25A0 |
List Numer Interpunkcja Symbol Inne Nieokreślony Różnice w stosunku do T.51
Zobacz też
Przypisy
Bibliografia
Zewnętrzne linki
- Zalecenie ITU T.51
- Strony ISO: ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Add 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001
- WD 6937, Kodowany zestaw znaków graficznych do komunikacji tekstowej - alfabet łaciński (wersja ISO/IEC 6937:1994) (wersja robocza ISO/IEC 6937:1994)
- ISO-IR-156 ( rejestracja ISO-IR części prawej)