T.51/ISO/IEC 6937 - T.51/ISO/IEC 6937

T.51
Zestawy znaków kodowanych na podstawie alfabetu łacińskiego dla usług telematycznych
Status Obowiązujący
Rok rozpoczęty 1984
Ostatnia wersja (09/92)
wrzesień 1992
Organizacja ITU-T
Komisja Grupa badawcza VIII
Powiązane standardy T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022
Domena kodowanie
Licencja Łatwo dostępny
Strona internetowa https://www.itu.int/rec/T-REC-T.51

T.51 / ISO/IEC 6937:2001 , Informatyka — Zakodowany zestaw znaków graficznych do komunikacji tekstowej — Alfabet łaciński , jest wielobajtowym rozszerzeniem ASCII , a raczej ISO/IEC 646 -IRV. Został opracowany wspólnie z ITU-T (wtedy CCITT ) dla usług telematycznych pod nazwą T.51 i po raz pierwszy stał się standardem ISO w 1983 roku. Niektóre kody bajtowe są używane jako bajty wiodące dla liter ze znakami diakrytycznymi ( akcentami ). Wartość bajtu wiodącego często wskazuje, który znak diakrytyczny ma dana litera, a kolejny bajt ma wtedy wartość ASCII dla litery, na której znajduje się znak diakrytyczny.

Architektami ISO/IEC 6937 byli Hugh McGregor Ross , Peter Fenwick, Bernard Marti i Loek Zeckendorf .

ISO6937/2 definiuje 327 znaków występujących we współczesnych językach europejskich przy użyciu alfabetu łacińskiego . Znaki europejskie inne niż łacińskie, takie jak cyrylica i grecki , nie są uwzględniane w standardzie. Ponadto niektóre znaki diakrytyczne używane z alfabetem łacińskim, takie jak przecinek rumuński, nie są uwzględniane, zamiast tego używa się cedilli, ponieważ nie dokonano wówczas rozróżnienia między cedillą a przecinkiem poniżej.

IANA zarejestrowała nazwy zestawów znaków ISO_6937-2-25 i ISO_6937-2-add dla dwóch (starszych) wersji tego standardu (plus kody kontrolne). Ale w praktyce to kodowanie znaków nie jest używane w Internecie.

Znaki jednobajtowe

Podstawowym zestaw (pierwsza połowa) pierwotnie zastosowaną ISO 646-IRV zanim z ISO / IEC 646: 1991 rewizji, to znaczy przede wszystkim następujące ASCII , ale z charakterem 0x24 nadal oznaczone jako „ międzynarodowy znak waluty ” (¤) zamiast znaku dolara ($). Wydanie ITU T.51 z 1992 r. zezwala istniejącym usługom CCITT na dalsze interpretowanie 0x24 jako międzynarodowego znaku waluty, ale przewiduje, że nowe aplikacje telekomunikacyjne powinny używać go jako znaku dolara (tj. zgodnie z obecną normą ISO 646-IRV), a zamiast tego reprezentować międzynarodowy znak waluty za pomocą zestawu uzupełniającego.

Zestaw uzupełniający (druga połowa) zawiera wybór odstępów i nie odstępów znaków graficznych, dodatkowe symbole oraz niektóre miejsca zarezerwowane dla przyszłej normalizacji.

Oba są zestawami znaków graficznych ISO/IEC 2022 , przy czym zestaw podstawowy to zestaw 94 kodów, a zestaw dodatkowy to zestaw 96 kodów. W kontekstach, w których techniki rozszerzania kodu ISO 2022 nie są używane, zbiór podstawowy jest oznaczony jako zbiór G0 i wywoływany przez GL ( 0x 20..0x7F), podczas gdy zbiór uzupełniający jest oznaczony jako zbiór G2 i wywoływany przez GR (0xA0 ..0xFF) w środowisku 8-bitowym lub przy użyciu kodu sterującego 0x19 jako pojedynczej zmiany w środowisku 7-bitowym. To kodowanie kodu Single Shift Two odpowiada jego lokalizacji w ISO-IR- 106.

Sekwencja ucieczki ISO/IEC 2022 oznaczająca zestaw uzupełniający normy ISO/IEC 6937 jako zestaw G2 ESC . R(hex 1B 2E 52). Starszy zestaw uzupełniający ISO 6937/2:1983 jest zarejestrowany jako zestaw kodów 94 i oznaczony jako G2 za pomocą ESC * l(hex 1B 2A 6C).

Znaki dwubajtowe

Litery akcentowane, którym nie przydzielono pojedynczych kodów w zestawie podstawowym lub dodatkowym, są kodowane przy użyciu dwóch bajtów. Po pierwszym bajcie, „znaku diakrytycznym bez odstępów”, następuje litera z zestawu bazowego, np.:

small e with acute accent (é) = [Acute]+e

Standard ITU T.51 przydziela kolumnę 4 zestawu uzupełniającego (tj. 0x C0–CF, gdy jest używana w formacie 8-bitowym) na nierozdzielające znaki diakrytyczne. Jednak ISO/IEC 6937 definiuje w pełni określony repertuar znaków, mapując listę sekwencji kompozycji do nazw znaków ISO/IEC 10646 . Wyizolowane bajty bez odstępów nie są zawarte w tym repertuarze, chociaż uwzględniane są warianty odstępów znaków diakrytycznych, które nie występują w ASCII, przy czym spacja ASCII jest bajtem śladu. Dlatego tylko niektóre kombinacje bajtu wiodącego i bajtu następującego są zgodne ze standardem ISO/IEC.

Repertuar ten jest również dołączony do wersji ITU specyfikacji jako załącznik A, chociaż wersja ITU nie odwołuje się do niego w tekście głównym. Jest opisany jako „zunifikowany nadzbiór” repertuarów znaków pisma łacińskiego. Odpowiada repertuarowi normy ISO/IEC 10367, gdy używane są zestawy ASCII, Latin-1 (lub Latin-5 ), Latin-2 i uzupełniające zestawy łacińskie .

System ten różni się również od systemu znaków łączących Unicode tym, że kod diakrytyczny poprzedza literę (w przeciwieństwie do następującej po niej), czyniąc go bardziej podobnym do ANSEL .

Trochę anomalią jest to, że łacińska mała litera G z Cedillą jest zakodowana tak, jakby była z akcentem ostrym, czyli z bajtem wiodącym 0xC2, ponieważ ze względu na jego potomek zakłócający cedillę, mała litera jest zwykle z przecinkiem powyżej : ģ .

W sumie 13 znaków diakrytycznych może następować po wybranych znakach z zestawu podstawowego:

Akcent Kod Druga postać Wynik
Mogiła 0xC1 AEIOUaeiou ÀÈÌÒÙàèìò
Ostry 0xC2 ACEILNORSUYZacegilnorsuyz ÁĆÉÍŃÓŔŚÚÝŹáćéģíĺńóŕśúýź
Circumflexus 0xC3 ACEGHIJOSUWYaceghijosuwy ĈÊĜĤÎĴÔĜĤÎĴÔĜĤÎĴÔâĉêĝĥîĵôŝûŵŷ
Tylda 0xC4 AINOUainou ĨÑÕŨãĩñõũ
Macron 0xC5 AEIOUaeiou āēiōū
Breve 0xC6 AGUagu ĂĞŬăğŭ
Kropka 0xC7 CEGIZcegz ĖĠİŻċėġż
Umlaut lub dieresis 0xC8 AEIOUYaeiouy ĘËÏÖÜŸäëïöüÿ
Dzwonić 0xCA Au au Au au
Cedilla 0xCB CGKLNRSTcklnrst çķļņŗşţ
Podwójne Ostre 0xCD OUou ŐŰőű
Ogonek 0xCE AEIUaeiu ĄĘĘĘĘ
Caron 0xCF CDELNRSTZcdelnrstz ČĎĚĽŇŘŠŤŽčďěľňřšťž

Układ strony kodowej

Odniesienie do łączenia znaków z zakresu U+0300—U+036F dla kodów z zakresu 0xC1—0xCF poniżej podlega wyżej wymienionym zastrzeżeniom; nie można ich po prostu zmapować do wymienionych punktów kodowych. Ponadto Unicode rozróżnia 0xE2 na D z udarem i wielkimi literami Eth , które zwykle wyglądają inaczej dla małych liter (0xF2 i 0xF3).

Starsze wydanie ITU T.51 z 1988 roku określało dwie wersje zestawu uzupełniającego, przy czym w pierwszej wersji brakowało spacji nierozdzielającej , łącznika miękkiego , znaku ( ¬ ) i łamanego kreski ( ¦ ) obecnych w wersji drugiej. Pierwsza wersja została określona jako rozszerzenie zestawu uzupełniającego T.61 , a druga wersja jako rozszerzenie wersji pierwszej. Obecne (1992) wydanie zawiera tylko drugą wersję, wycofuje niektóre znaki i aktualizuje podstawowy zestaw do aktualnego ISO-646-IRV ( ASCII ), chociaż istniejące usługi telematyczne mogą zachować starsze zachowanie.

ISO/IEC 6937 lub ITU T.51 (łac.)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _MI _F
0_
1_
2_ SP
0020
!
0021

0022
#
0023
$ / ¤
0024/00A4
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_ 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_ @
0040

0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_ P
0050
P
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Tak
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_ `
0060

0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
I
0069
j
006A
k
006B
L
006C
m
006D
n
006E
o
006F
7_ p
0070
q
0071
R
0072
s
0073
t
0.074
U
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
9_
A_ NBSP
00A0
¡
00A1
¢
00A2
£
00A3
0024
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018

201C
«
00AB

2190

2191

2192

2193
B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
μ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼
00BC
½
00BD
¾
00BE
¿
00BF
C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
D_
2015
¹
00B9
®
00AE
©
00A9

2122

266A
¬
00AC
¦
00A6
215
mld

215C

215D

215E
MI_ Ω
2126
Æ
00C6
Đ / Ð
0110/00D0
ª
00AA
Ħ
0126
IJ
0132
Ŀ
013F
0141 Ł
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
F_ ĸ
0138
æ
00E6
đ
0111
ð
00F0
ħ
0127
ı
0131
ij
0133
ŀ
0140
ł
0142
ø
00F8

0153
ß
00DF
þ
00FE
ŧ
0167
ŋ
014B
NIEŚMIAŁA
00AD

  List  Numer  Interpunkcja  Symbol  Inne  Nieokreślony  Różnice w stosunku do T.61

Wersja Videotex

Wersje zestawu uzupełniającego używane przez standard ITU T.101 dla Videotex są oparte na pierwszym zestawie uzupełniającym wydania T.51 z 1988 roku.

Domyślny zestaw G2 Danych Syntax 2 dodaje się 0xC0, na połączeniu z kodami od A greckiego podstawowym zestawie.

Zestaw uzupełniający dla składni danych 3 dodaje znaki nierozdzielające dla nadkreślenia i solidusu oraz kilka znaków semigraficznych .

Wersja ETS 300 706

Standard ETS 300 706 dla Teletekstu Systemu Światowego opiera swój zestaw G2 na ISO 6937. Jest to nadzbiór zestawu dodatkowego T.61 i nadzbiór pierwszego zestawu uzupełniającego wersji T.51 z 1988 r., ale koliduje z aktualne wydanie T.51 w niektórych pozycjach. Kody diakrytyczne w wersji ETS są określone jako "do skojarzenia" z używanymi znakami G0 , takimi jak US-ASCII lub BS_viewdata . Ta wersja jest pokazana na poniższym wykresie.

Teletekst systemu światowego, zestaw Latin G2 (ETS 300 706:1997)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _MI _F
2_/A_ SP
00A0
¡
00A1
¢
00A2
£
00A3
0024
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018

201C
«
00AB

2190

2191

2192

2193
3_/B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
μ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼
00BC
½
00BD
¾
00BE
¿
00BF
4_/C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̣̣
0323
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
5_/D_
2015
¹
00B9
®
00AE
©
00A9

2122

266A

20A0

2030
α
03B1
215
mld

215C

215D

215E
6_/E_ Ω
2126
Æ
00C6
Đ / Ð
0110/00D0
ª
00AA
Ħ
0126
IJ
0132
Ŀ
013F
0141 Ł
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
7_/P_ ĸ
0138
æ
00E6
đ
0111
ð
00F0
ħ
0127
ı
0131
ij
0133
ŀ
0140
ł
0142
ø
00F8

0153
ß
00DF
þ
00FE
ŧ
0167
ŋ
014B

25A0

  List  Numer  Interpunkcja  Symbol  Inne  Nieokreślony  Różnice w stosunku do T.51

Zobacz też

Przypisy

Bibliografia

Zewnętrzne linki