T.51/ISO/IEC 6937 - T.51/ISO/IEC 6937

T.51
Zestawy znaków kodowanych na podstawie alfabetu łacińskiego dla usług telematycznych
Status	Obowiązujący
Rok rozpoczęty	1984
Ostatnia wersja	(09/92) ; wrzesień 1992
Organizacja	ITU-T
Komisja	Grupa badawcza VIII
Powiązane standardy	T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022
Domena	kodowanie
Licencja	Łatwo dostępny
Strona internetowa	https://www.itu.int/rec/T-REC-T.51

T.51 / ISO/IEC 6937:2001 , Informatyka — Zakodowany zestaw znaków graficznych do komunikacji tekstowej — Alfabet łaciński , jest wielobajtowym rozszerzeniem ASCII , a raczej ISO/IEC 646 -IRV. Został opracowany wspólnie z ITU-T (wtedy CCITT ) dla usług telematycznych pod nazwą T.51 i po raz pierwszy stał się standardem ISO w 1983 roku. Niektóre kody bajtowe są używane jako bajty wiodące dla liter ze znakami diakrytycznymi ( akcentami ). Wartość bajtu wiodącego często wskazuje, który znak diakrytyczny ma dana litera, a kolejny bajt ma wtedy wartość ASCII dla litery, na której znajduje się znak diakrytyczny.

Architektami ISO/IEC 6937 byli Hugh McGregor Ross , Peter Fenwick, Bernard Marti i Loek Zeckendorf .

ISO6937/2 definiuje 327 znaków występujących we współczesnych językach europejskich przy użyciu alfabetu łacińskiego . Znaki europejskie inne niż łacińskie, takie jak cyrylica i grecki , nie są uwzględniane w standardzie. Ponadto niektóre znaki diakrytyczne używane z alfabetem łacińskim, takie jak przecinek rumuński, nie są uwzględniane, zamiast tego używa się cedilli, ponieważ nie dokonano wówczas rozróżnienia między cedillą a przecinkiem poniżej.

IANA zarejestrowała nazwy zestawów znaków ISO_6937-2-25 i ISO_6937-2-add dla dwóch (starszych) wersji tego standardu (plus kody kontrolne). Ale w praktyce to kodowanie znaków nie jest używane w Internecie.

Znaki jednobajtowe

Podstawowym zestaw (pierwsza połowa) pierwotnie zastosowaną ISO 646-IRV zanim z ISO / IEC 646: 1991 rewizji, to znaczy przede wszystkim następujące ASCII , ale z charakterem 0x24 nadal oznaczone jako „ międzynarodowy znak waluty ” (¤) zamiast znaku dolara ($). Wydanie ITU T.51 z 1992 r. zezwala istniejącym usługom CCITT na dalsze interpretowanie 0x24 jako międzynarodowego znaku waluty, ale przewiduje, że nowe aplikacje telekomunikacyjne powinny używać go jako znaku dolara (tj. zgodnie z obecną normą ISO 646-IRV), a zamiast tego reprezentować międzynarodowy znak waluty za pomocą zestawu uzupełniającego.

Zestaw uzupełniający (druga połowa) zawiera wybór odstępów i nie odstępów znaków graficznych, dodatkowe symbole oraz niektóre miejsca zarezerwowane dla przyszłej normalizacji.

Oba są zestawami znaków graficznych ISO/IEC 2022 , przy czym zestaw podstawowy to zestaw 94 kodów, a zestaw dodatkowy to zestaw 96 kodów. W kontekstach, w których techniki rozszerzania kodu ISO 2022 nie są używane, zbiór podstawowy jest oznaczony jako zbiór G0 i wywoływany przez GL ( 0x 20..0x7F), podczas gdy zbiór uzupełniający jest oznaczony jako zbiór G2 i wywoływany przez GR (0xA0 ..0xFF) w środowisku 8-bitowym lub przy użyciu kodu sterującego 0x19 jako pojedynczej zmiany w środowisku 7-bitowym. To kodowanie kodu Single Shift Two odpowiada jego lokalizacji w ISO-IR- 106.

Sekwencja ucieczki ISO/IEC 2022 oznaczająca zestaw uzupełniający normy ISO/IEC 6937 jako zestaw G2 ESC . R(hex 1B 2E 52). Starszy zestaw uzupełniający ISO 6937/2:1983 jest zarejestrowany jako zestaw kodów 94 i oznaczony jako G2 za pomocą ESC * l(hex 1B 2A 6C).

Znaki dwubajtowe

Litery akcentowane, którym nie przydzielono pojedynczych kodów w zestawie podstawowym lub dodatkowym, są kodowane przy użyciu dwóch bajtów. Po pierwszym bajcie, „znaku diakrytycznym bez odstępów”, następuje litera z zestawu bazowego, np.:

small e with acute accent (é) = [Acute]+e

Standard ITU T.51 przydziela kolumnę 4 zestawu uzupełniającego (tj. 0x C0–CF, gdy jest używana w formacie 8-bitowym) na nierozdzielające znaki diakrytyczne. Jednak ISO/IEC 6937 definiuje w pełni określony repertuar znaków, mapując listę sekwencji kompozycji do nazw znaków ISO/IEC 10646 . Wyizolowane bajty bez odstępów nie są zawarte w tym repertuarze, chociaż uwzględniane są warianty odstępów znaków diakrytycznych, które nie występują w ASCII, przy czym spacja ASCII jest bajtem śladu. Dlatego tylko niektóre kombinacje bajtu wiodącego i bajtu następującego są zgodne ze standardem ISO/IEC.

Repertuar ten jest również dołączony do wersji ITU specyfikacji jako załącznik A, chociaż wersja ITU nie odwołuje się do niego w tekście głównym. Jest opisany jako „zunifikowany nadzbiór” repertuarów znaków pisma łacińskiego. Odpowiada repertuarowi normy ISO/IEC 10367, gdy używane są zestawy ASCII, Latin-1 (lub Latin-5 ), Latin-2 i uzupełniające zestawy łacińskie .

System ten różni się również od systemu znaków łączących Unicode tym, że kod diakrytyczny poprzedza literę (w przeciwieństwie do następującej po niej), czyniąc go bardziej podobnym do ANSEL .

Trochę anomalią jest to, że łacińska mała litera G z Cedillą jest zakodowana tak, jakby była z akcentem ostrym, czyli z bajtem wiodącym 0xC2, ponieważ ze względu na jego potomek zakłócający cedillę, mała litera jest zwykle z przecinkiem powyżej : ģ .

W sumie 13 znaków diakrytycznych może następować po wybranych znakach z zestawu podstawowego:

Akcent	Kod	Druga postać	Wynik
Mogiła	0xC1	AEIOUaeiou	ÀÈÌÒÙàèìò
Ostry	0xC2	ACEILNORSUYZacegilnorsuyz	ÁĆÉÍŃÓŔŚÚÝŹáćéģíĺńóŕśúýź
Circumflexus	0xC3	ACEGHIJOSUWYaceghijosuwy	ĈÊĜĤÎĴÔĜĤÎĴÔĜĤÎĴÔâĉêĝĥîĵôŝûŵŷ
Tylda	0xC4	AINOUainou	ĨÑÕŨãĩñõũ
Macron	0xC5	AEIOUaeiou	āēiōū
Breve	0xC6	AGUagu	ĂĞŬăğŭ
Kropka	0xC7	CEGIZcegz	ĖĠİŻċėġż
Umlaut lub dieresis	0xC8	AEIOUYaeiouy	ĘËÏÖÜŸäëïöüÿ

Dzwonić	0xCA	Au au	Au au
Cedilla	0xCB	CGKLNRSTcklnrst	çķļņŗşţ

Podwójne Ostre	0xCD	OUou	ŐŰőű
Ogonek	0xCE	AEIUaeiu	ĄĘĘĘĘ
Caron	0xCF	CDELNRSTZcdelnrstz	ČĎĚĽŇŘŠŤŽčďěľňřšťž

Układ strony kodowej

Odniesienie do łączenia znaków z zakresu U+0300—U+036F dla kodów z zakresu 0xC1—0xCF poniżej podlega wyżej wymienionym zastrzeżeniom; nie można ich po prostu zmapować do wymienionych punktów kodowych. Ponadto Unicode rozróżnia 0xE2 na D z udarem i wielkimi literami Eth , które zwykle wyglądają inaczej dla małych liter (0xF2 i 0xF3).

Starsze wydanie ITU T.51 z 1988 roku określało dwie wersje zestawu uzupełniającego, przy czym w pierwszej wersji brakowało spacji nierozdzielającej , łącznika miękkiego , znaku ( ¬ ) i łamanego kreski ( ¦ ) obecnych w wersji drugiej. Pierwsza wersja została określona jako rozszerzenie zestawu uzupełniającego T.61 , a druga wersja jako rozszerzenie wersji pierwszej. Obecne (1992) wydanie zawiera tylko drugą wersję, wycofuje niektóre znaki i aktualizuje podstawowy zestaw do aktualnego ISO-646-IRV ( ASCII ), chociaż istniejące usługi telematyczne mogą zachować starsze zachowanie.

ISO/IEC 6937 lub ITU T.51 (łac.)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
0_
1_
2_	SP 0020	! 0021	„ 0022	# 0023	$ / ¤ 0024/00A4	% 0025	& 0026	' 0027	( 0028	) 0029	* 002A	+ 002B	, 002C	- 002D	. 002E	/ 002F
3_	0 0030	1 0031	2 0032	3 0033	4 0034	5 0035	6 0036	7 0037	8 0038	9 0039	: 003A	; 003B	< 003C	= 003D	> 003E	? 003F
4_	@ 0040	0041	B 0042	C 0043	D 0044	E 0045	F 0046	G 0047	H 0048	I 0049	J 004A	K 004B	L 004C	M 004D	N 004E	O 004F
5_	P 0050	P 0051	R 0052	S 0053	T 0054	U 0055	V 0056	W 0057	X 0058	Tak 0059	Z 005A	[ 005B	\ 005C	] 005D	^ 005E	_ 005F
6_	` 0060	0061	b 0062	c 0063	d 0064	e 0065	f 0066	g 0067	h 0068	I 0069	j 006A	k 006B	L 006C	m 006D	n 006E	o 006F
7_	p 0070	q 0071	R 0072	s 0073	t 0.074	U 0075	v 0076	w 0077	x 0078	y 0079	z 007A	{ 007B	\| 007C	} 007D	~ 007E
8_
9_
A_	NBSP 00A0	¡ 00A1	¢ 00A2	£ 00A3	0024 zł	¥ 00A5	# 0023	§ 00A7	¤ 00A4	' 2018	“ 201C	« 00AB	← 2190	↑ 2191	→ 2192	↓ 2193
B_	° 00B0	± 00B1	² 00B2	³ 00B3	× 00D7	μ 00B5	¶ 00B6	· 00B7	÷ 00F7	' 2019	” 201D	» 00BB	¼ 00BC	½ 00BD	¾ 00BE	¿ 00BF
C_		0300	0301	0302	0303	̄ 0304	̆ 0306	̇ 0307	̈ 0308		̊ 030A	̧ 0327	0332	̋ 030B	̨ 0328	̌ 030C
D_	― 2015	¹ 00B9	® 00AE	© 00A9	™ 2122	♪ 266A	¬ 00AC	¦ 00A6					215 mld	⅜ 215C	⅝ 215D	⅞ 215E
MI_	Ω 2126	Æ 00C6	Đ / Ð 0110/00D0	ª 00AA	Ħ 0126		Ĳ 0132	Ŀ 013F	0141 Ł	Ø 00D8	Œ 0152	º 00BA	Þ 00DE	Ŧ 0166	Ŋ 014A	ŉ 0149
F_	ĸ 0138	æ 00E6	đ 0111	ð 00F0	ħ 0127	ı 0131	ĳ 0133	ŀ 0140	ł 0142	ø 00F8	– 0153	ß 00DF	þ 00FE	ŧ 0167	ŋ 014B	NIEŚMIAŁA 00AD

List Numer Interpunkcja Symbol Inne Nieokreślony Różnice w stosunku do T.61

Wersja Videotex

Wersje zestawu uzupełniającego używane przez standard ITU T.101 dla Videotex są oparte na pierwszym zestawie uzupełniającym wydania T.51 z 1988 roku.

Domyślny zestaw G2 Danych Syntax 2 dodaje się 0xC0, na połączeniu z kodami od A greckiego podstawowym zestawie.

Zestaw uzupełniający dla składni danych 3 dodaje znaki nierozdzielające dla nadkreślenia i solidusu oraz kilka znaków semigraficznych .

Wersja ETS 300 706

Standard ETS 300 706 dla Teletekstu Systemu Światowego opiera swój zestaw G2 na ISO 6937. Jest to nadzbiór zestawu dodatkowego T.61 i nadzbiór pierwszego zestawu uzupełniającego wersji T.51 z 1988 r., ale koliduje z aktualne wydanie T.51 w niektórych pozycjach. Kody diakrytyczne w wersji ETS są określone jako "do skojarzenia" z używanymi znakami G0 , takimi jak US-ASCII lub BS_viewdata . Ta wersja jest pokazana na poniższym wykresie.

Teletekst systemu światowego, zestaw Latin G2 (ETS 300 706:1997)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_/A_	SP 00A0	¡ 00A1	¢ 00A2	£ 00A3	0024 zł	¥ 00A5	# 0023	§ 00A7	¤ 00A4	' 2018	“ 201C	« 00AB	← 2190	↑ 2191	→ 2192	↓ 2193
3_/B_	° 00B0	± 00B1	² 00B2	³ 00B3	× 00D7	μ 00B5	¶ 00B6	· 00B7	÷ 00F7	' 2019	” 201D	» 00BB	¼ 00BC	½ 00BD	¾ 00BE	¿ 00BF
4_/C_		0300	0301	0302	0303	̄ 0304	̆ 0306	̇ 0307	̈ 0308	̣̣ 0323	̊ 030A	̧ 0327	0332	̋ 030B	̨ 0328	̌ 030C
5_/D_	― 2015	¹ 00B9	® 00AE	© 00A9	™ 2122	♪ 266A	₠ 20A0	‰ 2030	α 03B1				215 mld	⅜ 215C	⅝ 215D	⅞ 215E
6_/E_	Ω 2126	Æ 00C6	Đ / Ð 0110/00D0	ª 00AA	Ħ 0126		Ĳ 0132	Ŀ 013F	0141 Ł	Ø 00D8	Œ 0152	º 00BA	Þ 00DE	Ŧ 0166	Ŋ 014A	ŉ 0149
7_/P_	ĸ 0138	æ 00E6	đ 0111	ð 00F0	ħ 0127	ı 0131	ĳ 0133	ŀ 0140	ł 0142	ø 00F8	– 0153	ß 00DF	þ 00FE	ŧ 0167	ŋ 014B	■ 25A0

List Numer Interpunkcja Symbol Inne Nieokreślony Różnice w stosunku do T.51

Zobacz też

ITU T.50
ITU T.61 , ściśle powiązane kodowanie znaków do użytku Teletex

Przypisy

Bibliografia

Zewnętrzne linki

Zalecenie ITU T.51
Strony ISO: ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Add 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001
WD 6937, Kodowany zestaw znaków graficznych do komunikacji tekstowej - alfabet łaciński (wersja ISO/IEC 6937:1994) (wersja robocza ISO/IEC 6937:1994)
ISO-IR-156 ( rejestracja ISO-IR części prawej)

Languages

In other projects