Właściwość znaku Unicode - Unicode character property

Standard Unicode przypisuje różne właściwości do każdego znaku Unicode i punkt kodowy .

Właściwości mogą służyć do obsługi znaków (punktów kodu) w procesach, takich jak łamanie wierszy, kierunek skryptu od prawej do lewej lub stosowanie kontrolek. Niektóre „właściwości znaków” są również zdefiniowane dla punktów kodowych, które nie mają przypisanego znaku, oraz punktów kodowych, które są oznaczone etykietą „<nie jest znakiem>”. Właściwości postaci są opisane w Standardowym Aneksie #44.

Właściwości mają poziomy siły: normatywne, informacyjne, składkowe lub tymczasowe. Dla uproszczenia specyfikacji właściwość znaku można przypisać, określając ciągły zakres punktów kodowych, które mają tę samą właściwość.

Elementy semantyczne

Właściwości są wyświetlane w następującej kolejności:

[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
  • 'alias' = poprawiona nazwa
  • „bc” = bidi (dwukierunkowy) kategoria [L, R itd.]
  • 'bm' = bidi lustrzane [N lub Y]
  • 'cc' = klasa łącząca [pozycja znaku diakrytycznego]
  • dekompozycja = litera + znak diakrytyczny, ligatura XY, indeks górny X, czcionka X, początkowy X, środkowy X, końcowy X, izolowany X, pionowy X itp.
  • „gc” = kategoria ogólna [litera, symbol, cyfra, interpunkcja, zachowanie wielkości liter itp.]
  • 'nv' = wartość liczbowa [cyfry]

Nazwa

Znak Unicode ma przypisaną unikalną nazwę (na). Nazwa składa się z wielkich liter A–Z, cyfr 0–9, - (łącznik-minus) i <spacja>. Niektóre sekwencje są wykluczone: nazwy zaczynające się spacją lub łącznikiem, nazwy kończące się spacją lub łącznikiem, powtarzające się spacje lub łączniki oraz spacja po łączniku są niedozwolone. Gwarantuje się, że nazwa jest unikatowa w ramach Unicode i może służyć do identyfikacji punktu kodowego i jego charakteru. Postacie ideograficzne, których jest kilkadziesiąt tysięcy, nazywane są wzorem „ cjk ujednolicony ideogramhhhh ”. Na przykład U+4E00 CJK UNIFIED IDEOGRAPH-4E00 . Nazywa się również znaki formatujące: U+00A0 NO-BREAK SPACE .  

Następujące klasy punktu kodowego nie mają nazwy (na = ""): formanty (kategoria ogólna: Cc), do użytku prywatnego (Co), surogat (Cs), bez znaków (Cn) i zarezerwowane (Cn). Mogą się do nich odwoływać, nieformalnie, przez ogólną lub konkretną meta-nazwę, zwaną „Etykietami punktów kodowych”: <kontrola>, <kontrola-0088>, <zarezerwowane>, <nieznakowe- hhhh >, <prywatne- hhhh > , <surogat>. Ponieważ te etykiety zawierają nawiasy <>, nigdy nie mogą pojawić się jako Nazwa, co zapobiega pomyłkom.

Nazwy wersji 1.0

W wersji 2.0 Unicode zmieniono wiele nazw. Od tego czasu weszła w życie zasada „nazwisko nigdy się nie zmieni”, obejmująca ścisłe (normatywne) używanie aliasów. Nieużywane nazwy wersji 1.0 zostały przeniesione do właściwości Alias, aby zapewnić pewną wsteczną zgodność.

Alias ​​nazwy postaci

Począwszy od wersji 2.0 Unicode, opublikowana nazwa punktu kodowego nigdy się nie zmieni. Dlatego w przypadku błędnej pisowni nazwy postaci lub jeśli nazwa postaci jest całkowicie niewłaściwa lub poważnie myląca, formalny alias nazwy postaci może zostać przypisany do postaci, a alias ten może być używany przez aplikacje zamiast rzeczywistej wadliwej nazwy postaci. . Na przykład U+FE18 FORMULARZ PREZENTACJI DLA PIONOWEGO PRAWEGO WHITE LENTICULAR BRAKCET ma nazwę postaci alias „FORMA PREZENTACJI DLA PIONOWEGO PRAWEGO WHITE LENTICULAR BRAKCET” w celu złagodzenia błędu pisowni „nawiasu” jako „brakcet” w rzeczywistej nazwie postaci; U+A015 YI SYLLABLE WU ma alias nazwy postaci „YI SYLLABLE ITERATION MARK”, ponieważ w przeciwieństwie do nazwy postaci nie ma ustalonej wartości sylabicznej.

Oprócz aliasów nazw postaci, które są poprawkami wadliwych imion postaci, niektórym postaciom przypisuje się aliasy, które są alternatywnymi nazwami lub skrótami. W standardzie Unicode zdefiniowano pięć typów aliasów nazw znaków:

  • Korekta: poprawki dotyczące błędnie napisanych lub poważnie niepoprawnych nazw postaci;
  • Sterowanie: Nazwy ISO 6429 dla funkcji sterujących C0 i C1 (które nie mają przypisanych nazw znaków w standardzie Unicode);
  • Alternatywne: alternatywne nazwy dla niektórych znaków formatu (tylko U+FEFF "ZERO WIDTH NO-BREAK SPACE", który ma alias "BYTE ORDER MARK");
  • Rysunek: Udokumentowane etykiety dla niektórych funkcji kodu sterującego C1, które nie są rzeczywistymi nazwami w żadnym standardzie;
  • Skrót: skróty lub akronimy kodów sterujących, znaków formatu, spacji i selektorów odmian.

Wszystkie formalne aliasy nazw znaków są zgodne z regułami dozwolonych nazw znaków i gwarantują, że są unikatowe zarówno w aliasach nazw postaci, jak i przestrzeni nazw postaci (z tego powodu nazwa ISO 6429 „BELL” nie jest zdefiniowana jako alias dla U +0007, ponieważ U+1F514 nosi nazwę „BELL”).

Od wersji Unicode 12.1, dwadzieścia osiem formalnych aliasów nazw znaków jest zdefiniowanych jako poprawki dla wadliwych nazw znaków. Są one wymienione poniżej .

Oprócz tych normatywnych nazw, nieformalne nazwy mogą być pokazywane na wykresach kodu Unicode. Są to inne powszechnie używane nazwy znaków i nie muszą być ograniczone do liter A–Z, cyfr 0–9, - (łącznik-minus) i <spacja>. Nie gwarantuje się, że te nieformalne nazwy będą niepowtarzalne i mogą zostać zmienione lub usunięte w późniejszych wersjach standardu.

Kategoria ogólna

Każdy punkt kodowy ma przypisaną wartość dla kategorii ogólnej. Jest to jedna z właściwości znaków, które są również zdefiniowane dla nieprzypisanych punktów kodowych i punktów kodowych, które są zdefiniowane jako "nie znak".

Kategoria ogólna ( właściwość znaku Unicode )
Wartość Kategoria Główne, drobne Typ podstawowy Przypisana postać Liczyć
(od 14.0)
Uwagi
 
L, litera; LC, list w obudowie (tylko Lu, Ll i Lt)
Lu Litera, wielkie litery Graficzny Postać 1,831
NS Litera, małe litery Graficzny Postać 2227
Lt List, tytułowy Graficzny Postać 31 Ligatury zawierające wielkie litery, po których następują małe litery (np. Dž , Lj , Nj i Dz )
Lm List, modyfikator Graficzny Postać 334 Modyfikator list
Lo List, inne Graficzny Postać 127,333 Ideogram lub list w Unicase alfabetu
M, Mark
Mn Znak, bez odstępów Graficzny Postać 1950
Mc Znak, odstępy łączenie Graficzny Postać 445
Ja Znak, załączając Graficzny Postać 13
N, liczba
NS Liczba, cyfra dziesiętna Graficzny Postać 660 Wszystkie te i tylko te mają Typ Numeryczny = De
Nl Cyfra, litera Graficzny Postać 236 Cyfry składające się z liter lub symboli literopodobnych (np. cyfry rzymskie )
Nie Liczba, inne Graficzny Postać 895 Np frakcje wulgarne , górny i dolny cyfry
P, interpunkcja
PC Interpunkcja, łącznik Graficzny Postać 10 Zawiera podkreślenie „_”
Pd Interpunkcja, myślnik Graficzny Postać 26 Zawiera kilka myślnikiem znaków
Ps Interpunkcja, otwarta Graficzny Postać 79 Znaki nawiasu otwierającego
Pe Interpunkcja, zamknij Graficzny Postać 77 Znaki nawiasu zamykającego
Liczba Pi Interpunkcja, początkowy cytat Graficzny Postać 12 Otwarcie cudzysłów . Nie zawiera „neutralnego” cudzysłowu ASCII. Może zachowywać się jak Ps lub Pe w zależności od zastosowania
Pf Interpunkcja, ostatni cytat Graficzny Postać 10 Końcowy cudzysłów. Może zachowywać się jak Ps lub Pe w zależności od zastosowania
Po Interpunkcja, inne Graficzny Postać 605
S, symbol
Sm Symbol, matematyka Graficzny Postać 948 Symbole matematyczne (np. + , , = , × , ÷ , , , ). Nie zawiera nawiasów i nawiasów, które należą do kategorii Ps i Pe. Również nie obejmuje ! , * , - lub / , które pomimo częstego używania jako operatorów matematycznych, są przede wszystkim uważane za „interpunkcyjne”.
Sc Symbol, waluta Graficzny Postać 63 Symbole walut
Sk Symbol, modyfikator Graficzny Postać 125
Więc Symbol, inne Graficzny Postać 6605
Z, separator
Zs Separator, spacja Graficzny Postać 17 Zawiera spację, ale nie TAB , CR ani LF , które są Cc
Złoty Separator, linia Format Postać 1 Tylko SEPARATOR LINII U+2028 (LSEP)
Z p Separator, akapit Format Postać 1 Tylko SEPARATOR AKAPITÓW U+2029 (PSEP)
C, inne
DW Inne, kontrola Kontrola Postać 65 (nigdy się nie zmieni) Bez imienia, <sterowanie>
cf Inne, format Format Postać 163 Zawiera łącznik miękki , łączące znaki sterujące ( zwnj i zwj ), znaki sterujące obsługujące tekst dwukierunkowy oraz znaki znaczników języka
Cs Inne, surogat Surogat Nie (używany tylko w UTF-16 ) 2048 (nigdy się nie zmieni) Bez imienia, <surogat>
Współ Inne, do użytku prywatnego Użytek prywatny Charakter (ale nie określono interpretacji) 137 468 ogółem (nigdy się nie zmieni) ( 6 400 w BMP , 131 068 w samolotach 15-16 ) Brak nazwy, <do użytku prywatnego>
Cn Inne, nieprzypisane Nieznakowy Nie 66 (nigdy się nie zmieni) Bez imienia, <nieznakowy>
Skryty Nie 829 768 Bez imienia, <zarezerwowane>

Interpunkcja

Znaki mają osobne właściwości oznaczające, że są znakami interpunkcyjnymi . Wszystkie właściwości mają wartości Yes/No : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .

Biała przestrzeń

Whitespace to powszechnie stosowana koncepcja efektu typograficznego. Zasadniczo obejmuje niewidoczne znaki, które mają efekt odstępów w renderowanym tekście. Zawiera spacje , tabulatory i nowe elementy sterujące formatowaniem linii. W Unicode taki znak ma ustawioną właściwość "WSpace=yes". W wersji 14.0 istnieje 25 białych znaków.

Nazwa Punkt kodowy Szerokość pudełka Może się zepsuć ? W
IDN ?
Scenariusz Blok
Kategoria ogólna
Uwagi
tablica znaków U+0009 9 tak Nie Pospolity Łacina podstawowa Inne,
kontrola
HT, zakładka pozioma . Nazwana jednostka HTML/XML : &Tab;, LaTeX : '\tab'
wysuw linii U + 000A 10 Czy linia łamania Pospolity Łacina podstawowa Inne,
kontrola
LF, wysuw linii . Nazwana jednostka HTML/XML:&NewLine;
tabela wierszy U + 000 mld 11 Czy linia łamania Pospolity Łacina podstawowa Inne,
kontrola
VT, zakładka pionowa
kanał formularzy U + 000C 12 Czy linia łamania Pospolity Łacina podstawowa Inne,
kontrola
FF, podawanie formularzy
powrót karetki U+000D 13 Czy linia łamania Pospolity Łacina podstawowa Inne,
kontrola
CR, Zwrot karetki
przestrzeń U+0020 32 tak Nie Pospolity Łacina podstawowa Separator,
spacja
Najczęściej (normalna przestrzeń ASCII)
następny wiersz U+0085 133 Czy linia łamania Pospolity
Dodatek Latin-1
Inne,
kontrola
NEL, następna linia
spacja bez przerwy U+00A0 160   Nie Nie Pospolity
Dodatek Latin-1
Separator,
spacja
Przestrzeń niełamliwa : identyczna z U+0020, ale bez punktu, w którym linia może być łamana. Nazwana jednostka HTML/XML: &nbsp;, LaTeX: '\'
znak spacji ogham U+1680 5760 tak Nie Ogham Ogham Separator,
spacja
Używany do międzysłowna separacji w Ogham tekstu. Zwykle pionowa linia w tekście pionowym lub pozioma linia w tekście poziomym, ale może być również pustą przestrzenią w czcionkach „bez stempla”. Wymaga czcionki Ogham.
en quad U+2000 8192   tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Szerokość jednego en . U+2002 jest kanonicznie odpowiednikiem tego znaku; Preferowany jest U+2002.
im quad U+2001 8193 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Znany również jako „kwadrat barani”. Szerokość jednego em . U+2003 jest kanonicznie odpowiednikiem tego znaku; Preferowany jest U+2003.
en space U+2002 8194 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Znany również jako „orzech”. Szerokość jednego en . U + 2000 En Quad jest kanonicznie odpowiednikiem tego znaku; Preferowany jest U+2002. Nazwana jednostka HTML/XML: &ensp;, LaTeX: '\enspace'
ich przestrzeń! U+2003 8195 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Znany również jako „baranina”. Szerokość jednego em . U+2001 Em Quad jest kanonicznie odpowiednikiem tej postaci; Preferowany jest U+2003. Nazwana jednostka HTML/XML: &emsp;, LaTeX: '\quad'
spacja trzy na em U+2004 8196 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Znany również jako „gruba przestrzeń”. Jedna trzecia szerokości em. Nazwana jednostka HTML/XML:&emsp13;
cztery miejsca na em U+2005 8197 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Znany również jako „przestrzeń środkowa”. Jedna czwarta szerokości em. Nazwana jednostka HTML/XML:&emsp14;
przestrzeń sześć na em U+2006 8198 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Jedna szósta szerokości em. W typografii komputerowej czasami utożsamiany z U+2009.
miejsce na figurę U+2007 8199 Nie Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Przestrzeń rysunkowa . W czcionkach z cyframi o stałej szerokości równej szerokości jednej cyfry. Nazwana jednostka HTML/XML:&numsp;
spacja interpunkcyjna U+2008 8200 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Tak szerokie, jak wąska interpunkcja w czcionce, tj. szerokość kropki lub przecinka. Nazwana jednostka HTML/XML:&puncsp;
cienka przestrzeń U+2009 8201 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Cienka przestrzeń ; jedna piąta (czasami jedna szósta) szerokości em. Zalecany do stosowania jako separator tysięcy dla miar wykonanych w jednostkach SI . W przeciwieństwie do U+2002 do U+2008, jego szerokość może zostać dostosowana w składzie. Nazwana jednostka HTML/XML: &thinsp;; LaTeX: '\,'
przestrzeń na włosy U+200A 8202 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Cieńszy niż cienka przestrzeń. Nazwana jednostka HTML/XML: &hairsp;( nie działa we wszystkich przeglądarkach)
separator linii U+2028 8232 Czy linia łamania Pospolity Ogólna
interpunkcja
Separator,
linia
separator akapitów U+2029 8233 Czy linia łamania Pospolity Ogólna
interpunkcja
Separator,
akapit
wąska przestrzeń bez przerw U+202F 8239 Nie Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
Wąska przestrzeń bez przerwy . Podobna funkcja do U+00A0 No-Break Space. W przypadku użycia z mongolskim, jego szerokość wynosi zwykle jedną trzecią normalnej przestrzeni; w innym kontekście jego szerokość czasami przypomina Thin Space (U+2009).
średnia przestrzeń matematyczna U+205F 8287 tak Nie Pospolity Ogólna
interpunkcja
Separator,
spacja
MMSP. Używany we wzorach matematycznych. Cztery osiemnaste em. W typografii matematycznej szerokości odstępów są zwykle podawane w całkowitych wielokrotnościach osiemnastej części em, a 4/18 em może być używany w kilku sytuacjach, na przykład między a i + oraz między + i b w wyrażenie a + b . Nazwana jednostka HTML/XML:&MediumSpace;
przestrzeń ideograficzna U + 3000 12288   tak Nie Pospolity Symbole
i znaki
interpunkcyjne CJK
Separator,
spacja
Tak szeroki jak komórka znakowa CJK ( fullwidth ). Używany na przykład w tai tou .
 Nazwa  Punkt kodowy Szerokość pudełka Może się zepsuć ? W
IDN ?
Scenariusz Blok
Kategoria ogólna
Uwagi
mongolski separator samogłosek U + 180E 6158 tak Nie mongolski mongolski Inne,
Format
MVS. Znak wąskiej spacji, używany w języku mongolskim, który powoduje, że ostatnie dwa znaki słowa przybierają różne kształty. Nie jest już klasyfikowany jako znak spacji (tj. w kategorii Zs) w Unicode 6.3.0, mimo że był w poprzednich wersjach standardu.
przestrzeń o zerowej szerokości U+200B 8203 tak Nie ? Ogólna
interpunkcja
Inne,
Format
ZWSP, spacja o zerowej szerokości . Służy do wskazywania granic słów w systemach przetwarzania tekstu podczas używania skryptów, które nie używają wyraźnych odstępów. Jest on podobny do łącznika miękkiego , z tą różnicą, że ten ostatni służy do wskazywania granic sylab i powinien wyświetlać widoczny łącznik, gdy linia się na nim łamie. Nazwana jednostka HTML/XML :&ZeroWidthSpace;
zerowa szerokość non-joiner U + 200C 8204 tak Kontekst zależny ? Ogólna
interpunkcja
Inne,
Format
ZWNJ, niełączący o zerowej szerokości . Po umieszczeniu między dwoma znakami, które w innym przypadku byłyby połączone, ZWNJ powoduje, że są one drukowane odpowiednio w ich ostatecznej i początkowej formie. Nazwana jednostka HTML/XML:&zwnj;
łącznik o zerowej szerokości U+200D 8205 tak Kontekst zależny ? Ogólna
interpunkcja
Inne,
Format
ZWJ, łącznik o zerowej szerokości . Po umieszczeniu między dwoma znakami, które w przeciwnym razie nie byłyby połączone, ZWJ powoduje ich wydrukowanie w połączonych formach. Może być również używany do wyświetlania formularzy łączących w izolacji. W zależności od tego, czy domyślnie oczekuje się ligatur lub koniunkcji, może albo wywołać (jak w emoji i syngaleskim ) albo powstrzymać (jak w Devanagari ) podstawienie pojedynczym glifem, jednocześnie pozwalając na użycie indywidualnych form łączących (w przeciwieństwie do ZWNJ). Nazwana jednostka HTML/XML:&zwj;
słowo łącznik U+2060 8288 Nie Nie ? Ogólna
interpunkcja
Inne,
Format
WJ, stolarz słowny . Podobny do U+200B, ale bez punktu, w którym linia może zostać przerwana. Nazwana jednostka HTML/XML:&NoBreak;
zerowa szerokość niełamliwa spacja U+FEFF 65279  Nie Nie ? Arabskie formularze
prezentacyjne
-B
Inne,
Format
Spacja nierozdzielająca o zerowej szerokości . Używany głównie jako znacznik kolejności bajtów . Użycie jako wskazania braku złamania jest przestarzałe od Unicode 3.2; zamiast tego patrz U+2060.


Inne ogólne cechy

Ideograficzne, alfabetyczne, nieznakowe.

Łącząc zajęcia

Niektóre popularne kody:

0 = litera odstępu, symbol lub modyfikator (np. a, (, ʰ)
1 = nakładka
6 = odczyt Han (znaki diakrytyczne CJK)
7 = nukta (diakrytyczną nukta w Indyjskie alfabety sylabiczne )
8 = znaki wyrażające kana
9 = virama

10–199 = różne klasy pozycji stałych

Oznaczenia, które dołącza się do litery podstawowej:

200 = dołączony w lewym dolnym rogu
202 = dołączony bezpośrednio poniżej (np. cedilla na ç)
204 = przymocowany w prawym dolnym rogu
208 = dołączony do lewej
210 = przymocowany z prawej strony
212 = przymocowany w lewym górnym rogu
214 = dołączony bezpośrednio powyżej
216 = przymocowany w prawym górnym rogu

Znaki, które nie są dołączane do litery podstawowej:

218 = dolny lewy
220 = bezpośrednio poniżej (np. pierścień na n̥)
222 = poniżej po prawej
224 = lewo
226 = dobrze
228 = powyżej po lewej
230 = powyżej (np. ostry akcent na á)
232 = powyżej po prawej
233 = dwukrotnie poniżej (podlega dwóch zasad)
234 = podwójna powyżej (rozciąga dwie podstawy)
240 = indeks dolny jota (tylko ten grecki znak diakrytyczny)

Właściwości związane z wyświetlaniem

Kształtowanie, szerokość.

Pisanie dwukierunkowe

Sześć właściwości znaków dotyczy zapisu dwukierunkowego: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket i Bidi_Paired_Bracket_Type.

Jedną z głównych funkcji Unicode jest obsługa dwukierunkowego ( Bidi ) wyświetlania tekstu od prawej do lewej (od prawej do lewej) i od lewej do prawej (od lewej do prawej). Algorytm dwukierunkowy Unicode UAX9 opisuje proces prezentacji tekstu ze zmianami kierunków skryptu. Na przykład włącza cytat hebrajski w tekście angielskim. Bidi_Character_Type oznacza zachowanie znaku w pisaniu kierunkowym. Aby przesłonić kierunek, Unicode zdefiniował specjalne znaki sterujące formatowaniem ( Bidi-Control s). Znaki te mogą wymuszać kierunek iz definicji wpływają tylko na pisanie dwukierunkowe.

Każdy punkt kodowy ma właściwość o nazwie Bidi_Class . Definiuje swoje zachowanie w tekście dwukierunkowym zgodnie z interpretacją algorytmu:

Dwukierunkowy typ znaku ( właściwość znaku Unicode Bidi_Class)
Rodzaj Opis Wytrzymałość Kierunkowość Zakres ogólny Bidi_Control znak
L Od lewej do prawej Silny Od lewej do prawej Większość znaków alfabetycznych i sylabicznych, znaki chińskie, cyfry nieeuropejskie lub niearabskie, znaki LRM, ... U+200E ZNAK OD LEWEJ DO PRAWEJ (LRM)
r Od prawej do lewej Silny R-do-L Adlam, hebrajski, mandajski, Mende Kikakui, N'Ko, Samarytanin, starożytne skrypty, takie jak Kharoshthi i Nabataean, postać RLM, ... U+200F ZNAK OD PRAWEJ DO LEWEJ (RLM)
glin Arabska litera Silny R-do-L Alfabety arabski, Hanifi Rohingya, Sogdian, Syryjski i Thaana oraz większość znaków interpunkcyjnych charakterystycznych dla tych skryptów, znak ALM, ... U+061C ZNAK LISTOWY (ALM)
PL Numer europejski Słaby Cyfry europejskie, cyfry wschodnio-arabsko-indyjskie, cyfry koptyjskie, ...
ES Separator europejski Słaby znak plus , minus , ...
ET Europejski Terminator Numerów Słaby znak stopnia , symbole waluty, ...
JAKIŚ Liczba arabska Słaby Cyfry arabsko-indyjskie, arabskie separatory dziesiętne i tysiące, cyfry Rumi, cyfry Hanifi Rohingya, ...
CS Separator wspólnych liczb Słaby dwukropek , przecinek , kropka , przestrzeń bez przerwy ...
NSM Znak bez odstępów Słaby Znaki w kategoriach ogólnych Znak, bez odstępów i Znak, obejmujący (Mn, Me)
BN Granica neutralna Słaby Domyślne elementy ignorowane, niebędące znakami, znaki kontrolne inne niż te, które wyraźnie podano innym typom
b Separator akapitów Neutralny separator akapitów , odpowiednie funkcje Newline, określanie akapitów protokołu wyższego poziomu
S Separator segmentów Neutralny Karty
WS Biała przestrzeń Neutralny spacja , spacja , separator linii , wysuw strony , spacje blokowe znaków interpunkcyjnych (ustawienie mniejsze niż na liście białych znaków Unicode )
NA Inne neutralne Neutralny Wszystkie inne znaki, w tym znak zastępujący obiekt
LRE Osadzanie od lewej do prawej Wyraźny Od lewej do prawej Tylko znak LRE U+202A Osadzanie od lewej do prawej (LRE)
LRO Zastępowanie od lewej do prawej Wyraźny Od lewej do prawej Tylko postać LRO U + 202D NADRZĘDNE OD LEWEJ DO PRAWEJ (LRO)
RLE Osadzanie od prawej do lewej Wyraźny R-do-L Tylko znak RLE Osadzanie U+202B OD PRAWEJ DO LEWEJ (RLE)
RLO Zastępowanie od prawej do lewej Wyraźny R-do-L Tylko znak RLO U+202E OBSŁUGA Z PRAWEJ DO LEWEJ (RLO)
PDF Popowy format kierunkowy Wyraźny Tylko znak PDF FORMATOWANIE KIERUNKOWE POP U+202C (PDF)
LRI Izoluj od lewej do prawej Wyraźny Od lewej do prawej Tylko znak LRI U+2066 IZOLACJA OD LEWEJ DO PRAWEJ (LRI)
RLI Izoluj od prawej do lewej Wyraźny R-do-L Tylko znak RLI U+2067 IZOLACJA OD PRAWEJ DO LEWEJ (RLI)
FSI Pierwszy silny izolat Wyraźny Tylko znak FSI U+2068 PIERWSZY MOCNY IZOLAT (FSI)
PDI Izolowanie kierunkowe pop Wyraźny Tylko znak PDI U+2069 IZOLAT KIERUNKOWY POP (PDI)
Uwagi
1. ^ Algorytm dwukierunkowy Unicode (UAX#9) , od wersji Unicode 12.0
2. ^ Możliwe dwukierunkowe typy znaków dla właściwości znaków: Bidi_Class lub 'type'
3. ^ Znaki Bidi_Control : Zdefiniowano dwanaście znaków formatowania Bidi_Control. Są niewidoczne i nie mają żadnego wpływu poza kierunkowością. Dziewięć z nich ma unikalny, nadrzędny typ BiDi używany przez algorytm. Ich typ jest również ich akronimem (np. znak „LRE” ma typ BiDi „LRE”).

W normalnych sytuacjach algorytm może określić kierunek tekstu za pomocą tej właściwości znaku. Aby kontrolować bardziej złożone sytuacje Bidi, np. gdy tekst w języku angielskim zawiera cytat hebrajski, do Unicode dodawane są dodatkowe opcje. Dwanaście znaków ma właściwość Bidi_Control=Tak : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM i RLO zgodnie z nazwami podanymi w tabeli. Są to niewidoczne znaki sterujące formatowaniem, używane tylko przez algorytm i bez wpływu poza formatowaniem dwukierunkowym. Pomimo nazwy są to znaki formatujące, a nie znaki kontrolne, i mają kategorię ogólną „Inne, format (Cf)” w definicji Unicode.

Zasadniczo algorytm określa sekwencję znaków o tym samym typie silnego kierunku (R-to-L lub L-to-R), biorąc pod uwagę unieważnienie przez specjalne kontrolki Bidi. Ciągi liczbowe (typy słabe) mają przypisany kierunek zgodnie z ich silnym otoczeniem, podobnie jak znaki neutralne. Wreszcie znaki są wyświetlane zgodnie z kierunkiem ciągu.

Przy określaniu odbicia lustrzanego glifu w tekście dwukierunkowym istotne są dwie właściwości znaku: Bidi_Mirrored=Tak wskazuje, że glif powinien być odbity lustrzanie podczas zapisywania z R-do-L. Właściwość Bidi_Mirroring_Glyph=U+ hhhh może wtedy wskazywać na lustrzany znak. Na przykład nawiasy „()” są w ten sposób odzwierciedlane. Kształtowanie pisma kursywnego, takiego jak arabski, i odwzorowywanie glifów, które mają kierunek, nie jest częścią algorytmu.

Obudowa

Wartość Case jest Normative w Unicode. Dotyczy to tych pism z dużymi (czyli dużymi, majuskułowymi) i małymi (czyli małymi, miniaturowymi) literami. Różnice w wielkości liter występują w pismach adlam, ormiańskim, czerokeskim, koptyjskim, cyrylicy, pustynnym, głagolicy, greckim, khutsuri i mkhedruli.

(górny, dolny, tytułowy, składany – zarówno prosty, jak i pełny)

Wartości liczbowe i typy

Dziesiętny

Znaki są klasyfikowane za pomocą typu Numeric . Znaki takie jak ułamki, indeksy dolne, indeksy górne, cyfry rzymskie, liczniki walut, liczby w kółkach i cyfry specyficzne dla skryptu są typu Numeryczne. Mają wartość liczbową, która może być dziesiętna, w tym zero i ujemna, lub ułamek wulgarny. Jeśli nie ma takiej wartości, jak w przypadku większości znaków, typ numeryczny to „Brak”.

Znaki, które mają wartość liczbową, są podzielone na trzy grupy: Dziesiętne (De), Cyfry (Di) i Numeryczne (Nu, czyli wszystkie inne). „Dziesiętny” oznacza, że ​​znak jest prostą cyfrą dziesiętną. Tylko znaki, które są częścią ciągłego zakodowanego zakresu 0..9, mają typ liczbowy Dziesiętny. Inne cyfry, takie jak indeks górny, mają typ numeryczny Digit. Wszystkie znaki numeryczne, takie jak ułamki i cyfry rzymskie, kończą się typem „Numeryczny”. Zamierzonym efektem jest to, że prosty parser może używać tych dziesiętnych wartości liczbowych, bez rozpraszania się, powiedzmy, liczbowym indeksem górnym lub ułamkiem. Siedemdziesiąt trzy ideogramy CJK, które reprezentują liczbę, w tym te używane do księgowania, są wpisywane jako Numeryczne.

Z drugiej strony znaki, które mogą mieć wartość liczbową jako drugie znaczenie, są nadal oznaczone jako Typ liczbowy „Brak” i nie mają wartości liczbowej („”). Np. litery łacińskie mogą być użyte w numeracji akapitów jak "II.A.1.b", ale litery "I", "A" i "b" nie są numeryczne (typ "Brak") i nie mają wartości numerycznej.

Typ liczbowy  ( właściwość znaku Unicode )
Typ numeryczny Kod Ma wartość liczbową Przykład Uwagi
Nie numeryczne None Nie
  • A
  • X  (łaciński)
  • !
  • Д
  • μ
Wartość liczbowa="NaN"
Dziesiętny De tak
  • 0
  • 1
  • 9
  • 6  (devanagari 6)
  •  (Kannada 6)
  • 𝟨  (matematyczny, stylizowany bezszeryfowy)
Cyfra prosta (dziesiętna- podstawa ). Odpowiada w obie strony z ogólną kategorią =Nd
Cyfra Di tak
  • ¹  (indeks górny)
  •  (cyfra z kropką )
Dziesiętny, ale w kontekście typograficznym
Numeryczne Nu tak
  • ¾
  •  (liczba tamilska dziesięć)
  •  (liczba rzymska)
  •  (Han numer 6)
Wartość liczbowa, ale nie dziesiętna-podstawa
a. ^ „Sekcja 4.6: Wartość liczbowa” (PDF) . Standard Unicode . Konsorcjum Unicode. wrzesień 2021.
b. ^ „Pochodne typy liczbowe Unicode 14.0” . Baza znaków Unicode . Konsorcjum Unicode. 2021-03-08.

Cyfry szesnastkowe

Znaki szesnastkowe to te w serii o wartościach szesnastkowych 0...9ABCDEF (szesnaście znaków, wartość dziesiętna 0-15). Właściwość znaku Hex_Digit jest ustawiona na Tak, gdy znak znajduje się w takiej serii:

Znaki w Unicode oznaczone Hex_Digit=Yes
0123456789ABCDEF Łacina podstawowa, wielkie litery Także ASCII_Hex_Digit=Yes
0123456789abcdef Łacina podstawowa, małe litery Także ASCII_Hex_Digit=Yes
0123456789ABCDEF Formularze o pełnej szerokości , wielkie litery
0123456789abcdef Formularze o pełnej szerokości, małe litery
a. ^ „Unicode 14.0 UCD: PropList.txt” . 2021-08-12 . Źródło 2020-03-12 .

Czterdzieści cztery znaki są oznaczone jako Hex_Digit. Te w bloku Basic Latin są również oznaczone jako ASCII_Hex_Digit .

Unicode nie ma oddzielnych znaków dla wartości szesnastkowych. Konsekwencją jest to, że używając zwykłych znaków nie można określić, czy wartość szesnastkowa jest zamierzona, a nawet czy w ogóle jest zamierzona. Należy to określić na wyższym poziomie, np. dodając „0x” do liczby szesnastkowej lub przez kontekst. Jedyną cechą jest to, że Unicode może zauważyć, że sekwencja może lub nie może być wartością szesnastkową.

Blok

Blok jest jednoznacznie nazwane, przylegająca gama punktów kodowych. Jest identyfikowany przez swój pierwszy i ostatni punkt kodowy. Bloki nie nakładają się . Blok może zawierać punkty kodowe, które są zastrzeżone, nie przypisane itd. Każda postać, która jest przypisana, posiada pojedynczy blok „nazwa” wartość od 320 nazw przypisanych od wersji Unicode 14.0 Niepodpisane punkty kodowe zewnątrz istniejącego bloku, mają wartość domyślna „Brak_bloku”.

Samolot Zakres bloków Nazwa bloku Punkty kodowe Przypisane postacie Skrypty
 0 BMP U+0000..U+007F Łacina podstawowa 128 128 Łaciński (52 znaki), Wspólny (76 znaków)
 0 BMP U+0080..U+00FF Dodatek Latin-1 128 128 Łaciński (64 znaki), Wspólny (64 znaki)
 0 BMP U+0100..U+017F Rozszerzony łaciński-A 128 128 łacina
 0 BMP U+0180..U+024F Rozszerzony łaciński-B 208 208 łacina
 0 BMP U+0250..U+02AF Rozszerzenia IPA 96 96 łacina
 0 BMP U+02B0..U+02FF Odstępy modyfikujące litery 80 80 Bopomofo (2 znaki), Latin (14 znaków), Common (64 znaki)
 0 BMP U+0300..U+036F Łączenie znaków diakrytycznych 112 112 Dziedziczny
 0 BMP U+0370..U+03FF grecki i koptyjski 144 135 Koptyjski (14 znaków), Grecki (117 znaków), Wspólny (4 znaki)
 0 BMP U+0400..U+04FF cyrylica 256 256 Cyrylica (254 znaki), Dziedziczona (2 znaki)
 0 BMP U+0500..U+052F Dodatek cyrylicy 48 48 cyrylica
 0 BMP U+0530..U+058F ormiański 96 91 ormiański
 0 BMP U+0590..U+05FF hebrajski 112 88 hebrajski
 0 BMP U+0600..U+06FF arabski 256 256 Arabski (238 znaków), Powszechny (6 znaków), Dziedziczony (12 znaków)
 0 BMP U+0700..U+074F syryjski 80 77 syryjski
 0 BMP U+0750..U+077F Dodatek arabski 48 48 arabski
 0 BMP U+0780..U+07BF Thana 64 50 Thana
 0 BMP U+07C0..U+07FF NKo 64 62 Nko
 0 BMP U+0800..U+083F Samarytanin 64 61 Samarytanin
 0 BMP U+0840..U+085F Mandaic 32 29 Mandaic
 0 BMP U+0860..U+086F Suplement syryjski 16 11 syryjski
 0 BMP U+0870..U+089F arabski rozszerzony-B 48 41 arabski
 0 BMP U+08A0..U+08FF Arabski Rozszerzony-A 96 96 Arabski (95 znaków), Wspólny (1 znak)
 0 BMP U+0900..U+097F dewanagari 128 128 Dewanagari (122 znaki), Wspólne (2 znaki), Dziedziczone (4 znaki)
 0 BMP U+0980..U+09FF bengalski 128 96 bengalski
 0 BMP U+0A00..U+0A7F Gurmukhi 128 80 Gurmukhi
 0 BMP U+0A80..U+0AFF gudżarati 128 91 gudżarati
 0 BMP U+0B00..U+0B7F orija 128 91 orija
 0 BMP U+0B80..U+0BFF Tamil 128 72 Tamil
 0 BMP U+0C00..U+0C7F telugu 128 100 telugu
 0 BMP U+0C80..U+0CFF Kannada 128 90 Kannada
 0 BMP U+0D00..U+0D7F malajalam 128 118 malajalam
 0 BMP U+0D80..U+0DFF syngaleski 128 91 syngaleski
 0 BMP U+0E00..U+0E7F tajski 128 87 Tajski (86 znaków), Wspólny (1 znak)
 0 BMP U+0E80..U+0EFF laotański 128 82 laotański
 0 BMP U+0F00..U+0FFF tybetański 256 211 Tybetański (207 znaków), wspólny (4 znaki)
 0 BMP U+1000..U+109F Myanmar 160 160 Myanmar
 0 BMP U+10A0..U+10FF gruziński 96 88 Gruziński (87 znaków), Zwykły (1 znak)
 0 BMP U+1100..U+11FF Hangul Jamo 256 256 Hangul
 0 BMP U+1200..U+137F Etiopski 384 358 Etiopski
 0 BMP U+1380..U+139F Dodatek etiopski 32 26 Etiopski
 0 BMP U+13A0..U+13FF Czirokez 96 92 Czirokez
 0 BMP U+1400..U+167F Ujednolicone sylaby kanadyjskich aborygenów 640 640 Kanadyjski Aborygen
 0 BMP U+1680..U+169F Ogham 32 29 Ogham
 0 BMP U+16A0..U+16FF Runiczny 96 89 Runiczny (86 znaków), Zwykły (3 znaki)
 0 BMP U+1700..U+171F tagalski 32 23 tagalski
 0 BMP U+1720..U+173F Hanuno 32 23 Hanunoo (21 znaków), Wspólne (2 znaki)
 0 BMP U+1740..U+175F Buhid 32 20 Buhid
 0 BMP U+1760..U+177F Tagbanowa 32 18 Tagbanowa
 0 BMP U+1780..U+17FF khmerski 128 114 khmerski
 0 BMP U+1800..U+18AF mongolski 176 158 Mongolski (155 znaków), Wspólny (3 znaki)
 0 BMP U+18B0..U+18FF Rozszerzone ujednolicone kanadyjskie sylaby aborygeńskie 80 70 Kanadyjski Aborygen
 0 BMP U+1900..U+194F Limbu 80 68 Limbu
 0 BMP U+1950..U+197F Tai Le 48 35 Tai Le
 0 BMP U+1980..U+19DF Nowy Tai Lue 96 83 Nowy Tai Lue
 0 BMP U+19E0..U+19FF Symbole khmerskie 32 32 khmerski
 0 BMP U+1A00..U+1A1F bugijski 32 30 bugijski
 0 BMP U+1A20..U+1AAF Tai Tham 144 127 Tai Tham
 0 BMP U+1AB0..U+1AFF Łączenie znaków diakrytycznych Rozszerzone 80 31 Dziedziczny
 0 BMP U+1B00..U+1B7F balijski 128 124 balijski
 0 BMP U+1B80..U+1BBF sundajski 64 64 sundajski
 0 BMP U+1BC0..U+1BFF Batak 64 56 Batak
 0 BMP U+1C00..U+1C4F Lepcha 80 74 Lepcha
 0 BMP U+1C50..U+1C7F Ol Chiki 48 48 Ol Chiki
 0 BMP U+1C80..U+1C8F Cyrylica Rozszerzona-C 16 9 cyrylica
 0 BMP U+1C90..U+1CBF gruziński rozszerzony 48 46 gruziński
 0 BMP U+1CC0..U+1CCF Dodatek sundajski 16 8 sundajski
 0 BMP U+1CD0..U+1CFF Rozszerzenia wedyjskie 48 43 Wspólne (16 znaków), Dziedziczone (27 znaków)
 0 BMP U+1D00..U+1D7F Rozszerzenia fonetyczne 128 128 Cyrylica (2 znaki), Grecka (15 znaków), Łacina (111 znaków)
 0 BMP U+1D80..U+1DBF Dodatek do rozszerzeń fonetycznych 64 64 Grecki (1 znak), łaciński (63 znaki)
 0 BMP U+1DC0..U+1DFF Łączenie dodatku do znaków diakrytycznych 64 64 Dziedziczny
 0 BMP U+1E00..U+1EFF Rozszerzona łacina Dodatkowe 256 256 łacina
 0 BMP U+1F00..U+1FFF grecki rozszerzony 256 233 grecki
 0 BMP U+2000..U+206F Ogólna interpunkcja 112 111 Wspólne (109 znaków), Dziedziczone (2 znaki)
 0 BMP U+2070..U+209F Indeksy górne i dolne 48 42 Łacina (15 znaków), Wspólna (27 znaków)
 0 BMP U+20A0..U+20CF Symbole walut 48 33 Pospolity
 0 BMP U+20D0..U+20FF Łączenie znaków diakrytycznych dla symboli 48 33 Dziedziczny
 0 BMP U+2100..U+214F Symbole literopodobne 80 80 Grecki (1 znak), łaciński (4 znaki), wspólny (75 znaków)
 0 BMP U+2150..U+218F Formularze liczbowe 64 60 Łacina (41 znaków), Wspólna (19 znaków)
 0 BMP U+2190..U+21FF Strzałki 112 112 Pospolity
 0 BMP U+2200..U+22FF Operatory matematyczne 256 256 Pospolity
 0 BMP U+2300..U+23FF Różne techniczne 256 256 Pospolity
 0 BMP U+2400..U+243F Kontroluj zdjęcia 64 39 Pospolity
 0 BMP U+2440..U+245F Optyczne rozpoznawanie znaków 32 11 Pospolity
 0 BMP U+2460..U+24FF Zamknięte alfanumeryczne 160 160 Pospolity
 0 BMP U+2500..U+257F Rysunek w pudełku 128 128 Pospolity
 0 BMP U+2580..U+259F Blokuj elementy 32 32 Pospolity
 0 BMP U+25A0..U+25FF Figury geometryczne 96 96 Pospolity
 0 BMP U+2600..U+26FF Różne symbole 256 256 Pospolity
 0 BMP U+2700..U+27BF Dingbaty 192 192 Pospolity
 0 BMP U+27C0..U+27EF Różne symbole matematyczne-A 48 48 Pospolity
 0 BMP U+27F0..U+27FF Dodatkowe strzałki-A 16 16 Pospolity
 0 BMP U+2800..U+28FF Wzory brajlowskie 256 256 Brajl
 0 BMP U+2900..U+297F Dodatkowe strzałki-B 128 128 Pospolity
 0 BMP U+2980..U+29FF Różne symbole matematyczne-B 128 128 Pospolity
 0 BMP U+2A00..U+2AFF Uzupełniające operatory matematyczne 256 256 Pospolity
 0 BMP U+2B00..U+2BFF Różne symbole i strzałki 256 253 Pospolity
 0 BMP U+2C00..U+2C5F głagolicy 96 96 głagolicy
 0 BMP U+2C60..U+2C7F Rozszerzony łaciński-C 32 32 łacina
 0 BMP U+2C80..U+2CFF koptyjski 128 123 koptyjski
 0 BMP U+2D00..U+2D2F Dodatek gruziński 48 40 gruziński
 0 BMP U+2D30..U+2D7F Tifinagh 80 59 Tifinagh
 0 BMP U+2D80..U+2DDF Rozszerzony etiopski 96 79 Etiopski
 0 BMP U+2DE0..U+2DFF Rozszerzona cyrylica-A 32 32 cyrylica
 0 BMP U+2E00..U+2E7F Dodatkowa interpunkcja 128 94 Pospolity
 0 BMP U+2E80..U+2EFF Dodatek do Radykałów CJK 128 115 Han
 0 BMP U+2F00..U+2FDF Radykałowie z Kangxi 224 214 Han
 0 BMP U+2FF0..U+2FFF Ideograficzny opis znaków 16 12 Pospolity
 0 BMP U+3000..U+303F Symbole i znaki interpunkcyjne CJK 64 64 Han (15 znaków), Hangul (2 znaki), Common (43 znaki), Dziedziczone (4 znaki)
 0 BMP U+3040..U+309F Hiragana 96 93 Hiragana (89 znaków), Wspólne (2 znaki), Dziedziczone (2 znaki)
 0 BMP U+30A0..U+30FF Katakana 96 96 Katakana (93 znaki), Wspólna (3 znaki)
 0 BMP U+3100..U+312F Bopomofo 48 43 Bopomofo
 0 BMP U+3130..U+318F Kompatybilność Hangul Jamo 96 94 Hangul
 0 BMP U+3190..U+319F Kanbun 16 16 Pospolity
 0 BMP U+31A0..U+31BF Bopomofo Rozszerzony 32 32 Bopomofo
 0 BMP U+31C0..U+31EF Uderzenia CJK 48 36 Pospolity
 0 BMP U+31F0..U+31FF Rozszerzenia fonetyczne Katakana 16 16 Katakana
 0 BMP U+3200..U+32FF Załączone listy i miesiące CJK 256 255 Hangul (62 znaki), Katakana (47 znaków), Common (146 znaków)
 0 BMP U+3300..U+33FF Kompatybilność z CJK 256 256 Katakana (88 znaków), Wspólna (168 znaków)
 0 BMP U+3400..U+4DBF Rozszerzenie CJK Unified Ideographs A 6592 6592 Han
 0 BMP U+4DC0..U+4DFF Symbole heksagramu Yijing 64 64 Pospolity
 0 BMP U+4E00..U+9FFF Zunifikowane ideogramy CJK 20 992 20 992 Han
 0 BMP U+A000..U+A48F Sylaby Yi 1168 1,165 Yi
 0 BMP U+A490..U+A4CF Radykałowie Yi 64 55 Yi
 0 BMP U+A4D0..U+A4FF Lisu 48 48 Lisu
 0 BMP U+A500..U+A63F Vai 320 300 Vai
 0 BMP U+A640..U+A69F Rozszerzona cyrylica-B 96 96 cyrylica
 0 BMP U+A6A0..U+A6FF Bamum 96 88 Bamum
 0 BMP U+A700..U+A71F Modyfikator Ton Litery 32 32 Pospolity
 0 BMP U+A720..U+A7FF Rozszerzony łaciński-D 224 193 Łacina (188 znaków), Wspólna (5 znaków)
 0 BMP U+A800..U+A82F Syloti Nagri 48 45 Syloti Nagri
 0 BMP U+A830..U+A83F Typowe formy liczb indyjskich 16 10 Pospolity
 0 BMP U+A840..U+A87F Phags-pa 64 56 Phags Pa
 0 BMP U+A880..U+A8DF Saurashtra 96 82 Saurashtra
 0 BMP U+A8E0..U+A8FF dewanagari rozszerzone 32 32 dewanagari
 0 BMP U+A900..U+A92F Kayah Li 48 48 Kayah Li (47 znaków), Zwykłe (1 znak)
 0 BMP U+A930..U+A95F Rejang 48 37 Rejang
 0 BMP U+A960..U+A97F Hangul Jamo Rozszerzony-A 32 29 Hangul
 0 BMP U+A980..U+A9DF jawajski 96 91 Jawajski (90 znaków), Zwykły (1 znak)
 0 BMP U+A9E0..U+A9FF Birma Rozszerzone-B 32 31 Myanmar
 0 BMP U+AA00..U+AA5F Czam 96 83 Czam
 0 BMP U+AA60..U+AA7F Rozszerzona Birma-A 32 32 Myanmar
 0 BMP U+AA80..U+AADF Taj Wietnam 96 72 Taj Wietnam
 0 BMP U+AAE0..U+AAFF Rozszerzenia Meetei Mayek 32 23 Meetei Mayek
 0 BMP U+AB00..U+AB2F Etiopski rozszerzony-A 48 32 Etiopski
 0 BMP U+AB30..U+AB6F Rozszerzony łaciński-E 64 60 Łaciński (56 znaków), Grecki (1 znak), Powszechny (3 znaki)
 0 BMP U+AB70..U+ABBF Dodatek Cherokee 80 80 Czirokez
 0 BMP U+ABC0..U+ABFF Meetei Mayek 64 56 Meetei Mayek
 0 BMP U+AC00..U+D7AF Sylaby Hangul 11184 11172 Hangul
 0 BMP U+D7B0..U+D7FF Hangul Jamo Rozszerzony-B 80 72 Hangul
 0 BMP U+D800..U+DB7F Wysokie Surogaty 896 0 Nieznany
 0 BMP U+DB80..U+DBFF Substytuty wysokiego użytku prywatnego 128 0 Nieznany
 0 BMP U+DC00..U+DFFF Niskie surogaty 1024 0 Nieznany
 0 BMP U+E000..U+F8FF Obszar prywatnego użytku 6400 6400 Nieznany
 0 BMP U+F900..U+FAFF Ideogramy zgodności CJK 512 472 Han
 0 BMP U+FB00..U+FB4F Alfabetyczne formularze prezentacji 80 58 Ormiański (5 znaków), Hebrajski (46 znaków), Łacina (7 znaków)
 0 BMP U+FB50..U+FDFF Arabskie formy prezentacji-A 688 631 Arabski (629 znaków), Powszechny (2 znaki)
 0 BMP U+FE00..U+FE0F Selektory odmian 16 16 Dziedziczny
 0 BMP U+FE10..U+FE1F Formy pionowe 16 10 Pospolity
 0 BMP U+FE20..U+FE2F Łączenie połówkowych 16 16 Cyrylica (2 znaki), Dziedziczona (14 znaków)
 0 BMP U+FE30..U+FE4F Formularze zgodności CJK 32 32 Pospolity
 0 BMP U+FE50..U+FE6F Warianty małej formy 32 26 Pospolity
 0 BMP U+FE70..U+FEFF Arabskie formularze prezentacyjne-B 144 141 Arabski (140 znaków), Wspólny (1 znak)
 0 BMP U+FF00..U+FFEF Formularze o połowie szerokości i pełnej szerokości 240 225 Hangul (52 znaki), Katakana (55 znaków), Latin (52 znaki), Common (66 znaków)
 0 BMP U+FFF0..U+FFFF Promocje 16 5 Pospolity
 1 SMP U+10000..U+1007F Sylabariusz liniowy B 128 88 Liniowy B
 1 SMP U+10080..U+100FF Ideogramy liniowe B 128 123 Liniowy B
 1 SMP U+10100..U+1013F Liczby Egejskie 64 57 Pospolity
 1 SMP U+10140..U+1018F Liczby starożytne greckie 80 79 grecki
 1 SMP U+10190..U+101CF Starożytne symbole 64 14 Grecki (1 znak), Powszechny (13 znaków)
 1 SMP U+101D0..U+101FF Dysk Fajstos 48 46 Wspólne (45 znaków), Dziedziczone (1 znak)
 1 SMP U+10280..U+1029F Lycian 32 29 Lycian
 1 SMP U+102A0..U+102DF Carian 64 49 Carian
 1 SMP U+102E0..U+102FF Koptyjskie liczby Epact 32 28 Wspólne (27 znaków), Dziedziczone (1 znak)
 1 SMP U+10300..U+1032F Stara kursywa 48 39 Stara kursywa
 1 SMP U+10330..U+1034F gotyk 32 27 gotyk
 1 SMP U+10350..U+1037F Stary Permik 48 43 Stary Permik
 1 SMP U+10380..U+1039F ugarycki 32 31 ugarycki
 1 SMP U+103A0..U+103DF staroperski 64 50 staroperski
 1 SMP U+10400..U+1044F Deseret 80 80 Deseret
 1 SMP U+10450..U+1047F Shavian 48 48 Shavian
 1 SMP U+10480..U+104AF Osmania 48 40 Osmania
 1 SMP U+104B0..U+104FF Osage 80 72 Osage
 1 SMP U+10500..U+1052F Elbasan 48 40 Elbasan
 1 SMP U+10530..U+1056F kaukaski albański 64 53 kaukaski albański
 1 SMP U+10570..U+105BF Vithkuqi 80 70 Vithkuqi
 1 SMP U+10600..U+1077F Liniowy A 384 341 Liniowy A
 1 SMP U+10780..U+107BF Łaciński rozszerzony-F 64 57 łacina
 1 SMP U+10800..U+1083F cypryjski sylabariusz 64 55 cypryjski
 1 SMP U+10840..U+1085F cesarski aramejski 32 31 cesarski aramejski
 1 SMP U+10860..U+1087F Palmyrene 32 32 Palmyrene
 1 SMP U+10880..U+108AF nabatejski 48 40 nabatejski
 1 SMP U+108E0..U+108FF Hatran 32 26 Hatran
 1 SMP U+10900..U+1091F fenicki 32 29 fenicki
 1 SMP U+10920..U+1093F Lidian 32 27 Lidian
 1 SMP U+10980..U+1099F Hieroglify meroickie 32 32 Hieroglify meroickie
 1 SMP U+109A0..U+109FF Kursywa meroicka 96 90 Kursywa meroicka
 1 SMP U+10A00..U+10A5F Kharoshthi 96 68 Kharoshthi
 1 SMP U+10A60..U+10A7F Stary południowoarabski 32 32 Stary południowoarabski
 1 SMP U+10A80..U+10A9F Old North Arabian 32 32 Old North Arabian
 1 SMP U+10AC0..U+10AFF manichejski 64 51 manichejski
 1 SMP U+10B00..U+10B3F Awestan 64 61 Awestan
 1 SMP U+10B40..U+10B5F Inskrypcyjny Partów 32 30 Inskrypcyjny Partów
 1 SMP U+10B60..U+10B7F Inskrypcyjny Pahlavi 32 27 Inskrypcyjny Pahlavi
 1 SMP U+10B80..U+10BAF Psałterz Pahlawi 48 29 Psałterz Pahlawi
 1 SMP U+10C00..U+10C4F stary turecki 80 73 stary turecki
 1 SMP U+10C80..U+10CFF staro-węgierski 128 108 staro-węgierski
 1 SMP U+10D00..U+10D3F Hanifi Rohingja 64 50 Hanifi Rohingja
 1 SMP U+10E60..U+10E7F Symbole liczbowe Rumi 32 31 arabski
 1 SMP U+10E80..U+10EBF jazydów 64 47 jazydów
 1 SMP U+10F00..U+10F2F Stary Sogdian 48 40 Stary Sogdian
 1 SMP U+10F30..U+10F6F Sogdian 64 42 Sogdian
 1 SMP U+10F70..U+10FAF stary ujgurski 64 26 stary ujgurski
 1 SMP U+10FB0..U+10FDF Choraśmian 48 28 Choraśmian
 1 SMP U+10FE0..U+10FFF Elimaic 32 23 Elimaic
 1 SMP U+11000..U+1107F brahmi 128 115 brahmi
 1 SMP U+11080..U+110CF Kaiti 80 68 Kaiti
 1 SMP U+110D0..U+110FF Sora Sompeng 48 35 Sora Sompeng
 1 SMP U+11100..U+1114F Czakma 80 71 Czakma
 1 SMP U+11150..U+1117F Mahajani 48 39 Mahajani
 1 SMP U+11180..U+111DF Szarada 96 96 Szarada
 1 SMP U+111E0..U+111FF Syngaleskie liczby archaiczne 32 20 syngaleski
 1 SMP U+11200..U+1124F Chojki 80 62 Chojki
 1 SMP U+11280..U+112AF Multani 48 38 Multani
 1 SMP U+112B0..U+112FF Khudawadi 80 69 Khudawadi
 1 SMP U+11300..U+1137F Grantha 128 86 Grantha (85 znaków), Dziedziczone (1 znak)
 1 SMP U+11400..U+1147F Newa 128 97 Newa
 1 SMP U+11480..U+114DF Tirhuta 96 82 Tirhuta
 1 SMP U+11580..U+115FF Siddham 128 92 Siddham
 1 SMP U+11600..U+1165F Modi 96 79 Modi
 1 SMP U+11660..U+1167F Dodatek mongolski 32 13 mongolski
 1 SMP U+11680..U+116CF Takri 80 68 Takri
 1 SMP U+11700..U+1174F Ahom 80 65 Ahom
 1 SMP U+11800..U+1184F Dogra 80 60 Dogra
 1 SMP U+118A0..U+118FF Warang Citi 96 84 Warang Citi
 1 SMP U+11900..U+1195F Nurkowanie Akuru 96 72 Nurkowanie Akuru
 1 SMP U+119A0..U+119FF Nandinagari 96 65 Nandinagari
 1 SMP U+11A00..U+11A4F Plac Zanabazar 80 72 Plac Zanabazar
 1 SMP U+11A50..U+11AAF Sojombo 96 83 Sojombo
 1 SMP U+11AB0..U+11ABF Ujednolicone sylaby kanadyjskich aborygenów Rozszerzone-A 16 16 Kanadyjski Aborygen
 1 SMP U+11AC0..U+11AFF Pau Cin Hau 64 57 Pau Cin Hau
 1 SMP U+11C00..U+11C6F Bhaiksuki 112 97 Bhaiksuki
 1 SMP U+11C70..U+11CBF Marchen 80 68 Marchen
 1 SMP U+11D00..U+11D5F Masaram Gondi 96 75 Masaram Gondi
 1 SMP U+11D60..U+11DAF Gunjala Gondi 80 63 Gunjala Gondi
 1 SMP U+11EE0..U+11EFF Makasar 32 25 Makasar
 1 SMP U+11FB0..U+11FBF Suplement Lisu 16 1 Lisu
 1 SMP U+11FC0..U+11FFF Suplement tamilski 64 51 Tamil
 1 SMP U+12000..U+123FF Klinowy 1024 922 Klinowy
 1 SMP U+12400..U+1247F Cyfry klinowe i interpunkcja 128 116 Klinowy
 1 SMP U+12480..U+1254F Wczesnodynastyczny pismem klinowym 208 196 Klinowy
 1 SMP U+12F90..U+12FFF Cypro-Minoan 112 99 cypryjski minojski
 1 SMP U+13000..U+1342F Hieroglify egipskie 1,072 1,071 Hieroglify egipskie
 1 SMP U+13430..U+1343F Egipskie kontrolki formatu hieroglifów 16 9 Hieroglify egipskie
 1 SMP U+14400..U+1467F Hieroglify Anatolii 640 583 Hieroglify Anatolii
 1 SMP U+16800..U+16A3F Suplement Bamum 576 569 Bamum
 1 SMP U+16A40..U+16A6F Mro 48 43 Mro
 1 SMP U+16A70..U+16ACF Tangsa 96 89 Tangsa
 1 SMP U+16AD0..U+16AFF Bassa Wah 48 36 Bassa Wah
 1 SMP U+16B00..U+16B8F Pahawh Hmong 144 127 Pahawh Hmong
 1 SMP U+16E40..U+16E9F Medefaidrin 96 91 Medefaidrin
 1 SMP U+16F00..U+16F9F Miao 160 149 Miao
 1 SMP U+16FE0..U+16FFF Symbole ideograficzne i interpunkcja 32 7 Han (4 znaki), Khitan Small Script (1 znak), Nushu (1 znak), Tangut (1 znak)
 1 SMP U+17000..U+187FF Tangut 6144 6136 Tangut
 1 SMP U+18800..U+18AFF Komponenty Tangut 768 768 Tangut
 1 SMP U+18B00..U+18CFF Mały skrypt khitański 512 470 Mały skrypt khitański
 1 SMP U+18D00..U+18D7F Suplement Tangut 128 9 Tangut
 1 SMP U+1AFF0..U+1AFFF Kana Rozszerzone-B 16 13 Katakana
 1 SMP U+1B000..U+1B0FF Suplement Kana 256 256 Hiragana (255 znaków), Katakana (1 znak)
 1 SMP U+1B100..U+1B12F Kana Rozszerzone-A 48 35 Hiragana (32 znaki), Katakana (3 znaki)
 1 SMP U+1B130..U+1B16F Małe rozszerzenie Kana 64 7 Hiragana (3 znaki), Katakana (4 znaki)
 1 SMP U+1B170..U+1B2FF Nushu 400 396 Nüshu
 1 SMP U+1BC00..U+1BC9F Duployan 160 143 Duployan
 1 SMP U+1BCA0..U+1BCAF Kontrolki formatu skróconego 16 4 Pospolity
 1 SMP U+1CF00..U+1CFCF Notacja muzyczna Znamenny 208 185 Wspólne (116 znaków), Dziedziczone (69 znaków)
 1 SMP U+1D000..U+1D0FF Bizantyjskie symbole muzyczne 256 246 Pospolity
 1 SMP U+1D100..U+1D1FF Symbole muzyczne 256 233 Wspólne (211 znaków), Dziedziczone (22 znaki)
 1 SMP U+1D200..U+1D24F Starożytna grecka notacja muzyczna 80 70 grecki
 1 SMP U+1D2E0..U+1D2FF Cyfry Majów 32 20 Pospolity
 1 SMP U+1D300..U+1D35F Symbole Tai Xuan Jing 96 87 Pospolity
 1 SMP U+1D360..U+1D37F Liczby liczące pręty 32 25 Pospolity
 1 SMP U+1D400..U+1D7FF Matematyczne symbole alfanumeryczne 1024 996 Pospolity
 1 SMP U+1D800..U+1DAAF Sutton znakPisanie 688 672 ZnakPisanie
 1 SMP U+1DF00..U+1DFFF Łaciński rozszerzony-G 256 31 łacina
 1 SMP U+1E000..U+1E02F Suplement głagolicy 48 38 głagolicy
 1 SMP U+1E100..U+1E14F Nyiakeng Puachue Hmong 80 71 Nyiakeng Puachue Hmong
 1 SMP U+1E290..U+1E2BF Toto 48 31 Toto
 1 SMP U+1E2C0..U+1E2FF Wancho 64 59 Wancho
 1 SMP U+1E7E0..U+1E7FF Etiopski rozszerzony-B 32 28 Etiopski
 1 SMP U+1E800..U+1E8DF Mende Kikakui 224 213 Mende Kikakui
 1 SMP U+1E900..U+1E95F Adlam 96 88 Adlam
 1 SMP U+1EC70..U+1ECBF Indyjskie liczby Siyaq 80 68 Pospolity
 1 SMP U+1ED00..U+1ED4F Osmańskie liczby Siyaq 80 61 Pospolity
 1 SMP U+1EE00..U+1EEFF Arabskie symbole matematyczne alfabetyczne 256 143 arabski
 1 SMP U+1F000..U+1F02F Płytki Mahjong 48 44 Pospolity
 1 SMP U+1F030..U+1F09F Płytki domina 112 100 Pospolity
 1 SMP U+1F0A0..U+1F0FF Grać w karty 96 82 Pospolity
 1 SMP U+1F100..U+1F1FF Załączony suplement alfanumeryczny 256 200 Pospolity
 1 SMP U+1F200..U+1F2FF Załączony suplement ideograficzny 256 64 Hiragana (1 znak), Wspólny (63 znaki)
 1 SMP U+1F300..U+1F5FF Różne symbole i piktogramy 768 768 Pospolity
 1 SMP U+1F600..U+1F64F Emotikony 80 80 Pospolity
 1 SMP U+1F650..U+1F67F Ozdobne Dingbaty 48 48 Pospolity
 1 SMP U+1F680..U+1F6FF Symbole transportu i mapy 128 117 Pospolity
 1 SMP U+1F700..U+1F77F Symbole alchemiczne 128 116 Pospolity
 1 SMP U+1F780..U+1F7FF Rozszerzone kształty geometryczne 128 102 Pospolity
 1 SMP U+1F800..U+1F8FF Dodatkowe strzałki-C 256 150 Pospolity
 1 SMP U+1F900..U+1F9FF Dodatkowe symbole i piktogramy 256 256 Pospolity
 1 SMP U+1FA00..U+1FA6F Symbole szachowe 112 98 Pospolity
 1 SMP U+1FA70..U+1FAFF Symbole i piktogramy rozszerzone-A 144 88 Pospolity
 1 SMP U+1FB00..U+1FBFF Symbole dla starszych komputerów 256 212 Pospolity
 2 SIP U+20000..U+2A6DF Rozszerzenie CJK Unified Ideographs B 42 720 42 720 Han
 2 SIP U+2A700..U+2B73F CJK Unified Ideographs Rozszerzenie C 4160 4153 Han
 2 SIP U+2B740..U+2B81F CJK Unified Ideographs Rozszerzenie D 224 222 Han
 2 SIP U+2B820..U+2CEAF Rozszerzenie CJK Unified Ideographs E 5776 5762 Han
 2 SIP U+2CEB0..U+2EBEF Rozszerzenie CJK Unified Ideographs F 7488 7473 Han
 2 SIP U+2F800..U+2FA1F Dodatek Ideogramy zgodności CJK 544 542 Han
 3 WSKAZÓWKA U+30000..U+3134F Rozszerzenie CJK Unified Ideographs G 4944 4939 Han
14 SSP U+E0000..U+E007F Tagi 128 97 Pospolity
14 SSP U+E0100..U+E01EF Dodatek dotyczący selektorów odmian 240 240 Dziedziczny
15 PUA-A U+F0000..U+FFFFFF Dodatkowy obszar prywatnego użytku-A 65 536 65 534 Nieznany
16 PUA-B U+10000..U+10FFFF Dodatkowy obszar prywatnego użytku-B 65 536 65 534 Nieznany

Scenariusz

Każdy przypisany znak może mieć jedną wartość dla swojej właściwości „Skrypt”, co oznacza, do którego skryptu należy. Wartość jest czteroliterowym kodem z zakresu Aaaa-Zzzz, zgodnie z normą ISO 15924, który jest odwzorowany na system pisma . Oprócz opisu tła i użycia skryptu, Unicode nie używa połączenia między skryptem a językami, które używają tego skryptu. Tak więc „hebrajski” odnosi się do pisma hebrajskiego, a nie do języka hebrajskiego.

Specjalny kod Zyyy dla „Common” dopuszcza pojedynczą wartość dla znaku, który jest używany w wielu skryptach. Kod Zinh „Skrypt dziedziczony”, używany do łączenia znaków i niektórych innych punktów kodowych specjalnego przeznaczenia, wskazuje, że znak „dziedziczy” tożsamość skryptu po znaku, z którym jest połączony. (Unicode dawniej używał w tym celu prywatnego kodu Qaai.) Kod Zzzz „Nieznany” jest używany dla wszystkich znaków, które nie należą do skryptu (tj. wartości domyślnej), takich jak symbole i znaki formatujące. Ogólnie rzecz biorąc, znaki jednego skryptu mogą być rozrzucone na wielu blokach, tak jak znaki łacińskie . I na odwrót: wiele skryptów może być obecnych w jednym bloku, np. blok Symbole literopodobne zawiera znaki z alfabetu łacińskiego, greckiego i powszechnego.

Gdy skrypt jest „” (pusty), zgodnie z Unicode znak nie należy do skryptu. Dotyczy to symboli, ponieważ istniejące kody skryptowe ISO „Zmth” (zapis matematyczny), „Zsym” (symbol) i „Zsye” (symbol, wariant emoji) nie są używane w Unicode. Właściwość „Skrypt” jest również pusta dla punktów kodowych, które nie są znakami typograficznymi, takimi jak kontrolki, substytuty i punkty kodowe użytku prywatnego.

Jeśli istnieje konkretny skrypt alias w ISO 15924, jest ona wykorzystywana w imię postaci: U + 0041 A LATIN litera A i U + 05D0 א HEBRAJSKIE LIST ALEF .


ISO 15924 Skrypt w Unicode
Kod Formalna nazwa ISO Kierunkowość Alias ​​Unicode Wersja Postacie Uwagi Opis
Adlm Adlam skrypt od prawej do lewej Edytuj to na Wikidanych Adlam 9,0 88 19,9
Afak Afaka zmienia się ZZ— Nie w Unicode, propozycja jest badana
Aghb kaukaski albański od lewej do prawej Edytuj to na Wikidanych kaukaski albański 7,0 53 Starożytny/historyczny Rozdział 8.11
Ahom Ahom, Tai Ahom od lewej do prawej Edytuj to na Wikidanych Ahom 8,0 65 Starożytny/historyczny 15.15
Arab arabski skrypt od prawej do lewej Edytuj to na Wikidanych arabski 1,0 1365 Kanał 9.2
Aran arabski (wariant Nastaliq) mieszany ZZ— Typograficzny wariant arabskiego ( § arabski )
Armi cesarski aramejski skrypt od prawej do lewej Edytuj to na Wikidanych cesarski aramejski 5.2 31 Starożytny/historyczny Kanał 10,4
Armn ormiański od lewej do prawej Edytuj to na Wikidanych ormiański 1,0 96 Kanał 7,6
Awst Awestan skrypt od prawej do lewej Edytuj to na Wikidanych Awestan 5.2 61 Starożytny/historyczny Kanał 10,7
Bali balijski od lewej do prawej Edytuj to na Wikidanych balijski 5.0 124 Kanał 17,3
Bamu Bamum od lewej do prawej Edytuj to na Wikidanych Bamum 5.2 657 Kanał 19,6
Bas Bassa Wah od lewej do prawej Edytuj to na Wikidanych Bassa Wah 7,0 36 Starożytny/historyczny 19,7
Batki Batak od lewej do prawej Edytuj to na Wikidanych Batak 6,0 56 Kanał 17,6
Beng bengalski (Bangla) od lewej do prawej Edytuj to na Wikidanych bengalski 1,0 96 Rozdział 12.2
Bhks Bhaiksuki od lewej do prawej Edytuj to na Wikidanych Bhaiksuki 9,0 97 Starożytny/historyczny Kanał 14.3
Blis Symbole błogości zmienia się ZZ— Nie w Unicode, propozycja jest badana
Bopo Bopomofo od lewej do prawej Edytuj to na Wikidanych Bopomofo 1,0 77 Rozdział 18.3
Brah brahmi od lewej do prawej Edytuj to na Wikidanych brahmi 6,0 115 Starożytny/historyczny Rozdział 14.1
Brai Brajl od lewej do prawej Edytuj to na Wikidanych Brajl 3,0 256 Kanał 21,1
Bugi bugijski od lewej do prawej Edytuj to na Wikidanych bugijski 4.1 30 Kanał 17.2
Buhd Buhid od lewej do prawej Edytuj to na Wikidanych Buhid 3.2 20 Rozdział 17,1
Cakm Czakma od lewej do prawej Edytuj to na Wikidanych Czakma 6,1 71 Rozdział 13.11
Puszki Ujednolicone sylaby kanadyjskich aborygenów od lewej do prawej Edytuj to na Wikidanych Kanadyjski Aborygen 3,0 726 Kanał 20,2
Cari Carian pismo od lewej do prawej, od prawej do lewej Edytuj to na Wikidanych Carian 5.1 49 Starożytny/historyczny Kanał 8,5
Czam Czam od lewej do prawej Edytuj to na Wikidanych Czam 5.1 83 Rozdział 16.10
Cher Czirokez od lewej do prawej Edytuj to na Wikidanych Czirokez 3,0 172 Kanał 20,1
Chrs Choraśmian skrypt od prawej do lewej , od góry do dołu Edytuj to na Wikidanych Choraśmian 13,0 28 Starożytny/historyczny Kanał 10,8
Cirt Kirth zmienia się ZZ— Nie w Unicode
Kopt koptyjski od lewej do prawej Edytuj to na Wikidanych koptyjski 1,0 137 Starożytny/historyczny, oddzielony od greckiego w 4,1 Kanał 7.3
CPMN Cypro-Minoan od lewej do prawej cypryjski minojski 14,0 99 Starożytny/historyczny Rozdział 8.4
Cprt sylabariusz cypryjski skrypt od prawej do lewej Edytuj to na Wikidanych cypryjski 4.0 55 Starożytny/historyczny Rozdział 8.3
Cyrl cyrylica od lewej do prawej Edytuj to na Wikidanych cyrylica 1,0 443 Zawiera typograficzny wariant staro-cerkiewno-słowiański ( § Cyrs) Kanał 7,4
Cyrs cyrylica (wariant staro-cerkiewno-słowiański) zmienia się ZZ— Typograficzny wariant cyrylicy ( § Cyrl ) Starożytny/historyczny
Deva dewanagari (nagari) od lewej do prawej Edytuj to na Wikidanych dewanagari 1,0 154 Kanał 12.1
Diak Nurkowanie Akuru od lewej do prawej Edytuj to na Wikidanych Nurkowanie Akuru 13,0 72 Starożytny/historyczny Rozdział 15.14
Dogr Dogra od lewej do prawej Edytuj to na Wikidanych Dogra 11,0 60 Starożytny/historyczny Rozdział 15.17
Dsrt Pustynia (mormon) od lewej do prawej Edytuj to na Wikidanych Deseret 3.1 80 Kanał 20,4
Dupl Skrót Duployański, stenografia Duployańska od lewej do prawej Edytuj to na Wikidanych Duployan 7,0 143 Kanał 21,6
Egipt egipska demotyka mieszany ZZ— Nie w Unicode
Egiski Hieratyka egipska mieszany ZZ— Nie w Unicode
Egipt Hieroglify egipskie skrypt od prawej do lewej Edytuj to na Wikidanych Hieroglify egipskie 5.2 1,080 Starożytny/historyczny Kanał 11.4
Elba Elbasan od lewej do prawej Edytuj to na Wikidanych Elbasan 7,0 40 Starożytny/historyczny Rozdział 8.10
Elym Elimaic skrypt od prawej do lewej Edytuj to na Wikidanych Elimaic 12,0 23 Starożytny/historyczny Kanał 10,9
Ethi etiopski (geʻez) od lewej do prawej Edytuj to na Wikidanych Etiopski 3,0 523 Kanał 19,1
Geok Chutsuri (Asomtavruli i Nuskhuri) od lewej do prawej Edytuj to na Wikidanych gruziński Unicode grupuje „Khutsori”, „Asomtavruli” i „Nuskhuri” na „gruzińskie” ( § Geok ). Również „Mkhedruli” i „Mtavruli” są „gruzińskie” ( § Geor ) Rozdział 7,7
Jerzy gruziński (Mkhedruli i Mtavruli) od lewej do prawej Edytuj to na Wikidanych gruziński 1,0 173 W Unicode obejmuje również Geok (Nuskhuri) Rozdział 7,7
Glag głagolicy od lewej do prawej Edytuj to na Wikidanych głagolicy 4.1 134 Starożytny/historyczny Kanał 7,5
Gong Gunjala Gondi od lewej do prawej Edytuj to na Wikidanych Gunjala Gondi 11,0 63 Rozdział 13.15
Gonma Masaram Gondi od lewej do prawej Edytuj to na Wikidanych Masaram Gondi 10,0 75 Rozdział 13.14
Got gotyk od lewej do prawej Edytuj to na Wikidanych gotyk 3.1 27 Starożytny/historyczny Kanał 8,9
Gran Grantha od lewej do prawej Edytuj to na Wikidanych Grantha 7,0 85 Starożytny/historyczny Rozdział 15.13
Grecki grecki od lewej do prawej Edytuj to na Wikidanych grecki 1,0 518 Kierunkowość czasami jako bustrofedon Kanał 7.2
Gudżru gudżarati od lewej do prawej Edytuj to na Wikidanych gudżarati 1,0 91 Kanał 12.4
Guru Gurmukhi od lewej do prawej Edytuj to na Wikidanych Gurmukhi 1,0 80 Kanał 12,3
Hanb Han z Bopomofo (alias dla Han + Bopomofo) mieszany ZZ— Zobacz § Hani , § Bopo
Powiesić Hangul (Hangŭl, Hangul) od lewej do prawej, od góry do dołu Edytuj to na Wikidanych Hangul 1,0 11 739 Sylaby Hangul przeniesione w 2.0 Kanał 18,6
Hani Han (Hanzi, Kanji, Hanja) od góry do dołu, kolumny od prawej do lewej (historycznie) Han 1,0 94,215 Rozdział 18.1
Hano Hanunoo (Hanunóo) od lewej do prawej, od dołu do góry Edytuj to na Wikidanych Hanuno 3.2 21 Rozdział 17,1
Hans Han (wariant uproszczony) zmienia się ZZ— Podzbiór Han (Hanzi, Kanji, Hanja) ( § Hani )
Hant Han (wariant tradycyjny) zmienia się ZZ— Podzbiór § Hani
Hatr Hatran skrypt od prawej do lewej Edytuj to na Wikidanych Hatran 8,0 26 Starożytny/historyczny Rozdział 10.12
hebryjski hebrajski skrypt od prawej do lewej Edytuj to na Wikidanych hebrajski 1,0 134 Kanał 9.1
Hira Hiragana od góry do dołu, od lewej do prawej Edytuj to na Wikidanych Hiragana 1,0 380 Kanał 18,4
Hluw Hieroglify Anatolii (Hieroglify Luwijskie, Hieroglify Hetyckie) od lewej do prawej Edytuj to na Wikidanych Hieroglify Anatolii 8,0 583 Starożytny/historyczny Kanał 11,6
Hmng Pahawh Hmong od lewej do prawej Edytuj to na Wikidanych Pahawh Hmong 7,0 127 Rozdział 16.11
Hmnp Nyiakeng Puachue Hmong od lewej do prawej Edytuj to na Wikidanych Nyiakeng Puachue Hmong 12,0 71 Rozdział 16.12
Hrkt Japońskie sylabariusze (alias Hiragana + Katakana) od góry do dołu, od lewej do prawej Edytuj to na Wikidanych Katakana lub Hiragana Zobacz § Hira , § Kana Kanał 18,4
Zawieszony staro węgierski (węgierski runiczny) skrypt od prawej do lewej Edytuj to na Wikidanych staro-węgierski 8,0 108 Starożytny/historyczny Kanał 8.8
Inds Indus (harappan) mieszany ZZ— Nie w Unicode, propozycja jest badana
Włochy Stara kursywa (etruski, oscan itp.) skrypt od prawej do lewej , od lewej do prawej Edytuj to na Wikidanych Stara kursywa 3.1 39 Starożytny/historyczny Ch 8.6
Jamo Jamo (alias dla podzbioru Jamo w Hangul) zmienia się ZZ— Podzbiór § Hang
Jawa jawajski od lewej do prawej Edytuj to na Wikidanych jawajski 5.2 90 Kanał 17,4
Japonia Japoński (alias dla Han + Hiragana + Katakana) zmienia się ZZ— Zobacz § Hani , § Hira i § Kana
Jurc Jurchen od lewej do prawej ZZ— Nie w Unicode
Kali Kayah Li od lewej do prawej Edytuj to na Wikidanych Kayah Li 5.1 47 Kanał 16,9
Kana Katakana od góry do dołu, od lewej do prawej Edytuj to na Wikidanych Katakana 1,0 320 Kanał 18,4
Khar Kharoshthi skrypt od prawej do lewej Edytuj to na Wikidanych Kharoshthi 4.1 68 Starożytny/historyczny Rozdział 14.2
Khmru khmerski od lewej do prawej Edytuj to na Wikidanych khmerski 3,0 146 Kanał 16,4
Khoj Chojki od lewej do prawej Edytuj to na Wikidanych Chojki 7,0 62 Starożytny/historyczny Kanał 15,7
Kitli Khitański duży skrypt od lewej do prawej ZZ— Nie w Unicode
Zestawy Mały skrypt khitański od góry do dołu Edytuj to na Wikidanych Mały skrypt khitański 13,0 471 Starożytny/historyczny 18.12
Knda Kannada od lewej do prawej Edytuj to na Wikidanych Kannada 1,0 90 Kanał 12,8
Kore Koreański (alias Hangul + Han) od lewej do prawej ZZ— Zobacz § Hani , § Hang
Kpel Kpelle od lewej do prawej ZZ— Nie w Unicode, propozycja jest badana
Kthi Kaiti od lewej do prawej Edytuj to na Wikidanych Kaiti 5.2 68 Starożytny/historyczny Rozdział 15.2
Lana Tai Tham (Lanna) od lewej do prawej Edytuj to na Wikidanych Tai Tham 5.2 127 Kanał 16,7
laoo laotański od lewej do prawej Edytuj to na Wikidanych laotański 1,0 82 Kanał 16,2
Latf Łacina (wariant fraktur) zmienia się ZZ— Typograficzny wariant łaciny ( § Latn )
Latg Łacina (odmiana gaelicka) od lewej do prawej ZZ— Typograficzny wariant łaciny ( § Latn )
Latn łacina od lewej do prawej Edytuj to na Wikidanych łacina 1,0 1475 Zobacz także: pismo łacińskie w Unicode Rozdział 7.1
Leke Leke od lewej do prawej ZZ— Nie w Unicode
Lepc Lepcha (Róng) od lewej do prawej Edytuj to na Wikidanych Lepcha 5.1 74 Rozdział 13.12
Kończyna Limbu od lewej do prawej Edytuj to na Wikidanych Limbu 4.0 68 Kanał 13,6
Lina Liniowy A od lewej do prawej Edytuj to na Wikidanych Liniowy A 7,0 341 Starożytny/historyczny Rozdział 8.1
Linb Liniowy B od lewej do prawej Edytuj to na Wikidanych Liniowy B 4.0 211 Starożytny/historyczny Rozdział 8.2
Lisu Lisu (Fraser) od lewej do prawej Edytuj to na Wikidanych Lisu 5.2 49 Kanał 18,9
Loma Loma od lewej do prawej ZZ— Nie w Unicode, propozycja jest badana
Lyci Lycian od lewej do prawej Edytuj to na Wikidanych Lycian 5.1 29 Starożytny/historyczny Kanał 8,5
Lydi Lidian skrypt od prawej do lewej Edytuj to na Wikidanych Lidian 5.1 27 Starożytny/historyczny Kanał 8,5
Mahj Mahajani od lewej do prawej Edytuj to na Wikidanych Mahajani 7,0 39 Starożytny/historyczny Kanał 15,6
Maka Makasar od lewej do prawej Edytuj to na Wikidanych Makasar 11,0 25 Starożytny/historyczny Kanał 17,8
Mand mandyjski, mandeański skrypt od prawej do lewej Edytuj to na Wikidanych Mandaic 6,0 29 Kanał 9,5
Mani manichejski skrypt od prawej do lewej Edytuj to na Wikidanych manichejski 7,0 51 Starożytny/historyczny Kanał 10,5
Marc Marchen od lewej do prawej Edytuj to na Wikidanych Marchen 9,0 68 Starożytny/historyczny Kanał 14,5
Majowie Hieroglify Majów mieszany ZZ— Nie w Unicode
Medf Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) od lewej do prawej, od lewej do prawej Edytuj to na Wikidanych Medefaidrin 11,0 91 19.10
Zaszyć Mende Kikakui skrypt od prawej do lewej Edytuj to na Wikidanych Mende Kikakui 7,0 213 19,8
Merc Kursywa meroicka skrypt od prawej do lewej Edytuj to na Wikidanych Kursywa meroicka 6,1 90 Starożytny/historyczny Kanał 11,5
Mero Hieroglify meroickie skrypt od prawej do lewej Edytuj to na Wikidanych Hieroglify meroickie 6,1 32 Starożytny/historyczny Kanał 11,5
Młym malajalam od lewej do prawej Edytuj to na Wikidanych malajalam 1,0 118 Kanał 12,9
Modi Modi, Moḍī od lewej do prawej Edytuj to na Wikidanych Modi 7,0 79 Starożytny/historyczny Rozdział 15.11
Mong mongolski od góry do dołu, od lewej do prawej Edytuj to na Wikidanych mongolski 3,0 168 Mong zawiera skrypty Clear i Manchu Kanał 13,5
Księżyc Księżyc (kod Księżyca, skrypt Księżyca, typ Księżyca) mieszany ZZ— Nie w Unicode, propozycja jest badana
Mroo Mr, Mru od lewej do prawej Edytuj to na Wikidanych Mro 7,0 43 Kanał 13,8
Mtei Meitei Mayek (Meithei, Meetei) od lewej do prawej Edytuj to na Wikidanych Meetei Mayek 5.2 79 Kanał 13,7
Mult Multani od lewej do prawej Edytuj to na Wikidanych Multani 8,0 38 Starożytny/historyczny Kanał 15,9
Mymr Birma (birmański) od lewej do prawej Edytuj to na Wikidanych Myanmar 3,0 223 Kanał 16,3
Nand Nandinagari od lewej do prawej Edytuj to na Wikidanych Nandinagari 12,0 65 Starożytny/historyczny Rozdział 15.12
Narb Old North Arabian (Ancient North Arabian) prawo-lewo skrypt , od prawej do lewej w skrypcie Edytuj to na Wikidanych Old North Arabian 7,0 32 Starożytny/historyczny Rozdział 10.1
Nbat nabatejski skrypt od prawej do lewej Edytuj to na Wikidanych nabatejski 7,0 40 Starożytny/historyczny Rozdział 10.10
Newa Newa, Newar, Newari, Nepala lipi od lewej do prawej Edytuj to na Wikidanych Newa 9,0 97 Rozdział 13.3
Nkdb Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) od lewej do prawej ZZ— Nie w Unicode
Nkgb Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) od lewej do prawej ZZ— Nie w Unicode, propozycja jest badana
Nkoo N'Ko skrypt od prawej do lewej Edytuj to na Wikidanych NKo 5.0 62 Kanał 19,4
Nshu Nüshu od góry do dołu Edytuj to na Wikidanych Nushu 10,0 397 Kanał 18,8
Ogam Ogham od dołu do góry, od lewej do prawej Edytuj to na Wikidanych Ogham 3,0 29 Starożytny/historyczny Rozdział 8.14
Olck Ol Chiki (Ol Cemet', Ol, Santali) od lewej do prawej Edytuj to na Wikidanych Ol Chiki 5.1 48 Rozdział 13.10
Orch staroturecki, orkhon runiczny skrypt od prawej do lewej Edytuj to na Wikidanych stary turecki 5.2 73 Starożytny/historyczny Kanał 14,8
Orya orija (odia) od lewej do prawej Edytuj to na Wikidanych orija 1,0 91 Kanał 12,5
Osge Osage od lewej do prawej Edytuj to na Wikidanych Osage 9,0 72 Kanał 20,3
Osma Osmania od lewej do prawej Edytuj to na Wikidanych Osmania 4.0 40 Kanał 19,2
Ugr stary ujgurski mieszany stary ujgurski 14,0 26 Starożytny/historyczny Rozdział 14.11
Palma Palmyrene skrypt od prawej do lewej Edytuj to na Wikidanych Palmyrene 7,0 32 Starożytny/historyczny Rozdział 10.11
Pauc Pau Cin Hau od lewej do prawej Edytuj to na Wikidanych Pau Cin Hau 7,0 57 Rozdział 16.13
Pun Proto-klinowe od lewej do prawej ZZ— Nie w Unicode
Pelm Proto-Elamita od lewej do prawej ZZ— Nie w Unicode
Trwała ondulacja Stary Permik od lewej do prawej Edytuj to na Wikidanych Stary Permik 7,0 43 Starożytny/historyczny Rozdział 8.13
Phag Phags-pa od góry do dołu Edytuj to na Wikidanych Phags-pa 5.0 56 Starożytny/historyczny Kanał 14,4
Phli Inskrypcyjny Pahlavi skrypt od prawej do lewej Edytuj to na Wikidanych Inskrypcyjny Pahlavi 5.2 27 Starożytny/historyczny Kanał 10.6
Phlp Psałterz Pahlawi skrypt od prawej do lewej Edytuj to na Wikidanych Psałterz Pahlawi 7,0 29 Starożytny/historyczny Kanał 10.6
Flv Książka Pahlavi mieszany ZZ— Nie w Unicode
Phnx fenicki skrypt od prawej do lewej Edytuj to na Wikidanych fenicki 5.0 29 Starożytny/historyczny Rozdział 10.3
Piqd klingoński (KLI PIQAD) od lewej do prawej Edytuj to na Wikidanych ZZ— Odrzucono do włączenia do Unicode
Plrd Miao (Pollard) od lewej do prawej Edytuj to na Wikidanych Miao 6,1 149 18.10
Prti Inskrypcyjny Partów skrypt od prawej do lewej Edytuj to na Wikidanych Inskrypcyjny Partów 5.2 30 Starożytny/historyczny Kanał 10.6
Psin Protosynaicki mieszany ZZ— Nie w Unicode
Qaaa-Qabx Zarezerwowane do użytku prywatnego (zakres) ZZ— Nie w Unicode
Randżi Ranjana od lewej do prawej ZZ— Nie w Unicode
Rjng Rejang (Redjang, Kaganga) od lewej do prawej Edytuj to na Wikidanych Rejang 5.1 37 Kanał 17,5
Rohg Hanifi Rohingja skrypt od prawej do lewej Edytuj to na Wikidanych Hanifi Rohingja 11,0 50 Rozdział 16.14
Roro Rongorongo mieszany ZZ— Nie w Unicode, propozycja jest badana
Biegacz Runiczny od lewej do prawej, bustrofedon Edytuj to na Wikidanych Runiczny 3,0 86 Starożytny/historyczny Rozdział 8.7
Samr Samarytanin skrypt od prawej do lewej , od góry do dołu Edytuj to na Wikidanych Samarytanin 5.2 61 Kanał 9.4
Sara Sarati mieszany ZZ— Nie w Unicode
Sarb Stary południowoarabski skrypt od prawej do lewej Edytuj to na Wikidanych Stary południowoarabski 5.2 32 Starożytny/historyczny Rozdział 10.2
Saur Saurashtra od lewej do prawej Edytuj to na Wikidanych Saurashtra 5.1 82 Rozdział 13.13
Sgnw ZnakPisanie od góry do dołu Edytuj to na Wikidanych ZnakPisanie 8,0 672 Kanał 21,7
Shawa Shaw (Shaw) od lewej do prawej Edytuj to na Wikidanych Shavian 4.0 48 Rozdział 8.15
Shrd Szarada, Sarada od lewej do prawej Edytuj to na Wikidanych Szarada 6,1 96 Kanał 15,3
Shui Shuishu od lewej do prawej ZZ— Nie w Unicode
Sidd Siddham, Siddhah, Siddhamatṛkah od lewej do prawej Edytuj to na Wikidanych Siddham 7,0 92 Starożytny/historyczny Kanał 15,5
Sind Khudawadi, Sindhi od lewej do prawej Edytuj to na Wikidanych Khudawadi 7,0 69 Kanał 15,8
Sinhu syngaleski od lewej do prawej Edytuj to na Wikidanych syngaleski 3,0 111 Rozdział 13.2
Sogd Sogdian pisanie poziome i pionowe pismem wschodnioazjatyckim , od góry do dołu Edytuj to na Wikidanych Sogdian 11,0 42 Starożytny/historyczny Rozdział 14.10
Więc idź Stary Sogdian skrypt od prawej do lewej Edytuj to na Wikidanych Stary Sogdian 11,0 40 Starożytny/historyczny Kanał 14,9
Sora Sora Sompeng od lewej do prawej Edytuj to na Wikidanych Sora Sompeng 6,1 35 Rozdział 15.16
Sojo Sojombo od lewej do prawej Edytuj to na Wikidanych Sojombo 10,0 83 Starożytny/historyczny Kanał 14,7
Sund sundajski od lewej do prawej Edytuj to na Wikidanych sundajski 5.1 72 Kanał 17,7
Sylo Syloti Nagri od lewej do prawej Edytuj to na Wikidanych Syloti Nagri 4.1 45 Starożytny/historyczny Rozdział 15.1
Syrc syryjski skrypt od prawej do lewej Edytuj to na Wikidanych syryjski 3,0 88 Obejmuje warianty typograficzne Estrangelo ( § Syre ), zachodnie ( § Syrj ) i wschodnie ( § Syrn ) Rozdział 9,3
Syre Syryjski (wariant Estrangelo) mieszany ZZ— Typograficzny wariant syryjskiego ( § Syrc )
Syrj Syryjski (wariant zachodni) mieszany ZZ— Typograficzny wariant syryjskiego ( § Syrc )
Syrn Syryjski (wariant wschodni) mieszany ZZ— Typograficzny wariant syryjskiego ( § Syrc )
Tagb Tagbanowa od lewej do prawej Edytuj to na Wikidanych Tagbanowa 3.2 18 Rozdział 17,1
Takr Takri, Sakrī, Sakrīh od lewej do prawej Edytuj to na Wikidanych Takri 6,1 68 Kanał 15,4
Opowieść Tai Le od lewej do prawej Edytuj to na Wikidanych Tai Le 4.0 35 Kanał 16,5
Talu Nowy Tai Lue od lewej do prawej Edytuj to na Wikidanych Nowy Tai Lue 4.1 83 Kanał 16,6
Tamli Tamil od lewej do prawej Edytuj to na Wikidanych Tamil 1,0 123 Kanał 12.6
Posmak Tangut od góry do dołu, kolumny od prawej do lewej, od lewej do prawej Edytuj to na Wikidanych Tangut 9,0 6914 Starożytny/historyczny 18.11
Tawta Taj Wietnam od lewej do prawej Edytuj to na Wikidanych Taj Wietnam 5.2 72 Kanał 16,8
Telu telugu od lewej do prawej Edytuj to na Wikidanych telugu 1,0 100 Kanał 12,7
Teng Tengwar od lewej do prawej ZZ— Nie w Unicode
Tfng Tifinagh (Berber) od lewej do prawej Edytuj to na Wikidanych Tifinagh 4.1 59 Rozdział 19,3
Tglg tagalski (Baybayin, Alibata) od lewej do prawej Edytuj to na Wikidanych tagalski 3.2 23 Rozdział 17,1
tajski Thana skrypt od prawej do lewej Edytuj to na Wikidanych Thana 3,0 50 Rozdział 13.1
tajski tajski od lewej do prawej Edytuj to na Wikidanych tajski 1,0 86 Kanał 16,1
Tybt tybetański od lewej do prawej Edytuj to na Wikidanych tybetański 2,0 207 Dodano w 1.0, usunięto w 1.1 i ponownie w 2.0 Kanał 13.4
Tirh Tirhuta od lewej do prawej Edytuj to na Wikidanych Tirhuta 7,0 82 Rozdz. 15.10
Tnsa Tangsa od lewej do prawej Tangsa 14,0 89 Rozdział 13.18
Toto Toto od lewej do prawej Toto 14,0 31 Rozdział 13.17
Ugar ugarycki od lewej do prawej Edytuj to na Wikidanych ugarycki 4.0 31 Starożytny/historyczny Rozdział 11.2
Vaii Vai od lewej do prawej Edytuj to na Wikidanych Vai 5.1 300 Kanał 19,5
Visp Widzialna przemowa od lewej do prawej ZZ— Nie w Unicode
Vith Vithkuqi od lewej do prawej Vithkuqi 14,0 70 Starożytny/historyczny Rozdział 8.12
Wara Warang Citi (Warang Ksziti) od lewej do prawej Edytuj to na Wikidanych Warang Citi 7,0 84 Kanał 13,9
Wcho Wancho od lewej do prawej Edytuj to na Wikidanych Wancho 12,0 59 Rozdział 13.16
Wole Woleai mieszany ZZ— Nie w Unicode, propozycja jest badana
Xpeo staroperski od lewej do prawej Edytuj to na Wikidanych staroperski 4.1 50 Starożytny/historyczny Rozdział 11.3
Xsux pismem klinowym, sumero-akadyjska od lewej do prawej Edytuj to na Wikidanych Klinowy 5.0 1234 Starożytny/historyczny Rozdział 11.1
Jezi jazydów skrypt od prawej do lewej Edytuj to na Wikidanych jazydów 13,0 47 Starożytny/historyczny Kanał 9,6
Yiii Yi od lewej do prawej Edytuj to na Wikidanych Yi 3,0 1220 Kanał 18,7
Zanb Plac Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Poziomy skrypt kwadratowy) od lewej do prawej Edytuj to na Wikidanych Plac Zanabazar 10,0 72 Starożytny/historyczny Kanał 14,6
Zinh Kod dziedziczonego skryptu Dziedziczny 657
Zmth Notacja matematyczna ZZ— Nie „skrypt” w Unicode
Zsym Symbolika ZZ— Nie „skrypt” w Unicode
Zsye Symbole (wariant emoji) ZZ— Nie „skrypt” w Unicode
Zxxx Kod do niepisanych dokumentów ZZ— Nie „skrypt” w Unicode
Zyyy Kod dla nieokreślonego skryptu Pospolity 8252
Zzzz Kod dla niekodowanego skryptu Nieznany 969 350 W Unicode: wszystkie inne punkty kodowe
Uwagi
  1. ^
    Publikacje ISO 15924 Na dzień 17 lutego 2021 r.
  2. ^
    ISO 15924 Normatywny plik tekstowy Na dzień 17 lutego 2021 r.
  3. ^
    Zmiany ISO 15924 (w tym aliasy dla Unicode; od 17 lutego 2021)
  4. ^
    Wersja Unicode 14.0
  5. ^
  6. ^
    Unicode używa „Aliasu wartości właściwości” (aliasu) jako nazwy skryptu. Te nazwy aliasów są częścią Unicode i są opublikowane w celach informacyjnych obok ISO 15924. W nazwie znaku można użyć nazwy skryptu aliasu: Palm, Palmyrene → U+10860 𐡠 PALMYRENE LETTER ALEPH .
  7. ^
    W Unicode pismo fenickie jest przeznaczone do przedstawiania tekstu w języku paleo-hebrajskim , archaicznym fenickim, fenickim , wczesnoaramejskim , późnofenickim, papirusach fenickich , hebrajskim siloam , hebrajskich pieczęciach , amonitach , moabitach i punickich .

Właściwości normalizacyjne

Dekompozycje, typ dekompozycji, kanoniczna klasa łączenia, wykluczenia kompozycji i inne.

Wiek

Wiek to wersja Standardu, w której po raz pierwszy wyznaczono punkt kodowy. Numer wersji jest skrócony do numeracji major.minor, chociaż używane są bardziej szczegółowe numery wersji: wersje 4.0.0 i 4.0.1 są nazwane 4.0 jako Age. Biorąc pod uwagę wydania, wiek może być z zakresu: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11,0 , 12,0, 12,1, 13,0 i 14,0. Długie wartości Wiek zaczynają się na V i używają podkreślenia zamiast kropki: na przykład V1_1. Punkty kodowe bez konkretnie przypisanej wartości wieku mają wartość „NA”, z długą formą „Nieprzypisane”.

Przestarzałe

Po zdefiniowaniu znaku nie zostanie on usunięty ani ponownie przypisany. Jednak znak może być przestarzały , co oznacza, że ​​jego „użycie jest zdecydowanie odradzane”. Od wersji Unicode 14.0 następujące piętnaście znaków jest przestarzałych:

Przestarzałe znaki w Unicode
Punkt kodowy Imię postaci Zalecana alternatywa Uwagi
U+0149 ŁACIŃSKA MAŁA LITERA N POSTĘPOWANA APOSTROFEM U + 02BC U + 006E n
U+0673 ARABSKA LITERA ALEF Z FALĄ HAMZA PONIŻEJ U+0627 U+065F ا
U+0F77 TYBETAŃSKI ZNAK SAMOgłoskowy WOKALNY RR U+0FB2 U+0F81 ྲཱ ྀ
U+0F79 TYBETAŃSKI ZNAK SAMOgłoskowy VOCALIC LL U+0FB3 U+0F81 ླཱ ྀ
U+17A3 KHMER SAMOGŁOWKA NIEZALEŻNA QAQ U+17A2
U+17A4 KHMER SAMOGŁOWKA NIEZALEŻNA QAA U+17A2 U+17B6 អា
U+206A BRAK ZAMIANY SYMETRYCZNEJ Nic
U+206B AKTYWUJ ZAMIANA SYMMETRYCZNĄ Nic
U+206C HAMUJĄ ARABSKI KSZTAŁTOWANIE FORMY Nic
U+206D AKTYWUJ ARABSKIE KSZTAŁTOWANIE FORMY Nic
U+206E KRAJOWE KSZTAŁTY CYFR Nic
U+206F NOMINALNE KSZTAŁTY CYFR Nic
U+2329 LEWY WSPORNIK KĄTOWY U+3008 ja U+27E8 MATEMATYCZNY LEWY WSPORNIK KĄTOWY jest zalecany do zastosowań matematycznych i innych technicznych
U+232A WSPORNIK KĄTOWY W PRAWO U+3009 ja U+27E9 MATEMATYCZNY WSPORNIK KĄTOWY PROSTY jest zalecany do zastosowań matematycznych i innych technicznych
U+E0001 TAG JĘZYKOWY Nic

Granic

Standard Unicode określa następujące właściwości związane z granicami:

  • Klaster grafów
  • Słowo
  • Linia
  • Zdanie

Korekta aliasów nazw Unicode

Postać Nazwa Alias
01A2 Ƣ ŁACIŃSKA WIELKA LITERA OI ŁACIŃSKA LITERA GHA
01A3 ƣ ŁACIŃSKA MAŁA LITERA OI ŁACIŃSKA MAŁA LITERA GHA
0709 ? SYRYJSKI SUBLINEAR COLON WYKRZYŻONY W PRAWO SYRYJSKI PODLINIJNY DWURZĘDNIK WYKRZYŻONY W LEWO
0CDE LIST KANNADA FA LIST KANNADY LLLA
0E9D LAOT LIST DO TAM LAO LIST FO FON
0E9F LAO LIST FO SUN LAO LIST DO FAY
0EA3 LAOT LIST LO LING LAO LIST RO
0EA5 LAO LIST LOOT LAOT LIST LO
0FD0 ? MARK TYBETAŃSKI BSKA- SHOG GI MGO RGYAN ZNAK TYBETAŃSKI BKA- SHOG GI MGO RGYAN
11 WE HANGUL JONGSEONG IEUNG-KIYEOK HANGUL JONGSEONG YESIEUNG-KIYEOK
11 ED HANGUL JONGSEONG IEUNG-SSANGKIYEOK HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK
11EE HANGUL JONGSEONG SSANGIEUNG HANGUL JONGSEONG SSANGYESIEUNG
11EF HANGUL JONGSEONG IEUNG-KHIEUKH HANGUL JONGSEONG YESIEUNG-KHIEUKH
2118 KAPITAŁ W SKRYPCIE P FUNKCJA ELIPTYCZNA WEIERSTRASS
2448 OCR DASH SYMBOL MICR NA USA
2449 NUMER KONTA KLIENTA OCR SYMBOL MICR MYŚLI
2B7A TRÓJKĄTNA STRZAŁKA W LEWO Z PODWÓJNYM POZIOMYM SKOKEM TRÓJKĄTNA STRZAŁKA W LEWO Z PODWÓJNYM SKOKEM PIONOWYM
2B7C TRÓJKĄTNA STRZAŁKA W PRAWO Z PODWÓJNYM POZIOMYM SKOKEM TRÓJKĄTNA STRZAŁKA W PRAWO Z PODWÓJNYM SKOKEM PIONOWYM
A015 YI SYLABA WU YI ZNAK ITERACJI SYLABY
WF18 ja FORMULARZ PREZENTACJI PIONOWEGO PRAWEGO BIAŁEGO UCHWYTU SOCZEWKOWEGO FORMULARZ PREZENTACJI PIONOWEGO PRAWEGO BIAŁY WSPORNIK SOCZEWKOWY
122D4 𒋔 ZNAK KLINIKOWY KOSZULA TENU ZNAK KLIENOWY NU11 TENU
122K5 𒋕 ZNAK KLINIKOWY SHIR NA SHIR BUR NA BUR ZNAK KLIENOWY NU11 NAD NU11 BUR NAD BUR
16E56 𖹖 MEDEFAIDRYN WIELKA LITERA HP MEDEFAIDRYN WIELKA LITERA H
16E57 𖹗 MEDEFAIDRYN WIELKA LITERA NY MEDEFAIDRYN WIELKA LITERA NG
16E76 𖹶 MEDEFAIDRYN MAŁA LITERA HP MEDEFAIDRYN MAŁA LITERA H
16E77 𖹷 MEDEFAIDRYN MAŁA LITERA NY MEDEFAIDRYN MAŁA LITERA NG
1B001 𛀁 LIST HIRAGANA ARCHAIC YE HENTAIGANA LIST E-1
1D0C5 𝃅 BIZANTYŃSKI SYMBOL MUZYCZNY FHTORA SKLIRON CHROMA VASIS BIZANTYŃSKI SYMBOL MUZYCZNY FTHORA SKLIRON CHROMA VASIS


Zewnętrzne linki

Bibliografia

  1. ^ a b c d e "Standard Unicode, rozdział 4: Właściwości znaków" (PDF) . Unicode, Inc. wrzesień 2021 . Źródło 15.08.2021 . Cytowanie dziennika wymaga |journal=( pomoc )
  2. ^ a b c „Standard Unicode Załącznik nr 44: Baza znaków Unicode” . Standard Unicode . 14.06.2017.
  3. ^ „UCD: Aliasy nazw” . Baza znaków Unicode . Konsorcjum Unicode. 2019-03-08.
  4. ^ „Standardy projektowania postaci – znaki kosmiczne” . Standardy projektowania postaci . Microsoft . 1998–1999. Zarchiwizowane z oryginału 23 sierpnia 2000 . Źródło 2009-05-18 .
  5. ^ Unicode Standard 5.0, wydanie drukowane, s.205
  6. ^ „Ogólna interpunkcja” (PDF) . Standard Unicode 5.1 . Unicode Inc . 1991–2008 . Źródło 2009-05-13 .
  7. ^ Sargent, Murray III (29.08.2006). „Unicode prawie zwykły tekst kodowania matematyki (wersja 2)” . Uwaga techniczna nr 28 dotycząca Unicode . Unicode Inc . s. 19–20 . Źródło 2009-05-19 .
  8. ^ Gillam, Richard (2002). Unicode Demystified: Praktyczny przewodnik programisty po standardzie kodowania . Addisona-Wesleya. Numer ISBN 0-201-70052-2.
  9. ^ B Hickson Ian . "12.5 Odniesienia do nazwanych znaków" . Standard HTML . COTWG .
  10. ^ Wolfram . "\[NegativeThickSpace]" . Dokumentacja językowa Wolframa .
  11. ^ Wolfram . "\[NegativeMediumSpace]" . Dokumentacja językowa Wolframa .
  12. ^ Wolfram . "\[NegativeThinSpace]" . Dokumentacja językowa Wolframa .
  13. ^ Wolfram . "\[NegativeVeryThinSpace]" . Dokumentacja językowa Wolframa .
  14. ^ Faltstrom, P., wyd. (sierpień 2010). "Zerowa szerokość bez łączenia" . Punkty kodowe Unicode i umiędzynarodowione nazwy domen dla aplikacji (IDNA) . IETF . ust. A.1. doi : 10.17487/RFC5892 . RFC 5892 . Źródło 4 września 2019 .
  15. ^ Faltstrom, P., wyd. (sierpień 2010). "Łącznik o zerowej szerokości" . Punkty kodowe Unicode i umiędzynarodowione nazwy domen dla aplikacji (IDNA) . IETF . ust. A.2. doi : 10.17487/RFC5892 . RFC 5892 . Źródło 4 września 2019 .
  16. ^ „Unicode Standardowy załącznik nr 44, baza znaków Unicode” .
  17. ^ a b „Unicode Standardowy załącznik nr 9: Dwukierunkowy algorytm Unicode” . Standard Unicode . 14.05.2017.
  18. ^ „Unicode Standardowy załącznik nr 24: Właściwość skryptu Unicode” . Standard Unicode . 2015-06-01.
  19. ^ a b c d e f g h i „Proponowane nowe skrypty” . Konsorcjum Unicode . 2018-05-25 . Źródło 2019-09-12 .
  20. ^ Michael Everson (1997.09.18). „Propozycja kodowania klingońskiego w płaszczyźnie 1 normy ISO/IEC 10646-2” .
  21. ^ Konsorcjum Unicode (2001-08-14). „Zatwierdzone Protokoły Wspólnego Posiedzenia UTC 87/L2 184” .
  22. ^ „Bliski Wschód-II, starożytne skrypty” (PDF) . 14.0.0. The Unicode Consortiumtitle=Skrypty Bliskiego Wschodu II . Źródło 15.09.2021 .
  23. ^ „UCD: wiek pochodny” . Baza znaków Unicode . Konsorcjum Unicode. 2021-07-10.
  24. ^ „Zasady stabilności kodowania znaków Unicode” . Unikod . Konsorcjum Unicode . 23.06.2017 . Pobrano 2021-07-25 . Zakodowana postać nie zostanie przeniesiona ani usunięta.
  25. ^ „3.4: Znaki i kodowanie, D13: Przestarzały znak” (PDF) . Standard Unicode, wersja 14.0 . Mountain View: Konsorcjum Unicode . 2021-09-14. Numer ISBN 9781936213-290. Źródło 15.09.2021 .
  26. ^ "PropList-14.0.0.txt" . Unikod . Konsorcjum Unicode . 2021-08-12 . Źródło 15.09.2021 .
  27. ^ „Rozdział 23.3: Przestarzałe znaki formatu” (PDF) . Standard Unicode, wersja 13.0 . Mountain View: Konsorcjum Unicode . 2020-03-10. Numer ISBN 9781936213269. Pobrano 2021-07-25 .
  28. ^ „23.9: Znaki znaczników, przestarzałe użycie do oznaczania języka” (PDF) . Standard Unicode, wersja 13.0 . Mountain View: Konsorcjum Unicode . 2020-03-10. Numer ISBN 9781936213269. Pobrano 2021-07-25 .