Właściwość znaku Unicode - Unicode character property
Standard Unicode przypisuje różne właściwości do każdego znaku Unicode i punkt kodowy .
Właściwości mogą służyć do obsługi znaków (punktów kodu) w procesach, takich jak łamanie wierszy, kierunek skryptu od prawej do lewej lub stosowanie kontrolek. Niektóre „właściwości znaków” są również zdefiniowane dla punktów kodowych, które nie mają przypisanego znaku, oraz punktów kodowych, które są oznaczone etykietą „<nie jest znakiem>”. Właściwości postaci są opisane w Standardowym Aneksie #44.
Właściwości mają poziomy siły: normatywne, informacyjne, składkowe lub tymczasowe. Dla uproszczenia specyfikacji właściwość znaku można przypisać, określając ciągły zakres punktów kodowych, które mają tę samą właściwość.
Elementy semantyczne
Właściwości są wyświetlane w następującej kolejności:
[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
- 'alias' = poprawiona nazwa
- „bc” = bidi (dwukierunkowy) kategoria [L, R itd.]
- 'bm' = bidi lustrzane [N lub Y]
- 'cc' = klasa łącząca [pozycja znaku diakrytycznego]
- dekompozycja = litera + znak diakrytyczny, ligatura XY, indeks górny X, czcionka X, początkowy X, środkowy X, końcowy X, izolowany X, pionowy X itp.
- „gc” = kategoria ogólna [litera, symbol, cyfra, interpunkcja, zachowanie wielkości liter itp.]
- 'nv' = wartość liczbowa [cyfry]
Nazwa
Znak Unicode ma przypisaną unikalną nazwę (na). Nazwa składa się z wielkich liter A–Z, cyfr 0–9, - (łącznik-minus) i <spacja>. Niektóre sekwencje są wykluczone: nazwy zaczynające się spacją lub łącznikiem, nazwy kończące się spacją lub łącznikiem, powtarzające się spacje lub łączniki oraz spacja po łączniku są niedozwolone. Gwarantuje się, że nazwa jest unikatowa w ramach Unicode i może służyć do identyfikacji punktu kodowego i jego charakteru. Postacie ideograficzne, których jest kilkadziesiąt tysięcy, nazywane są wzorem „ cjk ujednolicony ideogram – hhhh ”. Na przykład U+4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Nazywa się również znaki formatujące: U+00A0 NO-BREAK SPACE .
Następujące klasy punktu kodowego nie mają nazwy (na = ""): formanty (kategoria ogólna: Cc), do użytku prywatnego (Co), surogat (Cs), bez znaków (Cn) i zarezerwowane (Cn). Mogą się do nich odwoływać, nieformalnie, przez ogólną lub konkretną meta-nazwę, zwaną „Etykietami punktów kodowych”: <kontrola>, <kontrola-0088>, <zarezerwowane>, <nieznakowe- hhhh >, <prywatne- hhhh > , <surogat>. Ponieważ te etykiety zawierają nawiasy <>, nigdy nie mogą pojawić się jako Nazwa, co zapobiega pomyłkom.
Nazwy wersji 1.0
W wersji 2.0 Unicode zmieniono wiele nazw. Od tego czasu weszła w życie zasada „nazwisko nigdy się nie zmieni”, obejmująca ścisłe (normatywne) używanie aliasów. Nieużywane nazwy wersji 1.0 zostały przeniesione do właściwości Alias, aby zapewnić pewną wsteczną zgodność.
Alias nazwy postaci
Począwszy od wersji 2.0 Unicode, opublikowana nazwa punktu kodowego nigdy się nie zmieni. Dlatego w przypadku błędnej pisowni nazwy postaci lub jeśli nazwa postaci jest całkowicie niewłaściwa lub poważnie myląca, formalny alias nazwy postaci może zostać przypisany do postaci, a alias ten może być używany przez aplikacje zamiast rzeczywistej wadliwej nazwy postaci. . Na przykład U+FE18 ︘ FORMULARZ PREZENTACJI DLA PIONOWEGO PRAWEGO WHITE LENTICULAR BRAKCET ma nazwę postaci alias „FORMA PREZENTACJI DLA PIONOWEGO PRAWEGO WHITE LENTICULAR BRAKCET” w celu złagodzenia błędu pisowni „nawiasu” jako „brakcet” w rzeczywistej nazwie postaci; U+A015 ꀕ YI SYLLABLE WU ma alias nazwy postaci „YI SYLLABLE ITERATION MARK”, ponieważ w przeciwieństwie do nazwy postaci nie ma ustalonej wartości sylabicznej.
Oprócz aliasów nazw postaci, które są poprawkami wadliwych imion postaci, niektórym postaciom przypisuje się aliasy, które są alternatywnymi nazwami lub skrótami. W standardzie Unicode zdefiniowano pięć typów aliasów nazw znaków:
- Korekta: poprawki dotyczące błędnie napisanych lub poważnie niepoprawnych nazw postaci;
- Sterowanie: Nazwy ISO 6429 dla funkcji sterujących C0 i C1 (które nie mają przypisanych nazw znaków w standardzie Unicode);
- Alternatywne: alternatywne nazwy dla niektórych znaków formatu (tylko U+FEFF "ZERO WIDTH NO-BREAK SPACE", który ma alias "BYTE ORDER MARK");
- Rysunek: Udokumentowane etykiety dla niektórych funkcji kodu sterującego C1, które nie są rzeczywistymi nazwami w żadnym standardzie;
- Skrót: skróty lub akronimy kodów sterujących, znaków formatu, spacji i selektorów odmian.
Wszystkie formalne aliasy nazw znaków są zgodne z regułami dozwolonych nazw znaków i gwarantują, że są unikatowe zarówno w aliasach nazw postaci, jak i przestrzeni nazw postaci (z tego powodu nazwa ISO 6429 „BELL” nie jest zdefiniowana jako alias dla U +0007, ponieważ U+1F514 nosi nazwę „BELL”).
Od wersji Unicode 12.1, dwadzieścia osiem formalnych aliasów nazw znaków jest zdefiniowanych jako poprawki dla wadliwych nazw znaków. Są one wymienione poniżej .
Oprócz tych normatywnych nazw, nieformalne nazwy mogą być pokazywane na wykresach kodu Unicode. Są to inne powszechnie używane nazwy znaków i nie muszą być ograniczone do liter A–Z, cyfr 0–9, - (łącznik-minus) i <spacja>. Nie gwarantuje się, że te nieformalne nazwy będą niepowtarzalne i mogą zostać zmienione lub usunięte w późniejszych wersjach standardu.
Kategoria ogólna
Każdy punkt kodowy ma przypisaną wartość dla kategorii ogólnej. Jest to jedna z właściwości znaków, które są również zdefiniowane dla nieprzypisanych punktów kodowych i punktów kodowych, które są zdefiniowane jako "nie znak".
Kategoria ogólna ( właściwość znaku Unicode ) | |||||
---|---|---|---|---|---|
Wartość | Kategoria Główne, drobne | Typ podstawowy | Przypisana postać | Liczyć (od 14.0) |
Uwagi |
L, litera; LC, list w obudowie (tylko Lu, Ll i Lt) | |||||
Lu | Litera, wielkie litery | Graficzny | Postać | 1,831 | |
NS | Litera, małe litery | Graficzny | Postać | 2227 | |
Lt | List, tytułowy | Graficzny | Postać | 31 | Ligatury zawierające wielkie litery, po których następują małe litery (np. Dž , Lj , Nj i Dz ) |
Lm | List, modyfikator | Graficzny | Postać | 334 | Modyfikator list |
Lo | List, inne | Graficzny | Postać | 127,333 | Ideogram lub list w Unicase alfabetu |
M, Mark | |||||
Mn | Znak, bez odstępów | Graficzny | Postać | 1950 | |
Mc | Znak, odstępy łączenie | Graficzny | Postać | 445 | |
Ja | Znak, załączając | Graficzny | Postać | 13 | |
N, liczba | |||||
NS | Liczba, cyfra dziesiętna | Graficzny | Postać | 660 | Wszystkie te i tylko te mają Typ Numeryczny = De |
Nl | Cyfra, litera | Graficzny | Postać | 236 | Cyfry składające się z liter lub symboli literopodobnych (np. cyfry rzymskie ) |
Nie | Liczba, inne | Graficzny | Postać | 895 | Np frakcje wulgarne , górny i dolny cyfry |
P, interpunkcja | |||||
PC | Interpunkcja, łącznik | Graficzny | Postać | 10 | Zawiera podkreślenie „_” |
Pd | Interpunkcja, myślnik | Graficzny | Postać | 26 | Zawiera kilka myślnikiem znaków |
Ps | Interpunkcja, otwarta | Graficzny | Postać | 79 | Znaki nawiasu otwierającego |
Pe | Interpunkcja, zamknij | Graficzny | Postać | 77 | Znaki nawiasu zamykającego |
Liczba Pi | Interpunkcja, początkowy cytat | Graficzny | Postać | 12 | Otwarcie cudzysłów . Nie zawiera „neutralnego” cudzysłowu ASCII. Może zachowywać się jak Ps lub Pe w zależności od zastosowania |
Pf | Interpunkcja, ostatni cytat | Graficzny | Postać | 10 | Końcowy cudzysłów. Może zachowywać się jak Ps lub Pe w zależności od zastosowania |
Po | Interpunkcja, inne | Graficzny | Postać | 605 | |
S, symbol | |||||
Sm | Symbol, matematyka | Graficzny | Postać | 948 | Symbole matematyczne (np. + , − , = , × , ÷ , √ , ∊ , ≠ ). Nie zawiera nawiasów i nawiasów, które należą do kategorii Ps i Pe. Również nie obejmuje ! , * , - lub / , które pomimo częstego używania jako operatorów matematycznych, są przede wszystkim uważane za „interpunkcyjne”. |
Sc | Symbol, waluta | Graficzny | Postać | 63 | Symbole walut |
Sk | Symbol, modyfikator | Graficzny | Postać | 125 | |
Więc | Symbol, inne | Graficzny | Postać | 6605 | |
Z, separator | |||||
Zs | Separator, spacja | Graficzny | Postać | 17 | Zawiera spację, ale nie TAB , CR ani LF , które są Cc |
Złoty | Separator, linia | Format | Postać | 1 | Tylko SEPARATOR LINII U+2028 (LSEP) |
Z p | Separator, akapit | Format | Postać | 1 | Tylko SEPARATOR AKAPITÓW U+2029 (PSEP) |
C, inne | |||||
DW | Inne, kontrola | Kontrola | Postać | 65 (nigdy się nie zmieni) | Bez imienia, <sterowanie> |
cf | Inne, format | Format | Postać | 163 | Zawiera łącznik miękki , łączące znaki sterujące ( zwnj i zwj ), znaki sterujące obsługujące tekst dwukierunkowy oraz znaki znaczników języka |
Cs | Inne, surogat | Surogat | Nie (używany tylko w UTF-16 ) | 2048 (nigdy się nie zmieni) | Bez imienia, <surogat> |
Współ | Inne, do użytku prywatnego | Użytek prywatny | Charakter (ale nie określono interpretacji) | 137 468 ogółem (nigdy się nie zmieni) ( 6 400 w BMP , 131 068 w samolotach 15-16 ) | Brak nazwy, <do użytku prywatnego> |
Cn | Inne, nieprzypisane | Nieznakowy | Nie | 66 (nigdy się nie zmieni) | Bez imienia, <nieznakowy> |
Skryty | Nie | 829 768 | Bez imienia, <zarezerwowane> | ||
Interpunkcja
Znaki mają osobne właściwości oznaczające, że są znakami interpunkcyjnymi . Wszystkie właściwości mają wartości Yes/No : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Biała przestrzeń
Whitespace to powszechnie stosowana koncepcja efektu typograficznego. Zasadniczo obejmuje niewidoczne znaki, które mają efekt odstępów w renderowanym tekście. Zawiera spacje , tabulatory i nowe elementy sterujące formatowaniem linii. W Unicode taki znak ma ustawioną właściwość "WSpace=yes". W wersji 14.0 istnieje 25 białych znaków.
Nazwa | Punkt kodowy | Szerokość pudełka | Może się zepsuć ? | W IDN ? |
Scenariusz | Blok | Kategoria ogólna |
Uwagi | |
---|---|---|---|---|---|---|---|---|---|
tablica znaków | U+0009 | 9 | tak | Nie | Pospolity | Łacina podstawowa | Inne, kontrola |
HT, zakładka pozioma . Nazwana jednostka HTML/XML : 	 , LaTeX : '\tab'
|
|
wysuw linii | U + 000A | 10 | Czy linia łamania | Pospolity | Łacina podstawowa | Inne, kontrola |
LF, wysuw linii . Nazwana jednostka HTML/XML:

|
||
tabela wierszy | U + 000 mld | 11 | Czy linia łamania | Pospolity | Łacina podstawowa | Inne, kontrola |
VT, zakładka pionowa | ||
kanał formularzy | U + 000C | 12 | Czy linia łamania | Pospolity | Łacina podstawowa | Inne, kontrola |
FF, podawanie formularzy | ||
powrót karetki | U+000D | 13 | Czy linia łamania | Pospolity | Łacina podstawowa | Inne, kontrola |
CR, Zwrot karetki | ||
przestrzeń | U+0020 | 32 | tak | Nie | Pospolity | Łacina podstawowa | Separator, spacja |
Najczęściej (normalna przestrzeń ASCII) | |
następny wiersz | U+0085 | 133 | Czy linia łamania | Pospolity | Dodatek Latin-1 |
Inne, kontrola |
NEL, następna linia | ||
spacja bez przerwy | U+00A0 | 160 | Nie | Nie | Pospolity | Dodatek Latin-1 |
Separator, spacja |
Przestrzeń niełamliwa : identyczna z U+0020, ale bez punktu, w którym linia może być łamana. Nazwana jednostka HTML/XML: , LaTeX: '\'
|
|
znak spacji ogham | U+1680 | 5760 | tak | Nie | Ogham | Ogham | Separator, spacja |
Używany do międzysłowna separacji w Ogham tekstu. Zwykle pionowa linia w tekście pionowym lub pozioma linia w tekście poziomym, ale może być również pustą przestrzenią w czcionkach „bez stempla”. Wymaga czcionki Ogham. | |
en quad | U+2000 | 8192 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Szerokość jednego en . U+2002 jest kanonicznie odpowiednikiem tego znaku; Preferowany jest U+2002. | |
im quad | U+2001 | 8193 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Znany również jako „kwadrat barani”. Szerokość jednego em . U+2003 jest kanonicznie odpowiednikiem tego znaku; Preferowany jest U+2003. | |
en space | U+2002 | 8194 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Znany również jako „orzech”. Szerokość jednego en . U + 2000 En Quad jest kanonicznie odpowiednikiem tego znaku; Preferowany jest U+2002. Nazwana jednostka HTML/XML:   , LaTeX: '\enspace'
|
|
ich przestrzeń! | U+2003 | 8195 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Znany również jako „baranina”. Szerokość jednego em . U+2001 Em Quad jest kanonicznie odpowiednikiem tej postaci; Preferowany jest U+2003. Nazwana jednostka HTML/XML:   , LaTeX: '\quad'
|
|
spacja trzy na em | U+2004 | 8196 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Znany również jako „gruba przestrzeń”. Jedna trzecia szerokości em. Nazwana jednostka HTML/XML: 
|
|
cztery miejsca na em | U+2005 | 8197 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Znany również jako „przestrzeń środkowa”. Jedna czwarta szerokości em. Nazwana jednostka HTML/XML: 
|
|
przestrzeń sześć na em | U+2006 | 8198 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Jedna szósta szerokości em. W typografii komputerowej czasami utożsamiany z U+2009. | |
miejsce na figurę | U+2007 | 8199 | Nie | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Przestrzeń rysunkowa . W czcionkach z cyframi o stałej szerokości równej szerokości jednej cyfry. Nazwana jednostka HTML/XML: 
|
|
spacja interpunkcyjna | U+2008 | 8200 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Tak szerokie, jak wąska interpunkcja w czcionce, tj. szerokość kropki lub przecinka. Nazwana jednostka HTML/XML: 
|
|
cienka przestrzeń | U+2009 | 8201 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Cienka przestrzeń ; jedna piąta (czasami jedna szósta) szerokości em. Zalecany do stosowania jako separator tysięcy dla miar wykonanych w jednostkach SI . W przeciwieństwie do U+2002 do U+2008, jego szerokość może zostać dostosowana w składzie. Nazwana jednostka HTML/XML:   ; LaTeX: '\,'
|
|
przestrzeń na włosy | U+200A | 8202 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Cieńszy niż cienka przestrzeń. Nazwana jednostka HTML/XML:   ( nie działa we wszystkich przeglądarkach)
|
|
separator linii | U+2028 | 8232 | Czy linia łamania | Pospolity | Ogólna interpunkcja |
Separator, linia |
|||
separator akapitów | U+2029 | 8233 | Czy linia łamania | Pospolity | Ogólna interpunkcja |
Separator, akapit |
|||
wąska przestrzeń bez przerw | U+202F | 8239 | Nie | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
Wąska przestrzeń bez przerwy . Podobna funkcja do U+00A0 No-Break Space. W przypadku użycia z mongolskim, jego szerokość wynosi zwykle jedną trzecią normalnej przestrzeni; w innym kontekście jego szerokość czasami przypomina Thin Space (U+2009). | |
średnia przestrzeń matematyczna | U+205F | 8287 | tak | Nie | Pospolity | Ogólna interpunkcja |
Separator, spacja |
MMSP. Używany we wzorach matematycznych. Cztery osiemnaste em. W typografii matematycznej szerokości odstępów są zwykle podawane w całkowitych wielokrotnościach osiemnastej części em, a 4/18 em może być używany w kilku sytuacjach, na przykład między a i + oraz między + i b w wyrażenie a + b . Nazwana jednostka HTML/XML: 
|
|
przestrzeń ideograficzna | U + 3000 | 12288 | tak | Nie | Pospolity | Symbole i znaki interpunkcyjne CJK |
Separator, spacja |
Tak szeroki jak komórka znakowa CJK ( fullwidth ). Używany na przykład w tai tou . |
Nazwa | Punkt kodowy | Szerokość pudełka | Może się zepsuć ? | W IDN ? |
Scenariusz | Blok | Kategoria ogólna |
Uwagi | |
---|---|---|---|---|---|---|---|---|---|
mongolski separator samogłosek | U + 180E | 6158 | | tak | Nie | mongolski | mongolski | Inne, Format |
MVS. Znak wąskiej spacji, używany w języku mongolskim, który powoduje, że ostatnie dwa znaki słowa przybierają różne kształty. Nie jest już klasyfikowany jako znak spacji (tj. w kategorii Zs) w Unicode 6.3.0, mimo że był w poprzednich wersjach standardu. |
przestrzeń o zerowej szerokości | U+200B | 8203 | | tak | Nie | ? | Ogólna interpunkcja |
Inne, Format |
ZWSP, spacja o zerowej szerokości . Służy do wskazywania granic słów w systemach przetwarzania tekstu podczas używania skryptów, które nie używają wyraźnych odstępów. Jest on podobny do łącznika miękkiego , z tą różnicą, że ten ostatni służy do wskazywania granic sylab i powinien wyświetlać widoczny łącznik, gdy linia się na nim łamie. Nazwana jednostka HTML/XML :​
|
zerowa szerokość non-joiner | U + 200C | 8204 | | tak | Kontekst zależny | ? | Ogólna interpunkcja |
Inne, Format |
ZWNJ, niełączący o zerowej szerokości . Po umieszczeniu między dwoma znakami, które w innym przypadku byłyby połączone, ZWNJ powoduje, że są one drukowane odpowiednio w ich ostatecznej i początkowej formie. Nazwana jednostka HTML/XML:‌
|
łącznik o zerowej szerokości | U+200D | 8205 | | tak | Kontekst zależny | ? | Ogólna interpunkcja |
Inne, Format |
ZWJ, łącznik o zerowej szerokości . Po umieszczeniu między dwoma znakami, które w przeciwnym razie nie byłyby połączone, ZWJ powoduje ich wydrukowanie w połączonych formach. Może być również używany do wyświetlania formularzy łączących w izolacji. W zależności od tego, czy domyślnie oczekuje się ligatur lub koniunkcji, może albo wywołać (jak w emoji i syngaleskim ) albo powstrzymać (jak w Devanagari ) podstawienie pojedynczym glifem, jednocześnie pozwalając na użycie indywidualnych form łączących (w przeciwieństwie do ZWNJ). Nazwana jednostka HTML/XML:‍
|
słowo łącznik | U+2060 | 8288 | | Nie | Nie | ? | Ogólna interpunkcja |
Inne, Format |
WJ, stolarz słowny . Podobny do U+200B, ale bez punktu, w którym linia może zostać przerwana. Nazwana jednostka HTML/XML:⁠
|
zerowa szerokość niełamliwa spacja | U+FEFF | 65279 | | Nie | Nie | ? | Arabskie formularze prezentacyjne -B |
Inne, Format |
Spacja nierozdzielająca o zerowej szerokości . Używany głównie jako znacznik kolejności bajtów . Użycie jako wskazania braku złamania jest przestarzałe od Unicode 3.2; zamiast tego patrz U+2060. |
Inne ogólne cechy
Ideograficzne, alfabetyczne, nieznakowe.
Łącząc zajęcia
Niektóre popularne kody:
- 0 = litera odstępu, symbol lub modyfikator (np. a, (, ʰ)
- 1 = nakładka
- 6 = odczyt Han (znaki diakrytyczne CJK)
- 7 = nukta (diakrytyczną nukta w Indyjskie alfabety sylabiczne )
- 8 = znaki wyrażające kana
- 9 = virama
10–199 = różne klasy pozycji stałych
Oznaczenia, które dołącza się do litery podstawowej:
- 200 = dołączony w lewym dolnym rogu
- 202 = dołączony bezpośrednio poniżej (np. cedilla na ç)
- 204 = przymocowany w prawym dolnym rogu
- 208 = dołączony do lewej
- 210 = przymocowany z prawej strony
- 212 = przymocowany w lewym górnym rogu
- 214 = dołączony bezpośrednio powyżej
- 216 = przymocowany w prawym górnym rogu
Znaki, które nie są dołączane do litery podstawowej:
- 218 = dolny lewy
- 220 = bezpośrednio poniżej (np. pierścień na n̥)
- 222 = poniżej po prawej
- 224 = lewo
- 226 = dobrze
- 228 = powyżej po lewej
- 230 = powyżej (np. ostry akcent na á)
- 232 = powyżej po prawej
- 233 = dwukrotnie poniżej (podlega dwóch zasad)
- 234 = podwójna powyżej (rozciąga dwie podstawy)
- 240 = indeks dolny jota (tylko ten grecki znak diakrytyczny)
Kształtowanie, szerokość.
Pisanie dwukierunkowe
Sześć właściwości znaków dotyczy zapisu dwukierunkowego: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket i Bidi_Paired_Bracket_Type.
Jedną z głównych funkcji Unicode jest obsługa dwukierunkowego ( Bidi ) wyświetlania tekstu od prawej do lewej (od prawej do lewej) i od lewej do prawej (od lewej do prawej). Algorytm dwukierunkowy Unicode UAX9 opisuje proces prezentacji tekstu ze zmianami kierunków skryptu. Na przykład włącza cytat hebrajski w tekście angielskim. Bidi_Character_Type oznacza zachowanie znaku w pisaniu kierunkowym. Aby przesłonić kierunek, Unicode zdefiniował specjalne znaki sterujące formatowaniem ( Bidi-Control s). Znaki te mogą wymuszać kierunek iz definicji wpływają tylko na pisanie dwukierunkowe.
Każdy punkt kodowy ma właściwość o nazwie Bidi_Class . Definiuje swoje zachowanie w tekście dwukierunkowym zgodnie z interpretacją algorytmu:
Rodzaj | Opis | Wytrzymałość | Kierunkowość | Zakres ogólny | Bidi_Control znak |
---|---|---|---|---|---|
L | Od lewej do prawej | Silny | Od lewej do prawej | Większość znaków alfabetycznych i sylabicznych, znaki chińskie, cyfry nieeuropejskie lub niearabskie, znaki LRM, ... | U+200E ZNAK OD LEWEJ DO PRAWEJ (LRM) |
r | Od prawej do lewej | Silny | R-do-L | Adlam, hebrajski, mandajski, Mende Kikakui, N'Ko, Samarytanin, starożytne skrypty, takie jak Kharoshthi i Nabataean, postać RLM, ... | U+200F ZNAK OD PRAWEJ DO LEWEJ (RLM) |
glin | Arabska litera | Silny | R-do-L | Alfabety arabski, Hanifi Rohingya, Sogdian, Syryjski i Thaana oraz większość znaków interpunkcyjnych charakterystycznych dla tych skryptów, znak ALM, ... | U+061C ZNAK LISTOWY (ALM) |
PL | Numer europejski | Słaby | Cyfry europejskie, cyfry wschodnio-arabsko-indyjskie, cyfry koptyjskie, ... | ||
ES | Separator europejski | Słaby | znak plus , minus , ... | ||
ET | Europejski Terminator Numerów | Słaby | znak stopnia , symbole waluty, ... | ||
JAKIŚ | Liczba arabska | Słaby | Cyfry arabsko-indyjskie, arabskie separatory dziesiętne i tysiące, cyfry Rumi, cyfry Hanifi Rohingya, ... | ||
CS | Separator wspólnych liczb | Słaby | dwukropek , przecinek , kropka , przestrzeń bez przerwy ... | ||
NSM | Znak bez odstępów | Słaby | Znaki w kategoriach ogólnych Znak, bez odstępów i Znak, obejmujący (Mn, Me) | ||
BN | Granica neutralna | Słaby | Domyślne elementy ignorowane, niebędące znakami, znaki kontrolne inne niż te, które wyraźnie podano innym typom | ||
b | Separator akapitów | Neutralny | separator akapitów , odpowiednie funkcje Newline, określanie akapitów protokołu wyższego poziomu | ||
S | Separator segmentów | Neutralny | Karty | ||
WS | Biała przestrzeń | Neutralny | spacja , spacja , separator linii , wysuw strony , spacje blokowe znaków interpunkcyjnych (ustawienie mniejsze niż na liście białych znaków Unicode ) | ||
NA | Inne neutralne | Neutralny | Wszystkie inne znaki, w tym znak zastępujący obiekt | ||
LRE | Osadzanie od lewej do prawej | Wyraźny | Od lewej do prawej | Tylko znak LRE | U+202A Osadzanie od lewej do prawej (LRE) |
LRO | Zastępowanie od lewej do prawej | Wyraźny | Od lewej do prawej | Tylko postać LRO | U + 202D NADRZĘDNE OD LEWEJ DO PRAWEJ (LRO) |
RLE | Osadzanie od prawej do lewej | Wyraźny | R-do-L | Tylko znak RLE | Osadzanie U+202B OD PRAWEJ DO LEWEJ (RLE) |
RLO | Zastępowanie od prawej do lewej | Wyraźny | R-do-L | Tylko znak RLO | U+202E OBSŁUGA Z PRAWEJ DO LEWEJ (RLO) |
Popowy format kierunkowy | Wyraźny | Tylko znak PDF | FORMATOWANIE KIERUNKOWE POP U+202C (PDF) | ||
LRI | Izoluj od lewej do prawej | Wyraźny | Od lewej do prawej | Tylko znak LRI | U+2066 IZOLACJA OD LEWEJ DO PRAWEJ (LRI) |
RLI | Izoluj od prawej do lewej | Wyraźny | R-do-L | Tylko znak RLI | U+2067 IZOLACJA OD PRAWEJ DO LEWEJ (RLI) |
FSI | Pierwszy silny izolat | Wyraźny | Tylko znak FSI | U+2068 PIERWSZY MOCNY IZOLAT (FSI) | |
PDI | Izolowanie kierunkowe pop | Wyraźny | Tylko znak PDI | U+2069 IZOLAT KIERUNKOWY POP (PDI) | |
Uwagi
|
W normalnych sytuacjach algorytm może określić kierunek tekstu za pomocą tej właściwości znaku. Aby kontrolować bardziej złożone sytuacje Bidi, np. gdy tekst w języku angielskim zawiera cytat hebrajski, do Unicode dodawane są dodatkowe opcje. Dwanaście znaków ma właściwość Bidi_Control=Tak : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM i RLO zgodnie z nazwami podanymi w tabeli. Są to niewidoczne znaki sterujące formatowaniem, używane tylko przez algorytm i bez wpływu poza formatowaniem dwukierunkowym. Pomimo nazwy są to znaki formatujące, a nie znaki kontrolne, i mają kategorię ogólną „Inne, format (Cf)” w definicji Unicode.
Zasadniczo algorytm określa sekwencję znaków o tym samym typie silnego kierunku (R-to-L lub L-to-R), biorąc pod uwagę unieważnienie przez specjalne kontrolki Bidi. Ciągi liczbowe (typy słabe) mają przypisany kierunek zgodnie z ich silnym otoczeniem, podobnie jak znaki neutralne. Wreszcie znaki są wyświetlane zgodnie z kierunkiem ciągu.
Przy określaniu odbicia lustrzanego glifu w tekście dwukierunkowym istotne są dwie właściwości znaku: Bidi_Mirrored=Tak wskazuje, że glif powinien być odbity lustrzanie podczas zapisywania z R-do-L. Właściwość Bidi_Mirroring_Glyph=U+ hhhh może wtedy wskazywać na lustrzany znak. Na przykład nawiasy „()” są w ten sposób odzwierciedlane. Kształtowanie pisma kursywnego, takiego jak arabski, i odwzorowywanie glifów, które mają kierunek, nie jest częścią algorytmu.
Obudowa
Wartość Case jest Normative w Unicode. Dotyczy to tych pism z dużymi (czyli dużymi, majuskułowymi) i małymi (czyli małymi, miniaturowymi) literami. Różnice w wielkości liter występują w pismach adlam, ormiańskim, czerokeskim, koptyjskim, cyrylicy, pustynnym, głagolicy, greckim, khutsuri i mkhedruli.
(górny, dolny, tytułowy, składany – zarówno prosty, jak i pełny)
Wartości liczbowe i typy
Dziesiętny
Znaki są klasyfikowane za pomocą typu Numeric . Znaki takie jak ułamki, indeksy dolne, indeksy górne, cyfry rzymskie, liczniki walut, liczby w kółkach i cyfry specyficzne dla skryptu są typu Numeryczne. Mają wartość liczbową, która może być dziesiętna, w tym zero i ujemna, lub ułamek wulgarny. Jeśli nie ma takiej wartości, jak w przypadku większości znaków, typ numeryczny to „Brak”.
Znaki, które mają wartość liczbową, są podzielone na trzy grupy: Dziesiętne (De), Cyfry (Di) i Numeryczne (Nu, czyli wszystkie inne). „Dziesiętny” oznacza, że znak jest prostą cyfrą dziesiętną. Tylko znaki, które są częścią ciągłego zakodowanego zakresu 0..9, mają typ liczbowy Dziesiętny. Inne cyfry, takie jak indeks górny, mają typ numeryczny Digit. Wszystkie znaki numeryczne, takie jak ułamki i cyfry rzymskie, kończą się typem „Numeryczny”. Zamierzonym efektem jest to, że prosty parser może używać tych dziesiętnych wartości liczbowych, bez rozpraszania się, powiedzmy, liczbowym indeksem górnym lub ułamkiem. Siedemdziesiąt trzy ideogramy CJK, które reprezentują liczbę, w tym te używane do księgowania, są wpisywane jako Numeryczne.
Z drugiej strony znaki, które mogą mieć wartość liczbową jako drugie znaczenie, są nadal oznaczone jako Typ liczbowy „Brak” i nie mają wartości liczbowej („”). Np. litery łacińskie mogą być użyte w numeracji akapitów jak "II.A.1.b", ale litery "I", "A" i "b" nie są numeryczne (typ "Brak") i nie mają wartości numerycznej.
właściwość znaku Unicode ) | Typ liczbowy (||||
---|---|---|---|---|
Typ numeryczny | Kod | Ma wartość liczbową | Przykład | Uwagi |
Nie numeryczne | None |
Nie |
|
Wartość liczbowa="NaN" |
Dziesiętny | De |
tak |
|
Cyfra prosta (dziesiętna- podstawa ). Odpowiada w obie strony z ogólną kategorią =Nd |
Cyfra | Di |
tak |
|
Dziesiętny, ale w kontekście typograficznym |
Numeryczne | Nu |
tak |
|
Wartość liczbowa, ale nie dziesiętna-podstawa |
a. ^ „Sekcja 4.6: Wartość liczbowa” (PDF) . Standard Unicode . Konsorcjum Unicode. wrzesień 2021. | ||||
b. ^ „Pochodne typy liczbowe Unicode 14.0” . Baza znaków Unicode . Konsorcjum Unicode. 2021-03-08. |
Cyfry szesnastkowe
Znaki szesnastkowe to te w serii o wartościach szesnastkowych 0...9ABCDEF (szesnaście znaków, wartość dziesiętna 0-15). Właściwość znaku Hex_Digit jest ustawiona na Tak, gdy znak znajduje się w takiej serii:
Znaki w Unicode oznaczone Hex_Digit=Yes
|
|||
---|---|---|---|
0123456789ABCDEF |
Łacina podstawowa, wielkie litery | Także ASCII_Hex_Digit=Yes
|
|
0123456789abcdef |
Łacina podstawowa, małe litery | Także ASCII_Hex_Digit=Yes
|
|
0123456789ABCDEF |
Formularze o pełnej szerokości , wielkie litery | ||
0123456789abcdef |
Formularze o pełnej szerokości, małe litery | ||
a. ^ „Unicode 14.0 UCD: PropList.txt” . 2021-08-12 . Źródło 2020-03-12 . |
Czterdzieści cztery znaki są oznaczone jako Hex_Digit. Te w bloku Basic Latin są również oznaczone jako ASCII_Hex_Digit .
Unicode nie ma oddzielnych znaków dla wartości szesnastkowych. Konsekwencją jest to, że używając zwykłych znaków nie można określić, czy wartość szesnastkowa jest zamierzona, a nawet czy w ogóle jest zamierzona. Należy to określić na wyższym poziomie, np. dodając „0x” do liczby szesnastkowej lub przez kontekst. Jedyną cechą jest to, że Unicode może zauważyć, że sekwencja może lub nie może być wartością szesnastkową.
Blok
Blok jest jednoznacznie nazwane, przylegająca gama punktów kodowych. Jest identyfikowany przez swój pierwszy i ostatni punkt kodowy. Bloki nie nakładają się . Blok może zawierać punkty kodowe, które są zastrzeżone, nie przypisane itd. Każda postać, która jest przypisana, posiada pojedynczy blok „nazwa” wartość od 320 nazw przypisanych od wersji Unicode 14.0 Niepodpisane punkty kodowe zewnątrz istniejącego bloku, mają wartość domyślna „Brak_bloku”.
Samolot | Zakres bloków | Nazwa bloku | Punkty kodowe | Przypisane postacie | Skrypty |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Łacina podstawowa | 128 | 128 | Łaciński (52 znaki), Wspólny (76 znaków) |
0 BMP | U+0080..U+00FF | Dodatek Latin-1 | 128 | 128 | Łaciński (64 znaki), Wspólny (64 znaki) |
0 BMP | U+0100..U+017F | Rozszerzony łaciński-A | 128 | 128 | łacina |
0 BMP | U+0180..U+024F | Rozszerzony łaciński-B | 208 | 208 | łacina |
0 BMP | U+0250..U+02AF | Rozszerzenia IPA | 96 | 96 | łacina |
0 BMP | U+02B0..U+02FF | Odstępy modyfikujące litery | 80 | 80 | Bopomofo (2 znaki), Latin (14 znaków), Common (64 znaki) |
0 BMP | U+0300..U+036F | Łączenie znaków diakrytycznych | 112 | 112 | Dziedziczny |
0 BMP | U+0370..U+03FF | grecki i koptyjski | 144 | 135 | Koptyjski (14 znaków), Grecki (117 znaków), Wspólny (4 znaki) |
0 BMP | U+0400..U+04FF | cyrylica | 256 | 256 | Cyrylica (254 znaki), Dziedziczona (2 znaki) |
0 BMP | U+0500..U+052F | Dodatek cyrylicy | 48 | 48 | cyrylica |
0 BMP | U+0530..U+058F | ormiański | 96 | 91 | ormiański |
0 BMP | U+0590..U+05FF | hebrajski | 112 | 88 | hebrajski |
0 BMP | U+0600..U+06FF | arabski | 256 | 256 | Arabski (238 znaków), Powszechny (6 znaków), Dziedziczony (12 znaków) |
0 BMP | U+0700..U+074F | syryjski | 80 | 77 | syryjski |
0 BMP | U+0750..U+077F | Dodatek arabski | 48 | 48 | arabski |
0 BMP | U+0780..U+07BF | Thana | 64 | 50 | Thana |
0 BMP | U+07C0..U+07FF | NKo | 64 | 62 | Nko |
0 BMP | U+0800..U+083F | Samarytanin | 64 | 61 | Samarytanin |
0 BMP | U+0840..U+085F | Mandaic | 32 | 29 | Mandaic |
0 BMP | U+0860..U+086F | Suplement syryjski | 16 | 11 | syryjski |
0 BMP | U+0870..U+089F | arabski rozszerzony-B | 48 | 41 | arabski |
0 BMP | U+08A0..U+08FF | Arabski Rozszerzony-A | 96 | 96 | Arabski (95 znaków), Wspólny (1 znak) |
0 BMP | U+0900..U+097F | dewanagari | 128 | 128 | Dewanagari (122 znaki), Wspólne (2 znaki), Dziedziczone (4 znaki) |
0 BMP | U+0980..U+09FF | bengalski | 128 | 96 | bengalski |
0 BMP | U+0A00..U+0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U+0A80..U+0AFF | gudżarati | 128 | 91 | gudżarati |
0 BMP | U+0B00..U+0B7F | orija | 128 | 91 | orija |
0 BMP | U+0B80..U+0BFF | Tamil | 128 | 72 | Tamil |
0 BMP | U+0C00..U+0C7F | telugu | 128 | 100 | telugu |
0 BMP | U+0C80..U+0CFF | Kannada | 128 | 90 | Kannada |
0 BMP | U+0D00..U+0D7F | malajalam | 128 | 118 | malajalam |
0 BMP | U+0D80..U+0DFF | syngaleski | 128 | 91 | syngaleski |
0 BMP | U+0E00..U+0E7F | tajski | 128 | 87 | Tajski (86 znaków), Wspólny (1 znak) |
0 BMP | U+0E80..U+0EFF | laotański | 128 | 82 | laotański |
0 BMP | U+0F00..U+0FFF | tybetański | 256 | 211 | Tybetański (207 znaków), wspólny (4 znaki) |
0 BMP | U+1000..U+109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U+10A0..U+10FF | gruziński | 96 | 88 | Gruziński (87 znaków), Zwykły (1 znak) |
0 BMP | U+1100..U+11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U+1200..U+137F | Etiopski | 384 | 358 | Etiopski |
0 BMP | U+1380..U+139F | Dodatek etiopski | 32 | 26 | Etiopski |
0 BMP | U+13A0..U+13FF | Czirokez | 96 | 92 | Czirokez |
0 BMP | U+1400..U+167F | Ujednolicone sylaby kanadyjskich aborygenów | 640 | 640 | Kanadyjski Aborygen |
0 BMP | U+1680..U+169F | Ogham | 32 | 29 | Ogham |
0 BMP | U+16A0..U+16FF | Runiczny | 96 | 89 | Runiczny (86 znaków), Zwykły (3 znaki) |
0 BMP | U+1700..U+171F | tagalski | 32 | 23 | tagalski |
0 BMP | U+1720..U+173F | Hanuno | 32 | 23 | Hanunoo (21 znaków), Wspólne (2 znaki) |
0 BMP | U+1740..U+175F | Buhid | 32 | 20 | Buhid |
0 BMP | U+1760..U+177F | Tagbanowa | 32 | 18 | Tagbanowa |
0 BMP | U+1780..U+17FF | khmerski | 128 | 114 | khmerski |
0 BMP | U+1800..U+18AF | mongolski | 176 | 158 | Mongolski (155 znaków), Wspólny (3 znaki) |
0 BMP | U+18B0..U+18FF | Rozszerzone ujednolicone kanadyjskie sylaby aborygeńskie | 80 | 70 | Kanadyjski Aborygen |
0 BMP | U+1900..U+194F | Limbu | 80 | 68 | Limbu |
0 BMP | U+1950..U+197F | Tai Le | 48 | 35 | Tai Le |
0 BMP | U+1980..U+19DF | Nowy Tai Lue | 96 | 83 | Nowy Tai Lue |
0 BMP | U+19E0..U+19FF | Symbole khmerskie | 32 | 32 | khmerski |
0 BMP | U+1A00..U+1A1F | bugijski | 32 | 30 | bugijski |
0 BMP | U+1A20..U+1AAF | Tai Tham | 144 | 127 | Tai Tham |
0 BMP | U+1AB0..U+1AFF | Łączenie znaków diakrytycznych Rozszerzone | 80 | 31 | Dziedziczny |
0 BMP | U+1B00..U+1B7F | balijski | 128 | 124 | balijski |
0 BMP | U+1B80..U+1BBF | sundajski | 64 | 64 | sundajski |
0 BMP | U+1BC0..U+1BFF | Batak | 64 | 56 | Batak |
0 BMP | U+1C00..U+1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U+1C50..U+1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U+1C80..U+1C8F | Cyrylica Rozszerzona-C | 16 | 9 | cyrylica |
0 BMP | U+1C90..U+1CBF | gruziński rozszerzony | 48 | 46 | gruziński |
0 BMP | U+1CC0..U+1CCF | Dodatek sundajski | 16 | 8 | sundajski |
0 BMP | U+1CD0..U+1CFF | Rozszerzenia wedyjskie | 48 | 43 | Wspólne (16 znaków), Dziedziczone (27 znaków) |
0 BMP | U+1D00..U+1D7F | Rozszerzenia fonetyczne | 128 | 128 | Cyrylica (2 znaki), Grecka (15 znaków), Łacina (111 znaków) |
0 BMP | U+1D80..U+1DBF | Dodatek do rozszerzeń fonetycznych | 64 | 64 | Grecki (1 znak), łaciński (63 znaki) |
0 BMP | U+1DC0..U+1DFF | Łączenie dodatku do znaków diakrytycznych | 64 | 64 | Dziedziczny |
0 BMP | U+1E00..U+1EFF | Rozszerzona łacina Dodatkowe | 256 | 256 | łacina |
0 BMP | U+1F00..U+1FFF | grecki rozszerzony | 256 | 233 | grecki |
0 BMP | U+2000..U+206F | Ogólna interpunkcja | 112 | 111 | Wspólne (109 znaków), Dziedziczone (2 znaki) |
0 BMP | U+2070..U+209F | Indeksy górne i dolne | 48 | 42 | Łacina (15 znaków), Wspólna (27 znaków) |
0 BMP | U+20A0..U+20CF | Symbole walut | 48 | 33 | Pospolity |
0 BMP | U+20D0..U+20FF | Łączenie znaków diakrytycznych dla symboli | 48 | 33 | Dziedziczny |
0 BMP | U+2100..U+214F | Symbole literopodobne | 80 | 80 | Grecki (1 znak), łaciński (4 znaki), wspólny (75 znaków) |
0 BMP | U+2150..U+218F | Formularze liczbowe | 64 | 60 | Łacina (41 znaków), Wspólna (19 znaków) |
0 BMP | U+2190..U+21FF | Strzałki | 112 | 112 | Pospolity |
0 BMP | U+2200..U+22FF | Operatory matematyczne | 256 | 256 | Pospolity |
0 BMP | U+2300..U+23FF | Różne techniczne | 256 | 256 | Pospolity |
0 BMP | U+2400..U+243F | Kontroluj zdjęcia | 64 | 39 | Pospolity |
0 BMP | U+2440..U+245F | Optyczne rozpoznawanie znaków | 32 | 11 | Pospolity |
0 BMP | U+2460..U+24FF | Zamknięte alfanumeryczne | 160 | 160 | Pospolity |
0 BMP | U+2500..U+257F | Rysunek w pudełku | 128 | 128 | Pospolity |
0 BMP | U+2580..U+259F | Blokuj elementy | 32 | 32 | Pospolity |
0 BMP | U+25A0..U+25FF | Figury geometryczne | 96 | 96 | Pospolity |
0 BMP | U+2600..U+26FF | Różne symbole | 256 | 256 | Pospolity |
0 BMP | U+2700..U+27BF | Dingbaty | 192 | 192 | Pospolity |
0 BMP | U+27C0..U+27EF | Różne symbole matematyczne-A | 48 | 48 | Pospolity |
0 BMP | U+27F0..U+27FF | Dodatkowe strzałki-A | 16 | 16 | Pospolity |
0 BMP | U+2800..U+28FF | Wzory brajlowskie | 256 | 256 | Brajl |
0 BMP | U+2900..U+297F | Dodatkowe strzałki-B | 128 | 128 | Pospolity |
0 BMP | U+2980..U+29FF | Różne symbole matematyczne-B | 128 | 128 | Pospolity |
0 BMP | U+2A00..U+2AFF | Uzupełniające operatory matematyczne | 256 | 256 | Pospolity |
0 BMP | U+2B00..U+2BFF | Różne symbole i strzałki | 256 | 253 | Pospolity |
0 BMP | U+2C00..U+2C5F | głagolicy | 96 | 96 | głagolicy |
0 BMP | U+2C60..U+2C7F | Rozszerzony łaciński-C | 32 | 32 | łacina |
0 BMP | U+2C80..U+2CFF | koptyjski | 128 | 123 | koptyjski |
0 BMP | U+2D00..U+2D2F | Dodatek gruziński | 48 | 40 | gruziński |
0 BMP | U+2D30..U+2D7F | Tifinagh | 80 | 59 | Tifinagh |
0 BMP | U+2D80..U+2DDF | Rozszerzony etiopski | 96 | 79 | Etiopski |
0 BMP | U+2DE0..U+2DFF | Rozszerzona cyrylica-A | 32 | 32 | cyrylica |
0 BMP | U+2E00..U+2E7F | Dodatkowa interpunkcja | 128 | 94 | Pospolity |
0 BMP | U+2E80..U+2EFF | Dodatek do Radykałów CJK | 128 | 115 | Han |
0 BMP | U+2F00..U+2FDF | Radykałowie z Kangxi | 224 | 214 | Han |
0 BMP | U+2FF0..U+2FFF | Ideograficzny opis znaków | 16 | 12 | Pospolity |
0 BMP | U+3000..U+303F | Symbole i znaki interpunkcyjne CJK | 64 | 64 | Han (15 znaków), Hangul (2 znaki), Common (43 znaki), Dziedziczone (4 znaki) |
0 BMP | U+3040..U+309F | Hiragana | 96 | 93 | Hiragana (89 znaków), Wspólne (2 znaki), Dziedziczone (2 znaki) |
0 BMP | U+30A0..U+30FF | Katakana | 96 | 96 | Katakana (93 znaki), Wspólna (3 znaki) |
0 BMP | U+3100..U+312F | Bopomofo | 48 | 43 | Bopomofo |
0 BMP | U+3130..U+318F | Kompatybilność Hangul Jamo | 96 | 94 | Hangul |
0 BMP | U+3190..U+319F | Kanbun | 16 | 16 | Pospolity |
0 BMP | U+31A0..U+31BF | Bopomofo Rozszerzony | 32 | 32 | Bopomofo |
0 BMP | U+31C0..U+31EF | Uderzenia CJK | 48 | 36 | Pospolity |
0 BMP | U+31F0..U+31FF | Rozszerzenia fonetyczne Katakana | 16 | 16 | Katakana |
0 BMP | U+3200..U+32FF | Załączone listy i miesiące CJK | 256 | 255 | Hangul (62 znaki), Katakana (47 znaków), Common (146 znaków) |
0 BMP | U+3300..U+33FF | Kompatybilność z CJK | 256 | 256 | Katakana (88 znaków), Wspólna (168 znaków) |
0 BMP | U+3400..U+4DBF | Rozszerzenie CJK Unified Ideographs A | 6592 | 6592 | Han |
0 BMP | U+4DC0..U+4DFF | Symbole heksagramu Yijing | 64 | 64 | Pospolity |
0 BMP | U+4E00..U+9FFF | Zunifikowane ideogramy CJK | 20 992 | 20 992 | Han |
0 BMP | U+A000..U+A48F | Sylaby Yi | 1168 | 1,165 | Yi |
0 BMP | U+A490..U+A4CF | Radykałowie Yi | 64 | 55 | Yi |
0 BMP | U+A4D0..U+A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U+A500..U+A63F | Vai | 320 | 300 | Vai |
0 BMP | U+A640..U+A69F | Rozszerzona cyrylica-B | 96 | 96 | cyrylica |
0 BMP | U+A6A0..U+A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U+A700..U+A71F | Modyfikator Ton Litery | 32 | 32 | Pospolity |
0 BMP | U+A720..U+A7FF | Rozszerzony łaciński-D | 224 | 193 | Łacina (188 znaków), Wspólna (5 znaków) |
0 BMP | U+A800..U+A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U+A830..U+A83F | Typowe formy liczb indyjskich | 16 | 10 | Pospolity |
0 BMP | U+A840..U+A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U+A880..U+A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U+A8E0..U+A8FF | dewanagari rozszerzone | 32 | 32 | dewanagari |
0 BMP | U+A900..U+A92F | Kayah Li | 48 | 48 | Kayah Li (47 znaków), Zwykłe (1 znak) |
0 BMP | U+A930..U+A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U+A960..U+A97F | Hangul Jamo Rozszerzony-A | 32 | 29 | Hangul |
0 BMP | U+A980..U+A9DF | jawajski | 96 | 91 | Jawajski (90 znaków), Zwykły (1 znak) |
0 BMP | U+A9E0..U+A9FF | Birma Rozszerzone-B | 32 | 31 | Myanmar |
0 BMP | U+AA00..U+AA5F | Czam | 96 | 83 | Czam |
0 BMP | U+AA60..U+AA7F | Rozszerzona Birma-A | 32 | 32 | Myanmar |
0 BMP | U+AA80..U+AADF | Taj Wietnam | 96 | 72 | Taj Wietnam |
0 BMP | U+AAE0..U+AAFF | Rozszerzenia Meetei Mayek | 32 | 23 | Meetei Mayek |
0 BMP | U+AB00..U+AB2F | Etiopski rozszerzony-A | 48 | 32 | Etiopski |
0 BMP | U+AB30..U+AB6F | Rozszerzony łaciński-E | 64 | 60 | Łaciński (56 znaków), Grecki (1 znak), Powszechny (3 znaki) |
0 BMP | U+AB70..U+ABBF | Dodatek Cherokee | 80 | 80 | Czirokez |
0 BMP | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U+AC00..U+D7AF | Sylaby Hangul | 11184 | 11172 | Hangul |
0 BMP | U+D7B0..U+D7FF | Hangul Jamo Rozszerzony-B | 80 | 72 | Hangul |
0 BMP | U+D800..U+DB7F | Wysokie Surogaty | 896 | 0 | Nieznany |
0 BMP | U+DB80..U+DBFF | Substytuty wysokiego użytku prywatnego | 128 | 0 | Nieznany |
0 BMP | U+DC00..U+DFFF | Niskie surogaty | 1024 | 0 | Nieznany |
0 BMP | U+E000..U+F8FF | Obszar prywatnego użytku | 6400 | 6400 | Nieznany |
0 BMP | U+F900..U+FAFF | Ideogramy zgodności CJK | 512 | 472 | Han |
0 BMP | U+FB00..U+FB4F | Alfabetyczne formularze prezentacji | 80 | 58 | Ormiański (5 znaków), Hebrajski (46 znaków), Łacina (7 znaków) |
0 BMP | U+FB50..U+FDFF | Arabskie formy prezentacji-A | 688 | 631 | Arabski (629 znaków), Powszechny (2 znaki) |
0 BMP | U+FE00..U+FE0F | Selektory odmian | 16 | 16 | Dziedziczny |
0 BMP | U+FE10..U+FE1F | Formy pionowe | 16 | 10 | Pospolity |
0 BMP | U+FE20..U+FE2F | Łączenie połówkowych | 16 | 16 | Cyrylica (2 znaki), Dziedziczona (14 znaków) |
0 BMP | U+FE30..U+FE4F | Formularze zgodności CJK | 32 | 32 | Pospolity |
0 BMP | U+FE50..U+FE6F | Warianty małej formy | 32 | 26 | Pospolity |
0 BMP | U+FE70..U+FEFF | Arabskie formularze prezentacyjne-B | 144 | 141 | Arabski (140 znaków), Wspólny (1 znak) |
0 BMP | U+FF00..U+FFEF | Formularze o połowie szerokości i pełnej szerokości | 240 | 225 | Hangul (52 znaki), Katakana (55 znaków), Latin (52 znaki), Common (66 znaków) |
0 BMP | U+FFF0..U+FFFF | Promocje | 16 | 5 | Pospolity |
1 SMP | U+10000..U+1007F | Sylabariusz liniowy B | 128 | 88 | Liniowy B |
1 SMP | U+10080..U+100FF | Ideogramy liniowe B | 128 | 123 | Liniowy B |
1 SMP | U+10100..U+1013F | Liczby Egejskie | 64 | 57 | Pospolity |
1 SMP | U+10140..U+1018F | Liczby starożytne greckie | 80 | 79 | grecki |
1 SMP | U+10190..U+101CF | Starożytne symbole | 64 | 14 | Grecki (1 znak), Powszechny (13 znaków) |
1 SMP | U+101D0..U+101FF | Dysk Fajstos | 48 | 46 | Wspólne (45 znaków), Dziedziczone (1 znak) |
1 SMP | U+10280..U+1029F | Lycian | 32 | 29 | Lycian |
1 SMP | U+102A0..U+102DF | Carian | 64 | 49 | Carian |
1 SMP | U+102E0..U+102FF | Koptyjskie liczby Epact | 32 | 28 | Wspólne (27 znaków), Dziedziczone (1 znak) |
1 SMP | U+10300..U+1032F | Stara kursywa | 48 | 39 | Stara kursywa |
1 SMP | U+10330..U+1034F | gotyk | 32 | 27 | gotyk |
1 SMP | U+10350..U+1037F | Stary Permik | 48 | 43 | Stary Permik |
1 SMP | U+10380..U+1039F | ugarycki | 32 | 31 | ugarycki |
1 SMP | U+103A0..U+103DF | staroperski | 64 | 50 | staroperski |
1 SMP | U+10400..U+1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U+10450..U+1047F | Shavian | 48 | 48 | Shavian |
1 SMP | U+10480..U+104AF | Osmania | 48 | 40 | Osmania |
1 SMP | U+104B0..U+104FF | Osage | 80 | 72 | Osage |
1 SMP | U+10500..U+1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U+10530..U+1056F | kaukaski albański | 64 | 53 | kaukaski albański |
1 SMP | U+10570..U+105BF | Vithkuqi | 80 | 70 | Vithkuqi |
1 SMP | U+10600..U+1077F | Liniowy A | 384 | 341 | Liniowy A |
1 SMP | U+10780..U+107BF | Łaciński rozszerzony-F | 64 | 57 | łacina |
1 SMP | U+10800..U+1083F | cypryjski sylabariusz | 64 | 55 | cypryjski |
1 SMP | U+10840..U+1085F | cesarski aramejski | 32 | 31 | cesarski aramejski |
1 SMP | U+10860..U+1087F | Palmyrene | 32 | 32 | Palmyrene |
1 SMP | U+10880..U+108AF | nabatejski | 48 | 40 | nabatejski |
1 SMP | U+108E0..U+108FF | Hatran | 32 | 26 | Hatran |
1 SMP | U+10900..U+1091F | fenicki | 32 | 29 | fenicki |
1 SMP | U+10920..U+1093F | Lidian | 32 | 27 | Lidian |
1 SMP | U+10980..U+1099F | Hieroglify meroickie | 32 | 32 | Hieroglify meroickie |
1 SMP | U+109A0..U+109FF | Kursywa meroicka | 96 | 90 | Kursywa meroicka |
1 SMP | U+10A00..U+10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U+10A60..U+10A7F | Stary południowoarabski | 32 | 32 | Stary południowoarabski |
1 SMP | U+10A80..U+10A9F | Old North Arabian | 32 | 32 | Old North Arabian |
1 SMP | U+10AC0..U+10AFF | manichejski | 64 | 51 | manichejski |
1 SMP | U+10B00..U+10B3F | Awestan | 64 | 61 | Awestan |
1 SMP | U+10B40..U+10B5F | Inskrypcyjny Partów | 32 | 30 | Inskrypcyjny Partów |
1 SMP | U+10B60..U+10B7F | Inskrypcyjny Pahlavi | 32 | 27 | Inskrypcyjny Pahlavi |
1 SMP | U+10B80..U+10BAF | Psałterz Pahlawi | 48 | 29 | Psałterz Pahlawi |
1 SMP | U+10C00..U+10C4F | stary turecki | 80 | 73 | stary turecki |
1 SMP | U+10C80..U+10CFF | staro-węgierski | 128 | 108 | staro-węgierski |
1 SMP | U+10D00..U+10D3F | Hanifi Rohingja | 64 | 50 | Hanifi Rohingja |
1 SMP | U+10E60..U+10E7F | Symbole liczbowe Rumi | 32 | 31 | arabski |
1 SMP | U+10E80..U+10EBF | jazydów | 64 | 47 | jazydów |
1 SMP | U+10F00..U+10F2F | Stary Sogdian | 48 | 40 | Stary Sogdian |
1 SMP | U+10F30..U+10F6F | Sogdian | 64 | 42 | Sogdian |
1 SMP | U+10F70..U+10FAF | stary ujgurski | 64 | 26 | stary ujgurski |
1 SMP | U+10FB0..U+10FDF | Choraśmian | 48 | 28 | Choraśmian |
1 SMP | U+10FE0..U+10FFF | Elimaic | 32 | 23 | Elimaic |
1 SMP | U+11000..U+1107F | brahmi | 128 | 115 | brahmi |
1 SMP | U+11080..U+110CF | Kaiti | 80 | 68 | Kaiti |
1 SMP | U+110D0..U+110FF | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U+11100..U+1114F | Czakma | 80 | 71 | Czakma |
1 SMP | U+11150..U+1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U+11180..U+111DF | Szarada | 96 | 96 | Szarada |
1 SMP | U+111E0..U+111FF | Syngaleskie liczby archaiczne | 32 | 20 | syngaleski |
1 SMP | U+11200..U+1124F | Chojki | 80 | 62 | Chojki |
1 SMP | U+11280..U+112AF | Multani | 48 | 38 | Multani |
1 SMP | U+112B0..U+112FF | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U+11300..U+1137F | Grantha | 128 | 86 | Grantha (85 znaków), Dziedziczone (1 znak) |
1 SMP | U+11400..U+1147F | Newa | 128 | 97 | Newa |
1 SMP | U+11480..U+114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U+11580..U+115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U+11600..U+1165F | Modi | 96 | 79 | Modi |
1 SMP | U+11660..U+1167F | Dodatek mongolski | 32 | 13 | mongolski |
1 SMP | U+11680..U+116CF | Takri | 80 | 68 | Takri |
1 SMP | U+11700..U+1174F | Ahom | 80 | 65 | Ahom |
1 SMP | U+11800..U+1184F | Dogra | 80 | 60 | Dogra |
1 SMP | U+118A0..U+118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U+11900..U+1195F | Nurkowanie Akuru | 96 | 72 | Nurkowanie Akuru |
1 SMP | U+119A0..U+119FF | Nandinagari | 96 | 65 | Nandinagari |
1 SMP | U+11A00..U+11A4F | Plac Zanabazar | 80 | 72 | Plac Zanabazar |
1 SMP | U+11A50..U+11AAF | Sojombo | 96 | 83 | Sojombo |
1 SMP | U+11AB0..U+11ABF | Ujednolicone sylaby kanadyjskich aborygenów Rozszerzone-A | 16 | 16 | Kanadyjski Aborygen |
1 SMP | U+11AC0..U+11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U+11C00..U+11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U+11C70..U+11CBF | Marchen | 80 | 68 | Marchen |
1 SMP | U+11D00..U+11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U+11D60..U+11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U+11EE0..U+11EFF | Makasar | 32 | 25 | Makasar |
1 SMP | U+11FB0..U+11FBF | Suplement Lisu | 16 | 1 | Lisu |
1 SMP | U+11FC0..U+11FFF | Suplement tamilski | 64 | 51 | Tamil |
1 SMP | U+12000..U+123FF | Klinowy | 1024 | 922 | Klinowy |
1 SMP | U+12400..U+1247F | Cyfry klinowe i interpunkcja | 128 | 116 | Klinowy |
1 SMP | U+12480..U+1254F | Wczesnodynastyczny pismem klinowym | 208 | 196 | Klinowy |
1 SMP | U+12F90..U+12FFF | Cypro-Minoan | 112 | 99 | cypryjski minojski |
1 SMP | U+13000..U+1342F | Hieroglify egipskie | 1,072 | 1,071 | Hieroglify egipskie |
1 SMP | U+13430..U+1343F | Egipskie kontrolki formatu hieroglifów | 16 | 9 | Hieroglify egipskie |
1 SMP | U+14400..U+1467F | Hieroglify Anatolii | 640 | 583 | Hieroglify Anatolii |
1 SMP | U+16800..U+16A3F | Suplement Bamum | 576 | 569 | Bamum |
1 SMP | U+16A40..U+16A6F | Mro | 48 | 43 | Mro |
1 SMP | U+16A70..U+16ACF | Tangsa | 96 | 89 | Tangsa |
1 SMP | U+16AD0..U+16AFF | Bassa Wah | 48 | 36 | Bassa Wah |
1 SMP | U+16B00..U+16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U+16E40..U+16E9F | Medefaidrin | 96 | 91 | Medefaidrin |
1 SMP | U+16F00..U+16F9F | Miao | 160 | 149 | Miao |
1 SMP | U+16FE0..U+16FFF | Symbole ideograficzne i interpunkcja | 32 | 7 | Han (4 znaki), Khitan Small Script (1 znak), Nushu (1 znak), Tangut (1 znak) |
1 SMP | U+17000..U+187FF | Tangut | 6144 | 6136 | Tangut |
1 SMP | U+18800..U+18AFF | Komponenty Tangut | 768 | 768 | Tangut |
1 SMP | U+18B00..U+18CFF | Mały skrypt khitański | 512 | 470 | Mały skrypt khitański |
1 SMP | U+18D00..U+18D7F | Suplement Tangut | 128 | 9 | Tangut |
1 SMP | U+1AFF0..U+1AFFF | Kana Rozszerzone-B | 16 | 13 | Katakana |
1 SMP | U+1B000..U+1B0FF | Suplement Kana | 256 | 256 | Hiragana (255 znaków), Katakana (1 znak) |
1 SMP | U+1B100..U+1B12F | Kana Rozszerzone-A | 48 | 35 | Hiragana (32 znaki), Katakana (3 znaki) |
1 SMP | U+1B130..U+1B16F | Małe rozszerzenie Kana | 64 | 7 | Hiragana (3 znaki), Katakana (4 znaki) |
1 SMP | U+1B170..U+1B2FF | Nushu | 400 | 396 | Nüshu |
1 SMP | U+1BC00..U+1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U+1BCA0..U+1BCAF | Kontrolki formatu skróconego | 16 | 4 | Pospolity |
1 SMP | U+1CF00..U+1CFCF | Notacja muzyczna Znamenny | 208 | 185 | Wspólne (116 znaków), Dziedziczone (69 znaków) |
1 SMP | U+1D000..U+1D0FF | Bizantyjskie symbole muzyczne | 256 | 246 | Pospolity |
1 SMP | U+1D100..U+1D1FF | Symbole muzyczne | 256 | 233 | Wspólne (211 znaków), Dziedziczone (22 znaki) |
1 SMP | U+1D200..U+1D24F | Starożytna grecka notacja muzyczna | 80 | 70 | grecki |
1 SMP | U+1D2E0..U+1D2FF | Cyfry Majów | 32 | 20 | Pospolity |
1 SMP | U+1D300..U+1D35F | Symbole Tai Xuan Jing | 96 | 87 | Pospolity |
1 SMP | U+1D360..U+1D37F | Liczby liczące pręty | 32 | 25 | Pospolity |
1 SMP | U+1D400..U+1D7FF | Matematyczne symbole alfanumeryczne | 1024 | 996 | Pospolity |
1 SMP | U+1D800..U+1DAAF | Sutton znakPisanie | 688 | 672 | ZnakPisanie |
1 SMP | U+1DF00..U+1DFFF | Łaciński rozszerzony-G | 256 | 31 | łacina |
1 SMP | U+1E000..U+1E02F | Suplement głagolicy | 48 | 38 | głagolicy |
1 SMP | U+1E100..U+1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U+1E290..U+1E2BF | Toto | 48 | 31 | Toto |
1 SMP | U+1E2C0..U+1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U+1E7E0..U+1E7FF | Etiopski rozszerzony-B | 32 | 28 | Etiopski |
1 SMP | U+1E800..U+1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U+1E900..U+1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U+1EC70..U+1ECBF | Indyjskie liczby Siyaq | 80 | 68 | Pospolity |
1 SMP | U+1ED00..U+1ED4F | Osmańskie liczby Siyaq | 80 | 61 | Pospolity |
1 SMP | U+1EE00..U+1EEFF | Arabskie symbole matematyczne alfabetyczne | 256 | 143 | arabski |
1 SMP | U+1F000..U+1F02F | Płytki Mahjong | 48 | 44 | Pospolity |
1 SMP | U+1F030..U+1F09F | Płytki domina | 112 | 100 | Pospolity |
1 SMP | U+1F0A0..U+1F0FF | Grać w karty | 96 | 82 | Pospolity |
1 SMP | U+1F100..U+1F1FF | Załączony suplement alfanumeryczny | 256 | 200 | Pospolity |
1 SMP | U+1F200..U+1F2FF | Załączony suplement ideograficzny | 256 | 64 | Hiragana (1 znak), Wspólny (63 znaki) |
1 SMP | U+1F300..U+1F5FF | Różne symbole i piktogramy | 768 | 768 | Pospolity |
1 SMP | U+1F600..U+1F64F | Emotikony | 80 | 80 | Pospolity |
1 SMP | U+1F650..U+1F67F | Ozdobne Dingbaty | 48 | 48 | Pospolity |
1 SMP | U+1F680..U+1F6FF | Symbole transportu i mapy | 128 | 117 | Pospolity |
1 SMP | U+1F700..U+1F77F | Symbole alchemiczne | 128 | 116 | Pospolity |
1 SMP | U+1F780..U+1F7FF | Rozszerzone kształty geometryczne | 128 | 102 | Pospolity |
1 SMP | U+1F800..U+1F8FF | Dodatkowe strzałki-C | 256 | 150 | Pospolity |
1 SMP | U+1F900..U+1F9FF | Dodatkowe symbole i piktogramy | 256 | 256 | Pospolity |
1 SMP | U+1FA00..U+1FA6F | Symbole szachowe | 112 | 98 | Pospolity |
1 SMP | U+1FA70..U+1FAFF | Symbole i piktogramy rozszerzone-A | 144 | 88 | Pospolity |
1 SMP | U+1FB00..U+1FBFF | Symbole dla starszych komputerów | 256 | 212 | Pospolity |
2 SIP | U+20000..U+2A6DF | Rozszerzenie CJK Unified Ideographs B | 42 720 | 42 720 | Han |
2 SIP | U+2A700..U+2B73F | CJK Unified Ideographs Rozszerzenie C | 4160 | 4153 | Han |
2 SIP | U+2B740..U+2B81F | CJK Unified Ideographs Rozszerzenie D | 224 | 222 | Han |
2 SIP | U+2B820..U+2CEAF | Rozszerzenie CJK Unified Ideographs E | 5776 | 5762 | Han |
2 SIP | U+2CEB0..U+2EBEF | Rozszerzenie CJK Unified Ideographs F | 7488 | 7473 | Han |
2 SIP | U+2F800..U+2FA1F | Dodatek Ideogramy zgodności CJK | 544 | 542 | Han |
3 WSKAZÓWKA | U+30000..U+3134F | Rozszerzenie CJK Unified Ideographs G | 4944 | 4939 | Han |
14 SSP | U+E0000..U+E007F | Tagi | 128 | 97 | Pospolity |
14 SSP | U+E0100..U+E01EF | Dodatek dotyczący selektorów odmian | 240 | 240 | Dziedziczny |
15 PUA-A | U+F0000..U+FFFFFF | Dodatkowy obszar prywatnego użytku-A | 65 536 | 65 534 | Nieznany |
16 PUA-B | U+10000..U+10FFFF | Dodatkowy obszar prywatnego użytku-B | 65 536 | 65 534 | Nieznany |
Scenariusz
Każdy przypisany znak może mieć jedną wartość dla swojej właściwości „Skrypt”, co oznacza, do którego skryptu należy. Wartość jest czteroliterowym kodem z zakresu Aaaa-Zzzz, zgodnie z normą ISO 15924, który jest odwzorowany na system pisma . Oprócz opisu tła i użycia skryptu, Unicode nie używa połączenia między skryptem a językami, które używają tego skryptu. Tak więc „hebrajski” odnosi się do pisma hebrajskiego, a nie do języka hebrajskiego.
Specjalny kod Zyyy dla „Common” dopuszcza pojedynczą wartość dla znaku, który jest używany w wielu skryptach. Kod Zinh „Skrypt dziedziczony”, używany do łączenia znaków i niektórych innych punktów kodowych specjalnego przeznaczenia, wskazuje, że znak „dziedziczy” tożsamość skryptu po znaku, z którym jest połączony. (Unicode dawniej używał w tym celu prywatnego kodu Qaai.) Kod Zzzz „Nieznany” jest używany dla wszystkich znaków, które nie należą do skryptu (tj. wartości domyślnej), takich jak symbole i znaki formatujące. Ogólnie rzecz biorąc, znaki jednego skryptu mogą być rozrzucone na wielu blokach, tak jak znaki łacińskie . I na odwrót: wiele skryptów może być obecnych w jednym bloku, np. blok Symbole literopodobne zawiera znaki z alfabetu łacińskiego, greckiego i powszechnego.
Gdy skrypt jest „” (pusty), zgodnie z Unicode znak nie należy do skryptu. Dotyczy to symboli, ponieważ istniejące kody skryptowe ISO „Zmth” (zapis matematyczny), „Zsym” (symbol) i „Zsye” (symbol, wariant emoji) nie są używane w Unicode. Właściwość „Skrypt” jest również pusta dla punktów kodowych, które nie są znakami typograficznymi, takimi jak kontrolki, substytuty i punkty kodowe użytku prywatnego.
Jeśli istnieje konkretny skrypt alias w ISO 15924, jest ona wykorzystywana w imię postaci: U + 0041 A LATIN litera A i U + 05D0 א HEBRAJSKIE LIST ALEF .
ISO 15924 | Skrypt w Unicode | ||||||
---|---|---|---|---|---|---|---|
Kod | Formalna nazwa ISO | Kierunkowość | Alias Unicode | Wersja | Postacie | Uwagi | Opis |
| |||||||
Adlm | Adlam | skrypt od prawej do lewej | Adlam | 9,0 | 88 | 19,9 | |
Afak | Afaka | zmienia się | — Nie w Unicode, propozycja jest badana | ||||
Aghb | kaukaski albański | od lewej do prawej | kaukaski albański | 7,0 | 53 | Starożytny/historyczny | Rozdział 8.11 |
Ahom | Ahom, Tai Ahom | od lewej do prawej | Ahom | 8,0 | 65 | Starożytny/historyczny | 15.15 |
Arab | arabski | skrypt od prawej do lewej | arabski | 1,0 | 1365 | Kanał 9.2 | |
Aran | arabski (wariant Nastaliq) | mieszany | § arabski ) | — Typograficzny wariant arabskiego (||||
Armi | cesarski aramejski | skrypt od prawej do lewej | cesarski aramejski | 5.2 | 31 | Starożytny/historyczny | Kanał 10,4 |
Armn | ormiański | od lewej do prawej | ormiański | 1,0 | 96 | Kanał 7,6 | |
Awst | Awestan | skrypt od prawej do lewej | Awestan | 5.2 | 61 | Starożytny/historyczny | Kanał 10,7 |
Bali | balijski | od lewej do prawej | balijski | 5.0 | 124 | Kanał 17,3 | |
Bamu | Bamum | od lewej do prawej | Bamum | 5.2 | 657 | Kanał 19,6 | |
Bas | Bassa Wah | od lewej do prawej | Bassa Wah | 7,0 | 36 | Starożytny/historyczny | 19,7 |
Batki | Batak | od lewej do prawej | Batak | 6,0 | 56 | Kanał 17,6 | |
Beng | bengalski (Bangla) | od lewej do prawej | bengalski | 1,0 | 96 | Rozdział 12.2 | |
Bhks | Bhaiksuki | od lewej do prawej | Bhaiksuki | 9,0 | 97 | Starożytny/historyczny | Kanał 14.3 |
Blis | Symbole błogości | zmienia się | — Nie w Unicode, propozycja jest badana | ||||
Bopo | Bopomofo | od lewej do prawej | Bopomofo | 1,0 | 77 | Rozdział 18.3 | |
Brah | brahmi | od lewej do prawej | brahmi | 6,0 | 115 | Starożytny/historyczny | Rozdział 14.1 |
Brai | Brajl | od lewej do prawej | Brajl | 3,0 | 256 | Kanał 21,1 | |
Bugi | bugijski | od lewej do prawej | bugijski | 4.1 | 30 | Kanał 17.2 | |
Buhd | Buhid | od lewej do prawej | Buhid | 3.2 | 20 | Rozdział 17,1 | |
Cakm | Czakma | od lewej do prawej | Czakma | 6,1 | 71 | Rozdział 13.11 | |
Puszki | Ujednolicone sylaby kanadyjskich aborygenów | od lewej do prawej | Kanadyjski Aborygen | 3,0 | 726 | Kanał 20,2 | |
Cari | Carian | pismo od lewej do prawej, od prawej do lewej | Carian | 5.1 | 49 | Starożytny/historyczny | Kanał 8,5 |
Czam | Czam | od lewej do prawej | Czam | 5.1 | 83 | Rozdział 16.10 | |
Cher | Czirokez | od lewej do prawej | Czirokez | 3,0 | 172 | Kanał 20,1 | |
Chrs | Choraśmian | skrypt od prawej do lewej , od góry do dołu | Choraśmian | 13,0 | 28 | Starożytny/historyczny | Kanał 10,8 |
Cirt | Kirth | zmienia się | — Nie w Unicode | ||||
Kopt | koptyjski | od lewej do prawej | koptyjski | 1,0 | 137 | Starożytny/historyczny, oddzielony od greckiego w 4,1 | Kanał 7.3 |
CPMN | Cypro-Minoan | od lewej do prawej | cypryjski minojski | 14,0 | 99 | Starożytny/historyczny | Rozdział 8.4 |
Cprt | sylabariusz cypryjski | skrypt od prawej do lewej | cypryjski | 4.0 | 55 | Starożytny/historyczny | Rozdział 8.3 |
Cyrl | cyrylica | od lewej do prawej | cyrylica | 1,0 | 443 | Zawiera typograficzny wariant staro-cerkiewno-słowiański ( § Cyrs) | Kanał 7,4 |
Cyrs | cyrylica (wariant staro-cerkiewno-słowiański) | zmienia się | § Cyrl ) | — Typograficzny wariant cyrylicy (Starożytny/historyczny | |||
Deva | dewanagari (nagari) | od lewej do prawej | dewanagari | 1,0 | 154 | Kanał 12.1 | |
Diak | Nurkowanie Akuru | od lewej do prawej | Nurkowanie Akuru | 13,0 | 72 | Starożytny/historyczny | Rozdział 15.14 |
Dogr | Dogra | od lewej do prawej | Dogra | 11,0 | 60 | Starożytny/historyczny | Rozdział 15.17 |
Dsrt | Pustynia (mormon) | od lewej do prawej | Deseret | 3.1 | 80 | Kanał 20,4 | |
Dupl | Skrót Duployański, stenografia Duployańska | od lewej do prawej | Duployan | 7,0 | 143 | Kanał 21,6 | |
Egipt | egipska demotyka | mieszany | — Nie w Unicode | ||||
Egiski | Hieratyka egipska | mieszany | — Nie w Unicode | ||||
Egipt | Hieroglify egipskie | skrypt od prawej do lewej | Hieroglify egipskie | 5.2 | 1,080 | Starożytny/historyczny | Kanał 11.4 |
Elba | Elbasan | od lewej do prawej | Elbasan | 7,0 | 40 | Starożytny/historyczny | Rozdział 8.10 |
Elym | Elimaic | skrypt od prawej do lewej | Elimaic | 12,0 | 23 | Starożytny/historyczny | Kanał 10,9 |
Ethi | etiopski (geʻez) | od lewej do prawej | Etiopski | 3,0 | 523 | Kanał 19,1 | |
Geok | Chutsuri (Asomtavruli i Nuskhuri) | od lewej do prawej | gruziński | Unicode grupuje „Khutsori”, „Asomtavruli” i „Nuskhuri” na „gruzińskie” ( § Geok ). Również „Mkhedruli” i „Mtavruli” są „gruzińskie” ( § Geor ) | Rozdział 7,7 | ||
Jerzy | gruziński (Mkhedruli i Mtavruli) | od lewej do prawej | gruziński | 1,0 | 173 | W Unicode obejmuje również Geok (Nuskhuri) | Rozdział 7,7 |
Glag | głagolicy | od lewej do prawej | głagolicy | 4.1 | 134 | Starożytny/historyczny | Kanał 7,5 |
Gong | Gunjala Gondi | od lewej do prawej | Gunjala Gondi | 11,0 | 63 | Rozdział 13.15 | |
Gonma | Masaram Gondi | od lewej do prawej | Masaram Gondi | 10,0 | 75 | Rozdział 13.14 | |
Got | gotyk | od lewej do prawej | gotyk | 3.1 | 27 | Starożytny/historyczny | Kanał 8,9 |
Gran | Grantha | od lewej do prawej | Grantha | 7,0 | 85 | Starożytny/historyczny | Rozdział 15.13 |
Grecki | grecki | od lewej do prawej | grecki | 1,0 | 518 | Kierunkowość czasami jako bustrofedon | Kanał 7.2 |
Gudżru | gudżarati | od lewej do prawej | gudżarati | 1,0 | 91 | Kanał 12.4 | |
Guru | Gurmukhi | od lewej do prawej | Gurmukhi | 1,0 | 80 | Kanał 12,3 | |
Hanb | Han z Bopomofo (alias dla Han + Bopomofo) | mieszany | § Hani , § Bopo | — Zobacz||||
Powiesić | Hangul (Hangŭl, Hangul) | od lewej do prawej, od góry do dołu | Hangul | 1,0 | 11 739 | Sylaby Hangul przeniesione w 2.0 | Kanał 18,6 |
Hani | Han (Hanzi, Kanji, Hanja) | od góry do dołu, kolumny od prawej do lewej (historycznie) | Han | 1,0 | 94,215 | Rozdział 18.1 | |
Hano | Hanunoo (Hanunóo) | od lewej do prawej, od dołu do góry | Hanuno | 3.2 | 21 | Rozdział 17,1 | |
Hans | Han (wariant uproszczony) | zmienia się | § Hani ) | — Podzbiór Han (Hanzi, Kanji, Hanja) (||||
Hant | Han (wariant tradycyjny) | zmienia się | § Hani | — Podzbiór||||
Hatr | Hatran | skrypt od prawej do lewej | Hatran | 8,0 | 26 | Starożytny/historyczny | Rozdział 10.12 |
hebryjski | hebrajski | skrypt od prawej do lewej | hebrajski | 1,0 | 134 | Kanał 9.1 | |
Hira | Hiragana | od góry do dołu, od lewej do prawej | Hiragana | 1,0 | 380 | Kanał 18,4 | |
Hluw | Hieroglify Anatolii (Hieroglify Luwijskie, Hieroglify Hetyckie) | od lewej do prawej | Hieroglify Anatolii | 8,0 | 583 | Starożytny/historyczny | Kanał 11,6 |
Hmng | Pahawh Hmong | od lewej do prawej | Pahawh Hmong | 7,0 | 127 | Rozdział 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | od lewej do prawej | Nyiakeng Puachue Hmong | 12,0 | 71 | Rozdział 16.12 | |
Hrkt | Japońskie sylabariusze (alias Hiragana + Katakana) | od góry do dołu, od lewej do prawej | Katakana lub Hiragana | Zobacz § Hira , § Kana | Kanał 18,4 | ||
Zawieszony | staro węgierski (węgierski runiczny) | skrypt od prawej do lewej | staro-węgierski | 8,0 | 108 | Starożytny/historyczny | Kanał 8.8 |
Inds | Indus (harappan) | mieszany | — Nie w Unicode, propozycja jest badana | ||||
Włochy | Stara kursywa (etruski, oscan itp.) | skrypt od prawej do lewej , od lewej do prawej | Stara kursywa | 3.1 | 39 | Starożytny/historyczny | Ch 8.6 |
Jamo | Jamo (alias dla podzbioru Jamo w Hangul) | zmienia się | § Hang | — Podzbiór||||
Jawa | jawajski | od lewej do prawej | jawajski | 5.2 | 90 | Kanał 17,4 | |
Japonia | Japoński (alias dla Han + Hiragana + Katakana) | zmienia się | § Hani , § Hira i § Kana | — Zobacz||||
Jurc | Jurchen | od lewej do prawej | — Nie w Unicode | ||||
Kali | Kayah Li | od lewej do prawej | Kayah Li | 5.1 | 47 | Kanał 16,9 | |
Kana | Katakana | od góry do dołu, od lewej do prawej | Katakana | 1,0 | 320 | Kanał 18,4 | |
Khar | Kharoshthi | skrypt od prawej do lewej | Kharoshthi | 4.1 | 68 | Starożytny/historyczny | Rozdział 14.2 |
Khmru | khmerski | od lewej do prawej | khmerski | 3,0 | 146 | Kanał 16,4 | |
Khoj | Chojki | od lewej do prawej | Chojki | 7,0 | 62 | Starożytny/historyczny | Kanał 15,7 |
Kitli | Khitański duży skrypt | od lewej do prawej | — Nie w Unicode | ||||
Zestawy | Mały skrypt khitański | od góry do dołu | Mały skrypt khitański | 13,0 | 471 | Starożytny/historyczny | 18.12 |
Knda | Kannada | od lewej do prawej | Kannada | 1,0 | 90 | Kanał 12,8 | |
Kore | Koreański (alias Hangul + Han) | od lewej do prawej | § Hani , § Hang | — Zobacz||||
Kpel | Kpelle | od lewej do prawej | — Nie w Unicode, propozycja jest badana | ||||
Kthi | Kaiti | od lewej do prawej | Kaiti | 5.2 | 68 | Starożytny/historyczny | Rozdział 15.2 |
Lana | Tai Tham (Lanna) | od lewej do prawej | Tai Tham | 5.2 | 127 | Kanał 16,7 | |
laoo | laotański | od lewej do prawej | laotański | 1,0 | 82 | Kanał 16,2 | |
Latf | Łacina (wariant fraktur) | zmienia się | § Latn ) | — Typograficzny wariant łaciny (||||
Latg | Łacina (odmiana gaelicka) | od lewej do prawej | § Latn ) | — Typograficzny wariant łaciny (||||
Latn | łacina | od lewej do prawej | łacina | 1,0 | 1475 | Zobacz także: pismo łacińskie w Unicode | Rozdział 7.1 |
Leke | Leke | od lewej do prawej | — Nie w Unicode | ||||
Lepc | Lepcha (Róng) | od lewej do prawej | Lepcha | 5.1 | 74 | Rozdział 13.12 | |
Kończyna | Limbu | od lewej do prawej | Limbu | 4.0 | 68 | Kanał 13,6 | |
Lina | Liniowy A | od lewej do prawej | Liniowy A | 7,0 | 341 | Starożytny/historyczny | Rozdział 8.1 |
Linb | Liniowy B | od lewej do prawej | Liniowy B | 4.0 | 211 | Starożytny/historyczny | Rozdział 8.2 |
Lisu | Lisu (Fraser) | od lewej do prawej | Lisu | 5.2 | 49 | Kanał 18,9 | |
Loma | Loma | od lewej do prawej | — Nie w Unicode, propozycja jest badana | ||||
Lyci | Lycian | od lewej do prawej | Lycian | 5.1 | 29 | Starożytny/historyczny | Kanał 8,5 |
Lydi | Lidian | skrypt od prawej do lewej | Lidian | 5.1 | 27 | Starożytny/historyczny | Kanał 8,5 |
Mahj | Mahajani | od lewej do prawej | Mahajani | 7,0 | 39 | Starożytny/historyczny | Kanał 15,6 |
Maka | Makasar | od lewej do prawej | Makasar | 11,0 | 25 | Starożytny/historyczny | Kanał 17,8 |
Mand | mandyjski, mandeański | skrypt od prawej do lewej | Mandaic | 6,0 | 29 | Kanał 9,5 | |
Mani | manichejski | skrypt od prawej do lewej | manichejski | 7,0 | 51 | Starożytny/historyczny | Kanał 10,5 |
Marc | Marchen | od lewej do prawej | Marchen | 9,0 | 68 | Starożytny/historyczny | Kanał 14,5 |
Majowie | Hieroglify Majów | mieszany | — Nie w Unicode | ||||
Medf | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | od lewej do prawej, od lewej do prawej | Medefaidrin | 11,0 | 91 | 19.10 | |
Zaszyć | Mende Kikakui | skrypt od prawej do lewej | Mende Kikakui | 7,0 | 213 | 19,8 | |
Merc | Kursywa meroicka | skrypt od prawej do lewej | Kursywa meroicka | 6,1 | 90 | Starożytny/historyczny | Kanał 11,5 |
Mero | Hieroglify meroickie | skrypt od prawej do lewej | Hieroglify meroickie | 6,1 | 32 | Starożytny/historyczny | Kanał 11,5 |
Młym | malajalam | od lewej do prawej | malajalam | 1,0 | 118 | Kanał 12,9 | |
Modi | Modi, Moḍī | od lewej do prawej | Modi | 7,0 | 79 | Starożytny/historyczny | Rozdział 15.11 |
Mong | mongolski | od góry do dołu, od lewej do prawej | mongolski | 3,0 | 168 | Mong zawiera skrypty Clear i Manchu | Kanał 13,5 |
Księżyc | Księżyc (kod Księżyca, skrypt Księżyca, typ Księżyca) | mieszany | — Nie w Unicode, propozycja jest badana | ||||
Mroo | Mr, Mru | od lewej do prawej | Mro | 7,0 | 43 | Kanał 13,8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | od lewej do prawej | Meetei Mayek | 5.2 | 79 | Kanał 13,7 | |
Mult | Multani | od lewej do prawej | Multani | 8,0 | 38 | Starożytny/historyczny | Kanał 15,9 |
Mymr | Birma (birmański) | od lewej do prawej | Myanmar | 3,0 | 223 | Kanał 16,3 | |
Nand | Nandinagari | od lewej do prawej | Nandinagari | 12,0 | 65 | Starożytny/historyczny | Rozdział 15.12 |
Narb | Old North Arabian (Ancient North Arabian) | prawo-lewo skrypt , od prawej do lewej w skrypcie | Old North Arabian | 7,0 | 32 | Starożytny/historyczny | Rozdział 10.1 |
Nbat | nabatejski | skrypt od prawej do lewej | nabatejski | 7,0 | 40 | Starożytny/historyczny | Rozdział 10.10 |
Newa | Newa, Newar, Newari, Nepala lipi | od lewej do prawej | Newa | 9,0 | 97 | Rozdział 13.3 | |
Nkdb | Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | od lewej do prawej | — Nie w Unicode | ||||
Nkgb | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | od lewej do prawej | — Nie w Unicode, propozycja jest badana | ||||
Nkoo | N'Ko | skrypt od prawej do lewej | NKo | 5.0 | 62 | Kanał 19,4 | |
Nshu | Nüshu | od góry do dołu | Nushu | 10,0 | 397 | Kanał 18,8 | |
Ogam | Ogham | od dołu do góry, od lewej do prawej | Ogham | 3,0 | 29 | Starożytny/historyczny | Rozdział 8.14 |
Olck | Ol Chiki (Ol Cemet', Ol, Santali) | od lewej do prawej | Ol Chiki | 5.1 | 48 | Rozdział 13.10 | |
Orch | staroturecki, orkhon runiczny | skrypt od prawej do lewej | stary turecki | 5.2 | 73 | Starożytny/historyczny | Kanał 14,8 |
Orya | orija (odia) | od lewej do prawej | orija | 1,0 | 91 | Kanał 12,5 | |
Osge | Osage | od lewej do prawej | Osage | 9,0 | 72 | Kanał 20,3 | |
Osma | Osmania | od lewej do prawej | Osmania | 4.0 | 40 | Kanał 19,2 | |
Ugr | stary ujgurski | mieszany | stary ujgurski | 14,0 | 26 | Starożytny/historyczny | Rozdział 14.11 |
Palma | Palmyrene | skrypt od prawej do lewej | Palmyrene | 7,0 | 32 | Starożytny/historyczny | Rozdział 10.11 |
Pauc | Pau Cin Hau | od lewej do prawej | Pau Cin Hau | 7,0 | 57 | Rozdział 16.13 | |
Pun | Proto-klinowe | od lewej do prawej | — Nie w Unicode | ||||
Pelm | Proto-Elamita | od lewej do prawej | — Nie w Unicode | ||||
Trwała ondulacja | Stary Permik | od lewej do prawej | Stary Permik | 7,0 | 43 | Starożytny/historyczny | Rozdział 8.13 |
Phag | Phags-pa | od góry do dołu | Phags-pa | 5.0 | 56 | Starożytny/historyczny | Kanał 14,4 |
Phli | Inskrypcyjny Pahlavi | skrypt od prawej do lewej | Inskrypcyjny Pahlavi | 5.2 | 27 | Starożytny/historyczny | Kanał 10.6 |
Phlp | Psałterz Pahlawi | skrypt od prawej do lewej | Psałterz Pahlawi | 7,0 | 29 | Starożytny/historyczny | Kanał 10.6 |
Flv | Książka Pahlavi | mieszany | — Nie w Unicode | ||||
Phnx | fenicki | skrypt od prawej do lewej | fenicki | 5.0 | 29 | Starożytny/historyczny | Rozdział 10.3 |
Piqd | klingoński (KLI PIQAD) | od lewej do prawej | — Odrzucono do włączenia do Unicode | ||||
Plrd | Miao (Pollard) | od lewej do prawej | Miao | 6,1 | 149 | 18.10 | |
Prti | Inskrypcyjny Partów | skrypt od prawej do lewej | Inskrypcyjny Partów | 5.2 | 30 | Starożytny/historyczny | Kanał 10.6 |
Psin | Protosynaicki | mieszany | — Nie w Unicode | ||||
Qaaa-Qabx | Zarezerwowane do użytku prywatnego (zakres) | — Nie w Unicode | |||||
Randżi | Ranjana | od lewej do prawej | — Nie w Unicode | ||||
Rjng | Rejang (Redjang, Kaganga) | od lewej do prawej | Rejang | 5.1 | 37 | Kanał 17,5 | |
Rohg | Hanifi Rohingja | skrypt od prawej do lewej | Hanifi Rohingja | 11,0 | 50 | Rozdział 16.14 | |
Roro | Rongorongo | mieszany | — Nie w Unicode, propozycja jest badana | ||||
Biegacz | Runiczny | od lewej do prawej, bustrofedon | Runiczny | 3,0 | 86 | Starożytny/historyczny | Rozdział 8.7 |
Samr | Samarytanin | skrypt od prawej do lewej , od góry do dołu | Samarytanin | 5.2 | 61 | Kanał 9.4 | |
Sara | Sarati | mieszany | — Nie w Unicode | ||||
Sarb | Stary południowoarabski | skrypt od prawej do lewej | Stary południowoarabski | 5.2 | 32 | Starożytny/historyczny | Rozdział 10.2 |
Saur | Saurashtra | od lewej do prawej | Saurashtra | 5.1 | 82 | Rozdział 13.13 | |
Sgnw | ZnakPisanie | od góry do dołu | ZnakPisanie | 8,0 | 672 | Kanał 21,7 | |
Shawa | Shaw (Shaw) | od lewej do prawej | Shavian | 4.0 | 48 | Rozdział 8.15 | |
Shrd | Szarada, Sarada | od lewej do prawej | Szarada | 6,1 | 96 | Kanał 15,3 | |
Shui | Shuishu | od lewej do prawej | — Nie w Unicode | ||||
Sidd | Siddham, Siddhah, Siddhamatṛkah | od lewej do prawej | Siddham | 7,0 | 92 | Starożytny/historyczny | Kanał 15,5 |
Sind | Khudawadi, Sindhi | od lewej do prawej | Khudawadi | 7,0 | 69 | Kanał 15,8 | |
Sinhu | syngaleski | od lewej do prawej | syngaleski | 3,0 | 111 | Rozdział 13.2 | |
Sogd | Sogdian | pisanie poziome i pionowe pismem wschodnioazjatyckim , od góry do dołu | Sogdian | 11,0 | 42 | Starożytny/historyczny | Rozdział 14.10 |
Więc idź | Stary Sogdian | skrypt od prawej do lewej | Stary Sogdian | 11,0 | 40 | Starożytny/historyczny | Kanał 14,9 |
Sora | Sora Sompeng | od lewej do prawej | Sora Sompeng | 6,1 | 35 | Rozdział 15.16 | |
Sojo | Sojombo | od lewej do prawej | Sojombo | 10,0 | 83 | Starożytny/historyczny | Kanał 14,7 |
Sund | sundajski | od lewej do prawej | sundajski | 5.1 | 72 | Kanał 17,7 | |
Sylo | Syloti Nagri | od lewej do prawej | Syloti Nagri | 4.1 | 45 | Starożytny/historyczny | Rozdział 15.1 |
Syrc | syryjski | skrypt od prawej do lewej | syryjski | 3,0 | 88 | Obejmuje warianty typograficzne Estrangelo ( § Syre ), zachodnie ( § Syrj ) i wschodnie ( § Syrn ) | Rozdział 9,3 |
Syre | Syryjski (wariant Estrangelo) | mieszany | § Syrc ) | — Typograficzny wariant syryjskiego (||||
Syrj | Syryjski (wariant zachodni) | mieszany | § Syrc ) | — Typograficzny wariant syryjskiego (||||
Syrn | Syryjski (wariant wschodni) | mieszany | § Syrc ) | — Typograficzny wariant syryjskiego (||||
Tagb | Tagbanowa | od lewej do prawej | Tagbanowa | 3.2 | 18 | Rozdział 17,1 | |
Takr | Takri, Sakrī, Sakrīh | od lewej do prawej | Takri | 6,1 | 68 | Kanał 15,4 | |
Opowieść | Tai Le | od lewej do prawej | Tai Le | 4.0 | 35 | Kanał 16,5 | |
Talu | Nowy Tai Lue | od lewej do prawej | Nowy Tai Lue | 4.1 | 83 | Kanał 16,6 | |
Tamli | Tamil | od lewej do prawej | Tamil | 1,0 | 123 | Kanał 12.6 | |
Posmak | Tangut | od góry do dołu, kolumny od prawej do lewej, od lewej do prawej | Tangut | 9,0 | 6914 | Starożytny/historyczny | 18.11 |
Tawta | Taj Wietnam | od lewej do prawej | Taj Wietnam | 5.2 | 72 | Kanał 16,8 | |
Telu | telugu | od lewej do prawej | telugu | 1,0 | 100 | Kanał 12,7 | |
Teng | Tengwar | od lewej do prawej | — Nie w Unicode | ||||
Tfng | Tifinagh (Berber) | od lewej do prawej | Tifinagh | 4.1 | 59 | Rozdział 19,3 | |
Tglg | tagalski (Baybayin, Alibata) | od lewej do prawej | tagalski | 3.2 | 23 | Rozdział 17,1 | |
tajski | Thana | skrypt od prawej do lewej | Thana | 3,0 | 50 | Rozdział 13.1 | |
tajski | tajski | od lewej do prawej | tajski | 1,0 | 86 | Kanał 16,1 | |
Tybt | tybetański | od lewej do prawej | tybetański | 2,0 | 207 | Dodano w 1.0, usunięto w 1.1 i ponownie w 2.0 | Kanał 13.4 |
Tirh | Tirhuta | od lewej do prawej | Tirhuta | 7,0 | 82 | Rozdz. 15.10 | |
Tnsa | Tangsa | od lewej do prawej | Tangsa | 14,0 | 89 | Rozdział 13.18 | |
Toto | Toto | od lewej do prawej | Toto | 14,0 | 31 | Rozdział 13.17 | |
Ugar | ugarycki | od lewej do prawej | ugarycki | 4.0 | 31 | Starożytny/historyczny | Rozdział 11.2 |
Vaii | Vai | od lewej do prawej | Vai | 5.1 | 300 | Kanał 19,5 | |
Visp | Widzialna przemowa | od lewej do prawej | — Nie w Unicode | ||||
Vith | Vithkuqi | od lewej do prawej | Vithkuqi | 14,0 | 70 | Starożytny/historyczny | Rozdział 8.12 |
Wara | Warang Citi (Warang Ksziti) | od lewej do prawej | Warang Citi | 7,0 | 84 | Kanał 13,9 | |
Wcho | Wancho | od lewej do prawej | Wancho | 12,0 | 59 | Rozdział 13.16 | |
Wole | Woleai | mieszany | — Nie w Unicode, propozycja jest badana | ||||
Xpeo | staroperski | od lewej do prawej | staroperski | 4.1 | 50 | Starożytny/historyczny | Rozdział 11.3 |
Xsux | pismem klinowym, sumero-akadyjska | od lewej do prawej | Klinowy | 5.0 | 1234 | Starożytny/historyczny | Rozdział 11.1 |
Jezi | jazydów | skrypt od prawej do lewej | jazydów | 13,0 | 47 | Starożytny/historyczny | Kanał 9,6 |
Yiii | Yi | od lewej do prawej | Yi | 3,0 | 1220 | Kanał 18,7 | |
Zanb | Plac Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Poziomy skrypt kwadratowy) | od lewej do prawej | Plac Zanabazar | 10,0 | 72 | Starożytny/historyczny | Kanał 14,6 |
Zinh | Kod dziedziczonego skryptu | Dziedziczny | 657 | ||||
Zmth | Notacja matematyczna | — Nie „skrypt” w Unicode | |||||
Zsym | Symbolika | — Nie „skrypt” w Unicode | |||||
Zsye | Symbole (wariant emoji) | — Nie „skrypt” w Unicode | |||||
Zxxx | Kod do niepisanych dokumentów | — Nie „skrypt” w Unicode | |||||
Zyyy | Kod dla nieokreślonego skryptu | Pospolity | 8252 | ||||
Zzzz | Kod dla niekodowanego skryptu | Nieznany | 969 350 | W Unicode: wszystkie inne punkty kodowe | |||
Uwagi
|
Właściwości normalizacyjne
Dekompozycje, typ dekompozycji, kanoniczna klasa łączenia, wykluczenia kompozycji i inne.
Wiek
Wiek to wersja Standardu, w której po raz pierwszy wyznaczono punkt kodowy. Numer wersji jest skrócony do numeracji major.minor, chociaż używane są bardziej szczegółowe numery wersji: wersje 4.0.0 i 4.0.1 są nazwane 4.0 jako Age. Biorąc pod uwagę wydania, wiek może być z zakresu: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11,0 , 12,0, 12,1, 13,0 i 14,0. Długie wartości Wiek zaczynają się na V i używają podkreślenia zamiast kropki: na przykład V1_1. Punkty kodowe bez konkretnie przypisanej wartości wieku mają wartość „NA”, z długą formą „Nieprzypisane”.
Przestarzałe
Po zdefiniowaniu znaku nie zostanie on usunięty ani ponownie przypisany. Jednak znak może być przestarzały , co oznacza, że jego „użycie jest zdecydowanie odradzane”. Od wersji Unicode 14.0 następujące piętnaście znaków jest przestarzałych:
Przestarzałe znaki w Unicode | ||||
---|---|---|---|---|
Punkt kodowy | Imię postaci | Zalecana alternatywa | Uwagi | |
U+0149 | ŁACIŃSKA MAŁA LITERA N POSTĘPOWANA APOSTROFEM | U + 02BC U + 006E | n | |
U+0673 | ARABSKA LITERA ALEF Z FALĄ HAMZA PONIŻEJ | U+0627 U+065F | ا | |
U+0F77 | TYBETAŃSKI ZNAK SAMOgłoskowy WOKALNY RR | U+0FB2 U+0F81 | ྲཱ ྀ | |
U+0F79 | TYBETAŃSKI ZNAK SAMOgłoskowy VOCALIC LL | U+0FB3 U+0F81 | ླཱ ྀ | |
U+17A3 | KHMER SAMOGŁOWKA NIEZALEŻNA QAQ | U+17A2 | អ | |
U+17A4 | KHMER SAMOGŁOWKA NIEZALEŻNA QAA | U+17A2 U+17B6 | អា | |
U+206A | BRAK ZAMIANY SYMETRYCZNEJ | Nic | ||
U+206B | AKTYWUJ ZAMIANA SYMMETRYCZNĄ | Nic | ||
U+206C | HAMUJĄ ARABSKI KSZTAŁTOWANIE FORMY | Nic | ||
U+206D | AKTYWUJ ARABSKIE KSZTAŁTOWANIE FORMY | Nic | ||
U+206E | KRAJOWE KSZTAŁTY CYFR | Nic | ||
U+206F | NOMINALNE KSZTAŁTY CYFR | Nic | ||
U+2329 | LEWY WSPORNIK KĄTOWY | U+3008 | ja | U+27E8 ⟨ MATEMATYCZNY LEWY WSPORNIK KĄTOWY jest zalecany do zastosowań matematycznych i innych technicznych |
U+232A | WSPORNIK KĄTOWY W PRAWO | U+3009 | ja | U+27E9 ⟩ MATEMATYCZNY WSPORNIK KĄTOWY PROSTY jest zalecany do zastosowań matematycznych i innych technicznych |
U+E0001 | TAG JĘZYKOWY | Nic | ||
Granic
Standard Unicode określa następujące właściwości związane z granicami:
- Klaster grafów
- Słowo
- Linia
- Zdanie
Korekta aliasów nazw Unicode
Postać | Nazwa | Alias | |
---|---|---|---|
01A2 | Ƣ | ŁACIŃSKA WIELKA LITERA OI | ŁACIŃSKA LITERA GHA |
01A3 | ƣ | ŁACIŃSKA MAŁA LITERA OI | ŁACIŃSKA MAŁA LITERA GHA |
0709 | ? | SYRYJSKI SUBLINEAR COLON WYKRZYŻONY W PRAWO | SYRYJSKI PODLINIJNY DWURZĘDNIK WYKRZYŻONY W LEWO |
0CDE | ೞ | LIST KANNADA FA | LIST KANNADY LLLA |
0E9D | ຝ | LAOT LIST DO TAM | LAO LIST FO FON |
0E9F | ຟ | LAO LIST FO SUN | LAO LIST DO FAY |
0EA3 | ຣ | LAOT LIST LO LING | LAO LIST RO |
0EA5 | ລ | LAO LIST LOOT | LAOT LIST LO |
0FD0 | ? | MARK TYBETAŃSKI BSKA- SHOG GI MGO RGYAN | ZNAK TYBETAŃSKI BKA- SHOG GI MGO RGYAN |
11 WE | ᇬ | HANGUL JONGSEONG IEUNG-KIYEOK | HANGUL JONGSEONG YESIEUNG-KIYEOK |
11 ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK |
11EE | ᇮ | HANGUL JONGSEONG SSANGIEUNG | HANGUL JONGSEONG SSANGYESIEUNG |
11EF | ᇯ | HANGUL JONGSEONG IEUNG-KHIEUKH | HANGUL JONGSEONG YESIEUNG-KHIEUKH |
2118 | ℘ | KAPITAŁ W SKRYPCIE P | FUNKCJA ELIPTYCZNA WEIERSTRASS |
2448 | ⑈ | OCR DASH | SYMBOL MICR NA USA |
2449 | ⑉ | NUMER KONTA KLIENTA OCR | SYMBOL MICR MYŚLI |
2B7A | ⭺ | TRÓJKĄTNA STRZAŁKA W LEWO Z PODWÓJNYM POZIOMYM SKOKEM | TRÓJKĄTNA STRZAŁKA W LEWO Z PODWÓJNYM SKOKEM PIONOWYM |
2B7C | ⭼ | TRÓJKĄTNA STRZAŁKA W PRAWO Z PODWÓJNYM POZIOMYM SKOKEM | TRÓJKĄTNA STRZAŁKA W PRAWO Z PODWÓJNYM SKOKEM PIONOWYM |
A015 | ꀕ | YI SYLABA WU | YI ZNAK ITERACJI SYLABY |
WF18 | ja | FORMULARZ PREZENTACJI PIONOWEGO PRAWEGO BIAŁEGO UCHWYTU SOCZEWKOWEGO | FORMULARZ PREZENTACJI PIONOWEGO PRAWEGO BIAŁY WSPORNIK SOCZEWKOWY |
122D4 | 𒋔 | ZNAK KLINIKOWY KOSZULA TENU | ZNAK KLIENOWY NU11 TENU |
122K5 | 𒋕 | ZNAK KLINIKOWY SHIR NA SHIR BUR NA BUR | ZNAK KLIENOWY NU11 NAD NU11 BUR NAD BUR |
16E56 | 𖹖 | MEDEFAIDRYN WIELKA LITERA HP | MEDEFAIDRYN WIELKA LITERA H |
16E57 | 𖹗 | MEDEFAIDRYN WIELKA LITERA NY | MEDEFAIDRYN WIELKA LITERA NG |
16E76 | 𖹶 | MEDEFAIDRYN MAŁA LITERA HP | MEDEFAIDRYN MAŁA LITERA H |
16E77 | 𖹷 | MEDEFAIDRYN MAŁA LITERA NY | MEDEFAIDRYN MAŁA LITERA NG |
1B001 | 𛀁 | LIST HIRAGANA ARCHAIC YE | HENTAIGANA LIST E-1 |
1D0C5 | 𝃅 | BIZANTYŃSKI SYMBOL MUZYCZNY FHTORA SKLIRON CHROMA VASIS | BIZANTYŃSKI SYMBOL MUZYCZNY FTHORA SKLIRON CHROMA VASIS |
Zewnętrzne linki
- Baza znaków Unicode , załącznik #44, wyjaśniający różne właściwości
- UnicodeData.txt – lista wszystkich znaków Unicode wraz z ich właściwościami
Bibliografia
-
^ a b c d e "Standard Unicode, rozdział 4: Właściwości znaków" (PDF) . Unicode, Inc. wrzesień 2021 . Źródło 15.08.2021 . Cytowanie dziennika wymaga
|journal=
( pomoc ) - ^ a b c „Standard Unicode Załącznik nr 44: Baza znaków Unicode” . Standard Unicode . 14.06.2017.
- ^ „UCD: Aliasy nazw” . Baza znaków Unicode . Konsorcjum Unicode. 2019-03-08.
- ^ „Standardy projektowania postaci – znaki kosmiczne” . Standardy projektowania postaci . Microsoft . 1998–1999. Zarchiwizowane z oryginału 23 sierpnia 2000 . Źródło 2009-05-18 .
- ^ Unicode Standard 5.0, wydanie drukowane, s.205
- ^ „Ogólna interpunkcja” (PDF) . Standard Unicode 5.1 . Unicode Inc . 1991–2008 . Źródło 2009-05-13 .
- ^ Sargent, Murray III (29.08.2006). „Unicode prawie zwykły tekst kodowania matematyki (wersja 2)” . Uwaga techniczna nr 28 dotycząca Unicode . Unicode Inc . s. 19–20 . Źródło 2009-05-19 .
- ^ Gillam, Richard (2002). Unicode Demystified: Praktyczny przewodnik programisty po standardzie kodowania . Addisona-Wesleya. Numer ISBN 0-201-70052-2.
- ^ B Hickson Ian . "12.5 Odniesienia do nazwanych znaków" . Standard HTML . COTWG .
- ^ Wolfram . "\[NegativeThickSpace]" . Dokumentacja językowa Wolframa .
- ^ Wolfram . "\[NegativeMediumSpace]" . Dokumentacja językowa Wolframa .
- ^ Wolfram . "\[NegativeThinSpace]" . Dokumentacja językowa Wolframa .
- ^ Wolfram . "\[NegativeVeryThinSpace]" . Dokumentacja językowa Wolframa .
- ^ Faltstrom, P., wyd. (sierpień 2010). "Zerowa szerokość bez łączenia" . Punkty kodowe Unicode i umiędzynarodowione nazwy domen dla aplikacji (IDNA) . IETF . ust. A.1. doi : 10.17487/RFC5892 . RFC 5892 . Źródło 4 września 2019 .
- ^ Faltstrom, P., wyd. (sierpień 2010). "Łącznik o zerowej szerokości" . Punkty kodowe Unicode i umiędzynarodowione nazwy domen dla aplikacji (IDNA) . IETF . ust. A.2. doi : 10.17487/RFC5892 . RFC 5892 . Źródło 4 września 2019 .
- ^ „Unicode Standardowy załącznik nr 44, baza znaków Unicode” .
- ^ a b „Unicode Standardowy załącznik nr 9: Dwukierunkowy algorytm Unicode” . Standard Unicode . 14.05.2017.
- ^ „Unicode Standardowy załącznik nr 24: Właściwość skryptu Unicode” . Standard Unicode . 2015-06-01.
- ^ a b c d e f g h i „Proponowane nowe skrypty” . Konsorcjum Unicode . 2018-05-25 . Źródło 2019-09-12 .
- ^ Michael Everson (1997.09.18). „Propozycja kodowania klingońskiego w płaszczyźnie 1 normy ISO/IEC 10646-2” .
- ^ Konsorcjum Unicode (2001-08-14). „Zatwierdzone Protokoły Wspólnego Posiedzenia UTC 87/L2 184” .
- ^ „Bliski Wschód-II, starożytne skrypty” (PDF) . 14.0.0. The Unicode Consortiumtitle=Skrypty Bliskiego Wschodu II . Źródło 15.09.2021 .
- ^ „UCD: wiek pochodny” . Baza znaków Unicode . Konsorcjum Unicode. 2021-07-10.
-
^ „Zasady stabilności kodowania znaków Unicode” . Unikod . Konsorcjum Unicode . 23.06.2017 . Pobrano 2021-07-25 .
Zakodowana postać nie zostanie przeniesiona ani usunięta.
- ^ „3.4: Znaki i kodowanie, D13: Przestarzały znak” (PDF) . Standard Unicode, wersja 14.0 . Mountain View: Konsorcjum Unicode . 2021-09-14. Numer ISBN 9781936213-290. Źródło 15.09.2021 .
- ^ "PropList-14.0.0.txt" . Unikod . Konsorcjum Unicode . 2021-08-12 . Źródło 15.09.2021 .
- ^ „Rozdział 23.3: Przestarzałe znaki formatu” (PDF) . Standard Unicode, wersja 13.0 . Mountain View: Konsorcjum Unicode . 2020-03-10. Numer ISBN 9781936213269. Pobrano 2021-07-25 .
- ^ „23.9: Znaki znaczników, przestarzałe użycie do oznaczania języka” (PDF) . Standard Unicode, wersja 13.0 . Mountain View: Konsorcjum Unicode . 2020-03-10. Numer ISBN 9781936213269. Pobrano 2021-07-25 .