Плоскость (Юникод)

В стандарте Юникод плоскость — непрерывный диапазон из 65 536 (216) кодовых позиций. Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00—1016 первых двух шестнадцатеричных цифр в шестизначном формате номера кодовой позиции (U+hhhhhh). Последняя кодовая позиция в Юникоде — последняя кодовая позиция в плоскости 16, U+10FFFF. Плоскость 0 называется Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP), она содержит наиболее часто используемые символы. Остальные плоскости (1—16) называются «дополнительными»[1]. В версии Юникода 14.0 задействованы кодовые позиции семи плоскостей, при этом две из них предназначены для частного использования.

Ограничение в 17 плоскостей обусловлено кодировкой UTF-16, в которой могли быть закодированы 220 (1 048 576) кодовых позиций (16 плоскостей) и BMP[2]. Кодировка UTF-8 была разработана с гораздо большим лимитом в 231 (2 147 483 648) кодовых позиций (32 768 плоскостей) и могла задействовать 221 (2 097 152) кодовых позиций (32 плоскости) даже при лимите в 4 байта[3].

Плоскости Юникода:

  • Плоскость 0 (0000—FFFF): Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP)
  • Плоскость 1 (10000—1FFFF): Дополнительная многоязычная плоскость (англ. Supplementary Multilingual Plane, SMP)
  • Плоскость 2 (20000—2FFFF): Дополнительная идеографическая плоскость (англ. Supplementary Ideographic Plane, SIP)
  • Плоскость 3 (30000—3FFFF): Третичная идеографическая плоскость (англ. Tertiary Ideographic Plane, TIP)
  • Плоскости 4—13 (40000—DFFFF) не используются
  • Плоскость 14 (E0000—EFFFF): Специализированная дополнительная плоскость (англ. Supplementary Special-purpose Plane, SSP)
  • Плоскость 15 (F0000—FFFFF) Дополнительная область для частного использования — A (англ. Supplementary Private Use Area-A, SPUA-A)
  • Плоскость 16 (100000—10FFFF) Дополнительная область для частного использования — B (англ. Supplementary Private Use Area-B, SPUA-B)

Основная многоязычная плоскость

Основная многоязычная плоскость

Плоскость 0 (Основная многоязычная плоскость, англ. Basic Multilingual Plane, BMP) отведена для символов большинства современных письменностей и большого числа специальных символов. Большая часть таблицы занята идеограммами ККЯ и корейскими слогами.

В Юникоде 14.0 в этой плоскости представлены следующие блоки:

  • Оптическое распознавание символов (2440—245F)
  • Обрамлённые буквы и цифры (2460—24FF)
  • Псевдографика (2500—257F)
  • Блочные элементы (2580—259F)
  • Геометрические фигуры (25A0—25FF)
  • Разные символы (2600—26FF)
  • Dingbats (2700—27BF)
  • Разные математические символы — A (27C0—27EF)
  • Дополнительные стрелки — A (27F0—27FF)
  • Шрифт Брайля (2800—28FF)
  • Дополнительные стрелки — B (2900—297F)
  • Разные математические символы — B (2980—29FF)
  • Дополнительные математические операторы (2A00—2AFF)
  • Разные символы и стрелки (2B00—2BFF)
  • Глаголица (2C00—2C5F)
  • Расширенная латиница — C (2C60—2C7F)
  • Коптское письмо (2C80—2CFF)
  • Дополнение к грузинскому письму (2D00—2D2F)
  • Древнеливийское письмо (2D30—2D7F)
  • Расширенное эфиопское письмо (2D80—2DDF)
  • Расширенная кириллица — A (2DE0—2DFF)
  • Дополнительная пунктуация (2E00—2E7F)
  • Дополнение к ключам ККЯ (2E80—2EFF)
  • Ключи Канси (2F00—2FDF)
  • Идеографические пояснительные символы (2FF0—2FFF)
  • Символы и пунктуация ККЯ (3000—303F)
  • Хирагана (3040—309F)
  • Катакана (30A0—30FF)
  • Чжуинь фухао (3100—312F)
  • Совместимые элементы хангыля (3130—318F)
  • Камбун (3190—319F)
  • Расширенное чжуинь фухао (31A0—31BF)
  • Черты ККЯ (31C0—31EF)
  • Фонетические расширения катаканы (31F0—31FF)
  • Обрамлённые буквы и месяцы ККЯ (3200—32FF)
  • Совместимые элементы ККЯ (3300—33FF)
  • Унифицированные идеограммы ККЯ — расширение A (3400—4DBF)
  • Гексаграммы «Книги Перемен» (4DC0—4DFF)
  • Унифицированные идеограммы ККЯ (4E00—9FFF)
  • Слоговое письмо и (A000—A48F)
  • Ключи письма и (A490—A4CF)
  • Лису (A4D0—A4FF)
  • Ваи (A500—A63F)
  • Расширенная кириллица — B (A640—A69F)
  • Бамум (A6A0—A6FF)
  • Символы изменения тона (A700—A71F)
  • Расширенная латиница — D (A720—A7FF)
  • Силхетское нагари (A800—A82F)
  • Общеиндийские числовые формы (A830—A83F)
  • Монгольское квадратное письмо (A840—A87F)
  • Саураштра (A880—A8DF)
  • Расширенное деванагари (A8E0—A8FF)
  • Кая-ли (A900—A92F)
  • Реджанг (A930—A95F)
  • Расширенные элементы хангыля — A (A960—A97F)
  • Яванское письмо (A980—A9DF)
  • Расширенное бирманское письмо — B (A9E0—A9FF)
  • Чамское письмо (AA00—AA5F)
  • Расширенное бирманское письмо — A (AA60—AA7F)
  • Тай-вьет (AA80—AADF)
  • Расширения манипури (AAE0—AAFF)
  • Расширенное эфиопское письмо — A (АВ00—АВ2F)
  • Расширенная латиница — E (AB30—AB6F)
  • Дополнение к чероки (AB70—ABBF)
  • Манипури (ABC0—ABFF)
  • Слоговое письмо хангыля (AC00—D7AF)
  • Расширенные элементы хангыля — B (D7B0—D7BF)
  • Верхняя часть суррогатных пар (D800—DB7F)
  • Верхняя часть суррогатных пар для частного использования (DB80—DBFF)
  • Нижняя часть суррогатных пар (DC00—DFFF)
  • Область для частного использования (E000—F8FF)
  • Совместимые идеограммы ККЯ (F900—FAFF)
  • Алфавитные формы представления (FB00—FB4F)
  • Арабские формы представления — A (FB50—FDCF, FDF0—FDFF)
  • Вариантные селекторы (FE00—FE0F)
  • Вертикальные формы (FE10—FE1F)
  • Комбинируемые полузнаки (FE20—FE2F)
  • Совместимые формы ККЯ (FE30—FE4F)
  • Малые вариантные формы (FE50—FE6F)
  • Арабские формы представления — B (FE70—FEFF)
  • Полуширинные и полноширинные формы (FF00—FFEF)
  • Специальные символы (FFF0—FFFF)

Дополнительная многоязычная плоскость

Дополнительная многоязыковая плоскость

Плоскость 1 (Дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена преимущественно для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.

В Юникоде 14.0 в этой плоскости представлены следующие наборы символов:

  • Слоги линейного письма Б (10000—1007F)
  • Идеограммы линейного письма Б (10080—100FF)
  • Эгейские цифры (10100—1013F)
  • Древнегреческие цифры (10140—1018F)
  • Древние символы (10190—101CF)
  • Фестский диск (101D0—101FF)
  • Ликийское письмо (10280—1029F)
  • Карийский (102A0—102DF)
  • Коптские цифры епакты (102E0—102FF)
  • Древнеиталийское письмо (10300—1032F)
  • Готское письмо (10330—1034F)
  • Древнепермское письмо (10350—1037F)
  • Угаритское письмо (10380—1039F)
  • Древнеперсидское письмо (103A0—103DF)
  • Дезеретское письмо (10400—1044F)
  • Алфавит Шоу (10450—1047F)
  • Сомалийское письмо (10480—104AF)
  • Осейдж (104B0—104FF)
  • Эльбасанское письмо (10500—1052F)
  • Агванское письмо (10530—1056F)
  • Виткутьское письмо (10570—105BF)
  • Линейное письмо А (10600—1077F)
  • Расширенная латиница — F (10780—107BF)
  • Кипрское письмо (10800—1083F)
  • Имперское арамейское письмо (10840—1085F)
  • Пальмирское письмо (10860—1087F)
  • Набатейское письмо (10880—108AF)
  • Хатран (108E0—108FF)
  • Финикийское письмо (10900—1091F)
  • Лидийское письмо (10920—1093F)
  • Мероитские иероглифы (10980—1099F)
  • Мероитский курсив (109A0—109FF)
  • Кхароштхи (10A00—10A5F)
  • Древнее южноаравийское письсо (10A60—10A7F)
  • Древнее северноаравийское письмо (10A80—109FF)
  • Манихейское письмо (10AC0—10AFF)
  • Авестийское письмо (10B00—10B3F)
  • Парфянское эпиграфическое письмо (10B40—10B5F)
  • Пахлевийское эпиграфическое письмо (10B60—10B7F)
  • Псальтирь пахлеви (10B80—10BAF)
  • Древнетюркское руническое письмо (10C00—10C4F)
  • Венгерские руны (10C00—10C4F)
  • Ханифи (10D00—10D3F)
  • Цифры руми (10E60—10E7F)
  • Езидское письмо (10E80—10EBF)
  • Древнесогдийское письмо (10F00—10F2F)
  • Согдийское письмо (10F30—10F6F)
  • Староуйгурское письмо (10F70—10FAF)
  • Хорезмийское письмо (10FB0—10FBF)
  • Элимайское письмо (10FE0—10FFF)
  • Брахми (11000—1107F)
  • Кайтхи (11080—110CF)
  • Соранг-сомпенг (110D0—110FF)
  • Чакма (11100—1114F)
  • Махаджани (11150—1117F)
  • Шарада (11180—111DF)
  • Сингальские архаические цифры (111E0—111FF)
  • Ходжики (11200—1124F)
  • Мултани (11280—112AF)
  • Худабади (112B0—112FF)
  • Грантха (11300—1137F)
  • Нева (11400—1147F)
  • Тирхута (11480—114DF)
  • Сиддхаматрика (11580—115FF)
  • Моди (11600—1165F)
  • Дополнение к старомонгольскому письму (11660—1167F)
  • Такри (11680—116CF)
  • Ахом (11700—1174F)
  • Догра (11800—1184F)
  • Варанг-кшити (118A0—118FF)
  • Дивес акуру (11900—1195F)
  • Нандинагари (119A0—119FF)
  • Квадратное письмо Дзанабадзара (11A00—11A4F)
  • Соёмбо (11A50—11AAF)
  • Расширенное канадское слоговое письмо — A (11AB0—11ABF)
  • По Чин Хо (11AC0—11AFF)
  • Бхайкшуки (11C00—11C6F)
  • Марчен (11C70—11CBF)
  • Гонди Масарама (11D00—11D5F)
  • Гунджалское гонди (11D60—11DAF)
  • Макасарское письмо (11EE0—11EFF)
  • Дополнение к лису (11FB0—11FBF)
  • Дополнение к тамильскому письму (11FC0—11FFF)
  • Клинопись (12000—123FF)
  • Клинописные цифры и пунктуация (12400—1247F)
  • Раннединастическая клинопись (12480—1254F)
  • Кипро-минойское письмо (12F90—12FFF)
  • Египетские иероглифы (13000—1342F)
  • Управляющие символы форматирования египетских иероглифов (13430—1343F)
  • Анатолийские иероглифы (14400—1467F)
  • Дополнение к бамуму (16800—16A3F)
  • Мро (16A40—16A6F)
  • Тангса (16A70—16ACF)
  • Басса (16AD0—16AFF)
  • Пахау (16B00—16B8F)
  • Медефайдрин (16E40—16E9F)
  • Мяо (16FE0—16FFF)
  • Идеографические символы и пунктуация (16F00—16F9F)
  • Тангутское письмо (17000—187FF)
  • Элементы тангутского письма (18800—18AFF)
  • Малое киданьское письмо (18B00—18CFF)
  • Дополнение к тангутскому письму (18D00—18D8F)
  • Расширенная кана — B (1AFF0—1AFFF)
  • Дополнение к кане (1B000—180FF)
  • Расширенная кана — A (1B100—1B12F)
  • Расширение малой каны (1B130—1B16F)
  • Нюй-шу (блок Юникода) (1B170—1B2FF)
  • Стенография Дюплойе (1BC00—18C9F)
  • Форматирующие символы стенографии (1BCA0—180CAF)
  • Знаменное нотное письмо (1CF00—1CFCF)
  • Византийские музыкальные символы (1D000—1D0FF)
  • Музыкальные символы (1D100—1D1FF)
  • Древнегреческая нотопись (1D200—1D24F)
  • Цифры майя (1D2E0—1D2FF)
  • Символы «Канона великого сокровенного» (1D300—1D35F)
  • Цифры счётных палочек (1D360—1D37F)
  • Математические буквы и цифры (1D400—1D7FF)
  • SignWriting (1D800—1DAAF)
  • Расширенная латиница — G (1DF00—1DFFF)
  • Дополнение к глаголице (1E000—1E02F)
  • Ньиэкэнг пуэцым хмонг (1E100—1E14F)
  • Тото (1E290—1E2BF)
  • Ванчо (1E2C0—1E2FF)
  • Расширенное эфиопское письмо — B (1E7E0—1E7FF)
  • Кикакуи (1E800—1E8DF)
  • Адлам (1E900—1E95F)
  • Индийские цифры сийяк (1EC70—1ECBF)
  • Османские цифры сийяк (1ED00—1ED4F)
  • Арабские математические алфавитные символы (1EE00—1EEFF)
  • Кости для маджонга (1F000—1F02F)
  • Кости для домино (1F030—1F09F)
  • Игральные карты (1F0A0—1F0FF)
  • Дополнение к обрамлённым буквам и цифрам (1F100—1F1FF)
  • Дополнение к обрамлённым идеографическим символам (1F200—1F2FF)
  • Разные символы и пиктограммы (1F300—1F5FF)
  • Эмотиконы (1F600—1F64F)
  • Орнаментные символы (1F650—1F67F)
  • Транспортные и картографические символы (1F680—1F6FF)
  • Алхимические символы (1F700—1F77F)
  • Расширенные геометрические фигуры (1F780—1F7FF)
  • Дополнительные стрелки — C (1F800—1F8FF)
  • Дополнительные символы и пиктограммы (1F900—1F9FF)
  • Шахматные символы (1FA00—1FA6F)
  • Расширенные символы и пиктограммы — A (1FA70—1FAFF)
  • Символы для унаследованной вычислительной техники (1FB00—1FBFF)

Дополнительная идеографическая плоскость

Дополнительная идеографическая плоскость

Плоскость 2 (Дополнительная идеографическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.

В Юникоде 14.0 в этой плоскости представлены следующие наборы иероглифов:

Третичная идеографическая плоскость

Плоскость 3 (Третичная идеографическая плоскость, англ. Tertiary Ideographic Plane, TIP) содержит редко используемые китайские иероглифы, в неё также предполагается внести исторические формы китайского письма.

Третичная идеографическая плоскость разделена на следующие диапазоны[4]:

  • Унифицированные идеограммы ККЯ — расширение G (30000—3134F) — дополнительные редко используемые идеограммы китайского письма;
  • Чжуаньшу (31400—342FF) — иероглифы в стиле «малая печать» (сяочжуань, 小篆) и «большая печать» (дачжуань, 大篆)[5][4];
  • Цзягувэнь (34400—35BFF) — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях, черепах и костях животных[6][4]

В будущем также предполагается включить иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах, и наборы иероглифов Периода Сражающихся царств[4].

Специализированная дополнительная плоскость

Специализированная дополнительная плоскость

Плоскость 14 (Специализированная дополнительная плоскость, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.

В Юникоде 14.0 в этой плоскости представлены следующие блоки:

  • Тэги (E0000—E007F)
  • Дополнение к вариантным селекторам (E0100—E01EF)

Области для частного использования

Некоторые диапазоны Юникода отведены для частного использования и экспериментов. Они включают:

  • Частную область в Базовой многоязыковой плоскости (E000—F8FF)
  • Дополнительные плоскости 15 (F0000—U+FFFFF) и 16 (100000—10FFFF)

См. также

Примечания

  1. Unicode Consortium Glossary—Supplementary Planes
  2. See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. Roadmap to the TIP (англ.) (PDF) (12 марта 2020). Дата обращения: 17 марта 2020.
  5. Proposal to encode Small Seal Script in UCS (англ.) (PDF) (20 июня 2019). Дата обращения: 17 марта 2020.
  6. Request for comment on encoding Oracle Bone Script (англ.) (PDF) (21 октября 2015). Дата обращения: 20 ноября 2017.

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.