Читаем "Проблема кодировок": стечение обстоятельств или стратегический замысел? (СИ) полностью

Таблица символов, используемая в Unicode, устроена следующим образом. Она разбита на 256 рядов. Первые ряды содержат некоторые из старых таблиц символов (объёмом в 128 или 256 позиций каждая) , определённых для некоторых языков. Самый первый ряд (под номером 0) представляет из себя таблицу ISO 8859-1 (в свою очередь, она содержит 128 символов из таблицы 7-битной системы ASCII, а также некоторые символы, используемые в языках стран Западной Европы).

Последующие ряды таблицы отведены под некоторые новые символы (например, математические), но преимущественно – под иероглифы. Однако поскольку используемой в Unicode таблицы объёмом в 65536 символов заведомо недостаточно для представления всех иероглифов, используемых в китайском, японском и корейском языках – хотя официально корпорации-разработчики Unicode заявляют об их поддержке как об одной из главных положительных черт своей системы, – иероглифы, которые, по мнению корпораций, «похожи» друг на друга, было решено «унифицировать» – то есть оставить только такое их начертание, которое принято в китайском языке.

В общей сложности в таблице символов системы Unicode (на данный момент, то есть в версии 3.0 – см. ниже) насчитывается около 28000 иероглифов. Как видно, многие иероглифы – в частности те, что в Японии используются для написания имён людей, названий местностей, а также в исторических текстах – вообще были оставлены «за бортом». При этом «похожие» и действительно одинаковые символы европейских языков, например, букв «A», «унификации» подвергнуты не были, поэтому в то же самое время масса места в таблице символов Unicode используется, по сути, впустую.

Как следствие, жители стран Юго-Восточной Азии, за которых американские корпорации пытаются решить, какие символы им «разрешается» использовать в компьютерной технике, а какие – «запрещается», уже в течение нескольких лет борются с системой Unicode. Она совершенно не соответствует самым первоочерёдным требованиям, предъявляемым к ней в этих странах, – вопреки рекламным заявлениям корпораций-членов консорциума.

***

Уместно рассмотреть теперь, какие агрессивные шаги предпринимают корпорации для утверждения Unicode в качестве международного стандарта

.

В начале 1990-х в ISO для решения проблемы кодировок рассматривалась другая, более совершенная чем Unicode, система кодирования символов – UCS (Universal Coded Character Set). Объём её таблицы символов составляет примерно 4,3 миллиарда символов (а точнее, 2^32=4294967296). Эта таблица разбита на 65536 «внутренних» таблиц по 65536 символов каждая, и разбивка этих «внутренних» таблиц (256x256 рядов) совпадает с разбивкой таблицы, используемой в системе Unicode. Для переключения между «внутренними» таблица ми в UCS предлагалось использовать управляющие последовательности.

Система UCS была описана в «черновике» ISO DIS-10646.1:1990, подготовленном ISO/IEC JTC1/SC02/WG02. Её поддержали европейские и японские исследователи. Однако американские корпорации UCS не устраивала. А поскольку ISO, как она сама указывает в своих документах, «выпускает только те стандарты, которые нужны рынку», а также потому, что многие нанимаемые ISO «эксперты» – это работники американских компьютерных корпораций, то неудивительно, что вскоре черновик ISO DIS-10646.1:1990 тихо прекратил своё существование.

«Зато» появился – уже в качестве не черновика, а стандарта – документ ISO/IEC 10646 Version 2, позднее названный ISO/IEC 10646-1: 1993. Он был обозначен как «ISO/IEC 10646 Universal Multiple-Octet Coded Character Set (UCS) – Part 1: Architecture and Basic Multilingual Plane», и в качестве его базовой таблицы символов (т.е. первой из «внутренних» 65536-символьных таблиц) была утверждена… правильно, таблица системы Unicode, со всеми вытекающими отсюда последствиями.

Заметим, что по мере изменения и пополнения таблицы символов системы Unicode и выхода новых версий этой системы – а эта работа ведётся постоянно, поскольку изначально система Unicode была представлена в ISO в недоработанном виде – выходят и новые документы ISO. Система Unicode существует в общей сложности в следующих версиях: 1.1 (соответствует стандарту ISO/IEC 10646-1: 1993), 2.0, 2.1 (тот же стандарт ISO/IEC 10646-1: 1993 плюс дополнения: «Amendments» с 1-го по 7-е и «Technical Corrigenda» 1 и 2), 3.0 (стандарт ISO/IEC 10646-1:2000). В начале 2002-го года планируется выход Unicode 3.2, а в 2003-м – Unicode 4.0.

Перейти на страницу:

Похожие книги

Зеленый свет
Зеленый свет

Впервые на русском – одно из главных книжных событий 2020 года, «Зеленый свет» знаменитого Мэттью Макконахи (лауреат «Оскара» за главную мужскую роль в фильме «Далласский клуб покупателей», Раст Коул в сериале «Настоящий детектив», Микки Пирсон в «Джентльменах» Гая Ричи) – отчасти иллюстрированная автобиография, отчасти учебник жизни. Став на рубеже веков звездой романтических комедий, Макконахи решил переломить судьбу и реализоваться как серьезный драматический актер. Он рассказывает о том, чего ему стоило это решение – и другие судьбоносные решения в его жизни: уехать после школы на год в Австралию, сменить юридический факультет на институт кинематографии, три года прожить на колесах, путешествуя от одной съемочной площадки к другой на автотрейлере в компании дворняги по кличке Мисс Хад, и главное – заслужить уважение отца… Итак, слово – автору: «Тридцать пять лет я осмысливал, вспоминал, распознавал, собирал и записывал то, что меня восхищало или помогало мне на жизненном пути. Как быть честным. Как избежать стресса. Как радоваться жизни. Как не обижать людей. Как не обижаться самому. Как быть хорошим. Как добиваться желаемого. Как обрести смысл жизни. Как быть собой».Дополнительно после приобретения книга будет доступна в формате epub.Больше интересных фактов об этой книге читайте в ЛитРес: Журнале

Мэттью Макконахи

Биографии и Мемуары / Публицистика
10 мифов о 1941 годе
10 мифов о 1941 годе

Трагедия 1941 года стала главным козырем «либеральных» ревизионистов, профессиональных обличителей и осквернителей советского прошлого, которые ради достижения своих целей не брезгуют ничем — ни подтасовками, ни передергиванием фактов, ни прямой ложью: в их «сенсационных» сочинениях события сознательно искажаются, потери завышаются многократно, слухи и сплетни выдаются за истину в последней инстанции, антисоветские мифы плодятся, как навозные мухи в выгребной яме…Эта книга — лучшее противоядие от «либеральной» лжи. Ведущий отечественный историк, автор бестселлеров «Берия — лучший менеджер XX века» и «Зачем убили Сталина?», не только опровергает самые злобные и бесстыжие антисоветские мифы, не только выводит на чистую воду кликуш и клеветников, но и предлагает собственную убедительную версию причин и обстоятельств трагедии 1941 года.

Сергей Кремлёв

Публицистика / История / Образование и наука
Путин навсегда. Кому это надо и к чему приведет?
Путин навсегда. Кому это надо и к чему приведет?

Журналист-международник Владимир Большаков хорошо известен ставшими популярными в широкой читательской среде книгами "Бунт в тупике", "Бизнес на правах человека", "Над пропастью во лжи", "Анти-выборы-2012", "Зачем России Марин Лe Пен" и др.В своей новой книге он рассматривает едва ли не самую актуальную для сегодняшней России тему: кому выгодно, чтобы В. В. Путин стал пожизненным президентом. Сегодняшняя "безальтернативность Путина" — результат тщательных и последовательных российских и зарубежных политтехнологий. Автор анализирует, какие политические и экономические силы стоят за этим, приводит цифры и факты, позволяющие дать четкий ответ на вопрос: что будет с Россией, если требование "Путин навсегда" воплотится в жизнь. Русский народ, утверждает он, готов признать легитимным только то государство, которое на первое место ставит интересы граждан России, а не обогащение высшей бюрократии и кучки олигархов и нуворишей.

Владимир Викторович Большаков

Публицистика / Политика / Образование и наука / Документальное