PersCom — Компьютерная Энциклопедия Компьютерная Энциклопедия

Промышленные воздуходувки профессиональные воздуходувки.

Кодирование символов

Общие соображения


Текст (изначально) есть материализованная человеческая речь. Поэтому в первом приближении структура текста сходна со структурой речи: фразы — слова — фонемы для речи превращаются в фразы — слова — буквы для фонетических систем или в фразы — лексемы — знаки (иероглифы) для нефонетических. Таким образом, элементарной информационной единицей для представления текста является символ текста (буква, фонема, иероглиф).
 

Хочется иметь возможность изображать и обрабатывать любой текст из тех, что печатаются в книгах. Что именно хочется изображать/кодировать? 

  1. Собственно символы, входящие в состав данного текста;
  2. Конфигурацию символов, используемых в данном тексте;
  3. Расположение фрагментов текста на странице (колонки, таблицы, направление текста, и т.п.);
  4. Расположение символов внутри фрагмента текста, например, надстрочные и подстрочные индексы, символы в математических или в химических формулах;
  5. Составные символы, включающие несколько отдельно кодируемых частей (интеграл или сумма с пределами, …).
     

Каково общее количество символов, которые хочется изображать:
 

  • Буквы латинские — 26 * 2 = 52, так как строчные и прописные;
  • Буквы русские — 32 * 2 = 64, строчные и прописные;
  • Цифры — 10 штук;
  • Знаки препинания -тоже штук 10;
  • Знаки математических операций — тоже более 10;
  • Греческие буквы — используются в математических текстах;
  • Дополнительные знаки, используемые в текстах разного вида, такие как $,%,#,@,§,...
  • Специальные символы, используемые в различных специфических областях деятельности, например, нотные знаки в музыке, типографские (корректорские) знаки, специальные математические знаки (интегралы, кванторы и т.п.);
  • Если текст многоязычный, то дополнительно буквы национальных алфавитов.
     

Всего для исчерпывающего кодирования фонетических систем письменности требуется изображать (кодировать) несколько сотен (а может быть, и более 1000) символов.
 

Если хочется кодировать нефонетическое письмо (например, иероглифы), то количество потребных кодов увеличивается до тысяч.