Кодирование символов 
- Подробности
 
- 
Родительская категория: Кодирование символов 
 
- 
Категория: Кодирование символов 
 
Текст (изначально) есть материализованная человеческая речь. Поэтому в первом приближении структура текста сходна со структурой речи: фразы — слова — фонемы для речи превращаются в фразы — слова — буквы для фонетических систем или в фразы — лексемы — знаки (иероглифы) для нефонетических. Таким образом, элементарной информационной единицей для представления текста является символ текста (буква, фонема, иероглиф).
 
Хочется иметь возможность изображать и обрабатывать любой текст из тех, что печатаются в книгах. Что именно хочется изображать/кодировать? 
- Собственно символы, входящие в состав данного текста;
 
- Конфигурацию символов, используемых в данном тексте;
 
- Расположение фрагментов текста на странице (колонки, таблицы, направление текста, и т.п.);
 
- Расположение символов внутри фрагмента текста, например, надстрочные и подстрочные индексы, символы в математических или в химических формулах;
 
- Составные символы, включающие несколько отдельно кодируемых частей (интеграл или сумма с пределами, …).
  
Каково общее количество символов, которые хочется изображать:
 
- Буквы латинские — 26 * 2 = 52, так как строчные и прописные;
 
- Буквы русские — 32 * 2 = 64, строчные и прописные;
 
- Цифры — 10 штук;
 
- Знаки препинания -тоже штук 10;
 
- Знаки математических операций — тоже более 10;
 
- Греческие буквы — используются в математических текстах;
 
- Дополнительные знаки, используемые в текстах разного вида, такие как $,%,#,@,§,...
 
- Специальные символы, используемые в различных специфических областях деятельности, например, нотные знаки в музыке, типографские (корректорские) знаки, специальные математические знаки (интегралы, кванторы и т.п.);
 
- Если текст многоязычный, то дополнительно буквы национальных алфавитов.
  
Всего для исчерпывающего кодирования фонетических систем письменности требуется изображать (кодировать) несколько сотен (а может быть, и более 1000) символов.
 
Если хочется кодировать нефонетическое письмо (например, иероглифы), то количество потребных кодов увеличивается до тысяч.