Материалы

Общие соображения

Рейтинг:   / 3
ПлохоОтлично 

Текст (изначально) есть материализованная человеческая речь. Поэтому в первом приближении структура текста сходна со структурой речи: фразы - слова - фонемы для речи превращаются в фразы - слова - буквы для фонетических систем или в фразы - лексемы - знаки (иероглифы) для нефонетических. Таким образом, элементарной информационной единицей для представления текста является символ текста (буква, фонема, иероглиф).
 

Хочется иметь возможность изображать и обрабатывать любой текст из тех, что печатаются в книгах. Что именно хочется изображать/кодировать? 

  1. Собственно символы, входящие в состав данного текста;
  2. Конфигурацию символов, используемых в данном тексте;
  3. Расположение фрагментов текста на странице (колонки, таблицы, направление текста, и т.п.);
  4. Расположение символов внутри фрагмента текста, например, надстрочные и подстрочные индексы, символы в математических или в химических формулах;
  5. Составные символы, включающие несколько отдельно кодируемых частей (интеграл или сумма с пределами, …).
     

Каково общее количество символов, которые хочется изображать:
 

  • Буквы латинские - 26 * 2 = 52, так как строчные и прописные;
  • Буквы русские - 32 * 2 = 64, строчные и прописные;
  • Цифры - 10 штук;
  • Знаки препинания -тоже штук 10;
  • Знаки математических операций - тоже более 10;
  • Греческие буквы - используются в математических текстах;
  • Дополнительные знаки, используемые в текстах разного вида, такие как $,%,#,@,§,...
  • Специальные символы, используемые в различных специфических областях деятельности, например, нотные знаки в музыке, типографские (корректорские) знаки, специальные математические знаки (интегралы, кванторы и т.п.);
  • Если текст многоязычный, то дополнительно буквы национальных алфавитов.
     

Всего для исчерпывающего кодирования фонетических систем письменности требуется изображать (кодировать) несколько сотен (а может быть, и более 1000) символов.
 

Если хочется кодировать нефонетическое письмо (например, иероглифы), то количество потребных кодов увеличивается до тысяч.

 

Яндекс.Метрика