link560 link561 link562 link563 link564 link565 link566 link567 link568 link569 link570 link571 link572 link573 link574 link575 link576 link577 link578 link579 link580 link581 link582 link583 link584 link585 link586 link587 link588 link589 link590 link591 link592 link593 link594 link595 link596 link597 link598 link599 link600 link601 link602 link603 link604 link605 link606 link607 link608 link609 link610 link611 link612 link613 link614 link615 link616 link617 link618 link619 link620 link621 link622 link623 link624 link625 link626 link627 link628 link629 link630 link631 link632 link633 link634 link635 link636 link637 link638 link639 link640 link641 link642 link643 link644 link645 link646 link647 link648 link649 link650 link651 link652 link653 link654 link655 link656 link657 link658 link659 link660 link661 link662 link663 link664 link665 link666 link667 link668 link669 link670 link671 link672 link673 link674 link675 link676 link677 link678 link679 link680 link681 link682 link683 link684 link685 link686 link687 link688 link689 link690 link691 link692 link693 link694 link695 link696 link697 link698 link699

PersCom — Компьютерная Энциклопедия Компьютерная Энциклопедия

Кодирование символов

Общие соображения


Текст (изначально) есть материализованная человеческая речь. Поэтому в первом приближении структура текста сходна со структурой речи: фразы — слова — фонемы для речи превращаются в фразы — слова — буквы для фонетических систем или в фразы — лексемы — знаки (иероглифы) для нефонетических. Таким образом, элементарной информационной единицей для представления текста является символ текста (буква, фонема, иероглиф).
 

Хочется иметь возможность изображать и обрабатывать любой текст из тех, что печатаются в книгах. Что именно хочется изображать/кодировать? 

  1. Собственно символы, входящие в состав данного текста;
  2. Конфигурацию символов, используемых в данном тексте;
  3. Расположение фрагментов текста на странице (колонки, таблицы, направление текста, и т.п.);
  4. Расположение символов внутри фрагмента текста, например, надстрочные и подстрочные индексы, символы в математических или в химических формулах;
  5. Составные символы, включающие несколько отдельно кодируемых частей (интеграл или сумма с пределами, …).
     

Каково общее количество символов, которые хочется изображать:
 

  • Буквы латинские — 26 * 2 = 52, так как строчные и прописные;
  • Буквы русские — 32 * 2 = 64, строчные и прописные;
  • Цифры — 10 штук;
  • Знаки препинания -тоже штук 10;
  • Знаки математических операций — тоже более 10;
  • Греческие буквы — используются в математических текстах;
  • Дополнительные знаки, используемые в текстах разного вида, такие как $,%,#,@,§,...
  • Специальные символы, используемые в различных специфических областях деятельности, например, нотные знаки в музыке, типографские (корректорские) знаки, специальные математические знаки (интегралы, кванторы и т.п.);
  • Если текст многоязычный, то дополнительно буквы национальных алфавитов.
     

Всего для исчерпывающего кодирования фонетических систем письменности требуется изображать (кодировать) несколько сотен (а может быть, и более 1000) символов.
 

Если хочется кодировать нефонетическое письмо (например, иероглифы), то количество потребных кодов увеличивается до тысяч.