Материалы

Расширения кодовой таблицы

Рейтинг:   / 3903
ПлохоОтлично 

Когда IBM сделал свой PC, он использовал 8-й бит и расширил кодовую таблицу (см. таблицу ниже). 

Коды  Назначение
128...175 Иностранные символы
176...213 Символы псевдографики
224...254 Научные символы

Кодировки русскоязычные

Использовали символы переключения регистров для замены части символов - латинские буквы заменяли русскими. Так делалось в стандартном ASCII. В поток символов вставляли, например SI и SO, которые трактовались как РУС и ЛАТ. В тексте, где русские и латинские буквы чередуются, - до двух байтов на символ.
 

В кодировке IBM для русификации были использованы коды из второй половины 256-байтовой кодовой таблицы. При использовании любой конкретной схемы замены часть программ будет работать (отображать на экране) неверно. Существовало и использовалось несколько способов расположения русских символов.

Кодирование символов кириллицы

  1. КОИ-8 - Кириллица перекрывает псевдографику, символы расположены не в алфавитном порядке (c 192 кириллица заменяет латинские буквы: ю,а,б,с,д…). Используется а электронной почте.
  2. СР1251 - стандарт для Microsoft Windows (с 192 по 256 - прописные и строчные буквы кириллицы).
  3. СР866 DOS (Альтернативная кодировка)- А-Я: 128-159; а-п: 160-175; р-я: 224-239.

Кодовые страницы

Этот подход - расширение идеи с переключением регистров или кодировок. Могут быть выбраны управляющие последовательности для смены кодовых страниц. Кодовые страницы - стандартизованы международно.
 

Посмотрите в каталоге DOS файл country.txt.

x-cp866 (DOS)
koi8-r (UNIX)
x-cp1251 (Windows)
iso-8859-5
x-koi8-u (UNIX)
x-cp866-u(DOS)
 

Разметка текста

Для разметки текста могут использоваться два способа. Первый состоит в использовании специальных "не символьных" кодировок, в пределе приводящих к кодированию образа документа как растрового или векторного изображения. Другой способ состоит в добавлении внутрь текста специальных последовательностей символов для разметки, которые должны интерпретироваться не как символы.

Примеры языков/систем кодирования: SGML (Standard Generic Markup Language); HTML (HyperText Markup Language); ; TROFF (Unix); PostScript; PDF.

Postscript

Postscript был разработан Джоном Уорноком и Чаком Гешке из Adobe Systems в начале 80-х гг. Исходно Postscript использовался как ядро механизма печати компьютеров Apple, но вскоре стал широко распространенным стандартом для большинства компьютерных систем. Интерпретаторы Postscript (в виде программных или аппаратных компонентов) для печати документов присутствуют практически во всех современных компьютерных системах.
 

В Postscript используется модель изображения текста (или рисунков) на чистой странице. Когда страница готова, она выводится на печать и начинается "прорисовка" изображения очередной страницы. Это есть не что иное, как метод компиляции. Каждый документ Postscript включает в себя программу, которая печатает на принтере (или отображает на экране монитора) следующие друг за другом страницы.
 

Программа Postscript состоит из четырех компонентов:

  1. Интерпретатор для выполнения вычислений. Основной моделью такого интерпретатора является простой стек постфиксного выполнения.
  2. Синтаксис языка. Он основан на синтаксисе языка Forth.
  3. Расширения для раскрашивания. Расширение языка Forth командами закрашивания для управления процессом отображения текста и рисунков на листе бумаги.
  4. Соглашения. Набор соглашений, не входящих в официальный язык Postscript; которые используют различные принтеры для согласования представления документов. Использование этих соглашений упрощает передачу документов Postscript из одной системы в другую.

Postscript был разработан как архитектура виртуальной машины, предназначенной для создания печатных документов. В большинстве приложений не предполагается, что программист будет читать текст документа Postscript. Тем не менее, синтаксис Postscript достаточно прост и легок для восприятия. Существуют образовательные программы для обучения этому языку программирования. Его синтаксис и семантика отличаются простотой, а доступность программ для отображения на экране документов Postscript означает, что у любого пользователя имеется возможность доступа к интерпретатору виртуальной машины, на которой можно тестировать свои Postscript-программы. Следующим этапом развития Postscript стало создание фирмой Adobe формата PDF (Portable Document Format - формат переносимых документов). PDF -это форма сжатия файлов Postscript. Программы чтения PDF-файлов свободно распространяются по Интернету, а большинство web-браузеров могут отображать PDF-файлы.
 

Напишем программу, рисующую квадрат со стороной один дюйм, расположенный в центре страницы:

newpath
200 300 moveto
0 72 rlineto
0 -72 rlineto
-72 0 rlineto
5 setlinewidth
stroke
showpage

HTML

HTML вовсе не является языком программирования. HTML - это язык разметки. Вы используете HTML для разметки текстового документа, точно так же, как это делает редактор при помощи жирного красного карандаша. Эти пометки служат для определения формата (или стиля), который будет использован при выводе текста на экран монитора.
 

Если у вас есть желание выделить часть текста на Web-странице жирным шрифтом, вы отметите ее следующим образом:
 

<B>this text appears bold</B>

Символы <В> "включают" жирный шрифт, а </В> "выключают" его. Они называются тэгами (от англ. tag - ярлык, признак.) и не отображаются на экране. Они лишь предписывают выводить заключенный между ними текст жирным шрифтом.

Стандарт Unicode

Стандарт Unicode использует два байта для изображения символа. Количество кодов - 65536. Текстовые файлы становятся вдвое длиннее. Однако многие текстовые редакторы сочетают текст с графикой и используют свои форматы с большим количеством управляющей информации - реальное увеличение объема - около 25%.
 

Требуется значительный объем ОЗУ для хранения таблицы фонтов. ArialCyr в Windows занимает немного больше 50 кБайт на 256 символов. Фонт для 50000 символов - в 200 раз больше - 10 МБайт ???

Во многих алфавитах символы составные. Немецкий, французский -
буквы с диакритическими знаками.
 

Иврит и арабский - тексты справа-налево, а числа слева направо. В
арабском не два набора символов (строчные - прописные), а четыре.
 

В китайском, японском, корейском - десятки тысяч иероглифов ....
1977 год - стандарт ISO-646 на кодирование символов.
1983 год - начало разработки нового стандарта ISO-10646, в котором предполагалось:

  • обеспечить совместимость с существующими системами;
  • включить в систему кодирования знаки различных письменностей, в частности, восточных.

В 1987...1991 годах создается некоммерческая организация: консорциум Unicode, в ее техническом комитете ведущие компании, например, Borland, IBM, Lotus, Microsoft, Nowell, Sun и многие другие. Предполагалось, что Unicode к 1995 году станет стандартом "де юре" (см. таблица ниже).

Коды   Описание 
0...127 Нынешний ASCII
...8191 Различные алфавиты (лат., кирилица, увропейские, иврит...)
8192...12287 Знаки пунктуации, математические символы, орнаменты
12288...16383 Фонетические и др., спец. символы китайского, корейского, японского языков
16384...59391 Китайские, корейские, японские иероглифы
59392...65024 Блок для частного использования
65025...65536 Блок обеспечения совместимости

Символьное представление чисел - универсальный формат межкомпьютерного общения

Числа представляются кодами символов соответствующих цифр и букв:
 

-32.655E-3 - 10 байтов с кодами символов.

Такой формат одинаково воспринимается любой вычислительной системой: перед использованием числового значения оно формируется системой путем преобразования из символьной строки во внутреннее представление.

Пример. Формат CSV (comma separated values) - используется многими электронными таблицами для обмена данными.

 

Яндекс.Метрика