Кодирование символов: ASCII, KOI8, UNICODE

Слайд 2

Все, что мы видим на экране монитора — это символы. Для вывода

Все, что мы видим на экране монитора — это символы. Для вывода
каждого символа нужен машинный код, который будет соответствовать только этому символу, или же правило, организующее корректный вывод каждого символа на дисплей. Попробуем прикинуть, сколько же нужно всего символов пользователю: для начала, 26 букв английского алфавита (строчных), во-вторых, 26 прописных, пробел, 10 цифр, 9 знаков препинания (. , : ! " ; ? ( ) ), 5 арифметических действий (+, — ,*, /, ^) и спецсимволы (№ % _ # $, ^, &, >, <, |, \). В итоге, получаем немногим больше 100. Такой базовый набор символов легко закодировать в двоичной системе счисления от 0 до 127 (всего 128 позиций), что и было сделано.

Слайд 3

ASCII Для отображения всех этих символов была создана таблитца ASCII (англ.

ASCII Для отображения всех этих символов была создана таблитца ASCII (англ. American
American Standard Code for Information Interchange) — американский стандартный код для обмена информацией; произносится [э́ски].

Слайд 4

Изначально разработана как 7-битная, потом ASCII стала восприниматься как 8-битная. Так выглядят

Изначально разработана как 7-битная, потом ASCII стала восприниматься как 8-битная. Так выглядят
таблицы ASCII-кодов с печатаемыми и непечатаемыми символами (для удобства в таблицах приведены коды в шестнадцатеричной системе счисления). ASCII-кодировка: печатаемые символы

Слайд 5

Дальнейшее развитие привело к появлению понятия «кодовая страница», т.е. набор из 256

Дальнейшее развитие привело к появлению понятия «кодовая страница», т.е. набор из 256
символов для определения группы языков (например, некоторые славянские языки с латинским алфавитом, турецкий, мальтийский, эсперанто и т.д.), но она не позволяла смешивать языки, и к тому же, не могла создать кодовые страницы японского и китайского языков.

Но скоро набора кодов стало не хватать. Возникла новая таблица кодировок, названная «расширенная таблица ASCII», число знакомест в которой возросло до 256. Таблица имела полностью восьми битный код — Latin-1.

Слайд 6

КОИ-8 KOI8 — восьмибитовая ASCII-совместимая кодовая страница, созданная для кодирования букв

КОИ-8 KOI8 — восьмибитовая ASCII-совместимая кодовая страница, созданная для кодирования букв кириллических
кириллических алфавитов. В КОИ-8 символы русского алфавита поместили в верхнюю часть кодовой таблицы так, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это значит, что убрав в тексте, написанном в КОИ-8, восьмой бит каждого символа, то получится текст, написанный латинскими символами. Например, слова «Кодировка» превратились бы в «kODIROVKA».

Слайд 7

ASCII-кодировка: непечатаемые символы

ASCII-кодировка: непечатаемые символы

Слайд 8

UNICODE Юнико́д — стандарт кодирования символов, позволяющий представить знаки практически всех

UNICODE Юнико́д — стандарт кодирования символов, позволяющий представить знаки практически всех письменных
письменных языков.

Это новая система кодирования символов, способная закодировать 1 114 112 символов (code points). Большинство символов, используемых в основных языках мира занимают 65 536 code points. Остальные (более миллиона) code points вполне достаточно для кодирования всех известных символов, включая даже исторические знаки и редкие языки. Стандарт UNICODE очень обширен, имеет три формы: 32-битную (UTF-32), 16-битную (UTF-16) и 8-битную (UTF-8). Весьма распространенная восьми битная форма UTF-8 была создана для удобной совместимости с ASCII- ориентированными системами кодирования