Кодирование текста

Содержание

Слайд 2

§6 (начало и п1) (стр.43–45) – выучить.
Вопрос 1 (стр. 51) – устно.

Домашнее

§6 (начало и п1) (стр.43–45) – выучить. Вопрос 1 (стр. 51) – устно. Домашнее задание
задание

Слайд 3

Представление данных и программ в компьютере

Итак, чтобы компьютер мог воспринять и обработать

Представление данных и программ в компьютере Итак, чтобы компьютер мог воспринять и
числовые значения, текст, изображение, звук или видео, их нужно представить в виде последовательностей 0 и 1

кодирование

10101001010

данные (код)

обработка

11111100010

данные (код)

хранение

передача

передача

Слайд 4

в памяти – ?

Кодирование текста

на экране – символы

двоичные коды

в памяти – ? Кодирование текста на экране – символы двоичные коды

Слайд 5

Вспомним

n – информационный вес символа – количество бит в двоичном коде.
N –

Вспомним n – информационный вес символа – количество бит в двоичном коде.
мощность алфавита – количество всех символов алфавита (кодовых комбинаций).

N=2n

Если с помощью n-разрядного двоичного кода закодировать алфавит, то количество символов этого алфавита составит

Слайд 6

Кодовые таблицы

Для представления текстовых данных в компьютерах используют так называемые кодовые таблицы

Кодовые таблицы Для представления текстовых данных в компьютерах используют так называемые кодовые
– наборы кодов для кодирования определенного количества символов, где каждому из символов соответствует двоичный код определенной длины.

Слайд 7

Кодовая таблица ASCII

ASCII (англ. American standard code for information interchange, [’æs.ki]) —

Кодовая таблица ASCII ASCII (англ. American standard code for information interchange, [’æs.ki])
самая популярная кодовая таблица, была разработана и стандартизована в США в 1963 году. Название «ASCII» по-русски часто произносится как [аски].
Информационный вес символа в коде ASCII – 8 бит. Мощность алфавита при этом составляет 256 символов (28).

Слайд 8

Первая половина таблицы ASCII

Первая половина таблицы ASCII

Слайд 9

Вторая половина таблицы ASCII

Вторая половина таблицы ASCII

Слайд 10

Проблема ASCII

Исторически сложилось, что в 8-битовых кодировках ASCII первую половину кодовой таблицы

Проблема ASCII Исторически сложилось, что в 8-битовых кодировках ASCII первую половину кодовой
(0—127) занимают всегда «американские» символы, а вторую (128—255) — дополнительные символы, включая набор букв национальных языков и местных символов.
Отсутствие единого стандарта размещения кириллических символов в таблице ASCII доставляло (и доставляет) множество проблем с кодировками (КОИ-8, Windows-1251 и др.).
Позже кодовые таблицы стандартизировали. Просто стандартизировали их названия и набор символов. Но проблема осталась!

Слайд 11

Кириллица в ASCII

К сожалению, в настоящее время существуют много различных кодовых таблиц

Кириллица в ASCII К сожалению, в настоящее время существуют много различных кодовых
для кириллицы в ASCII. Наиболее распространены КОИ8-R, CP1251, CP866, Mac и ISO. Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Слайд 12

Разные кодировки кириллицы

Одним из первых стандартов кодирования русских букв был КОИ8 ("Код

Разные кодировки кириллицы Одним из первых стандартов кодирования русских букв был КОИ8
обмена информацией, 8-битный"). Кодировка применялась ещё в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х годов стала использоваться в первых русифицированных версиях ОС UNIX. В дальнейшем используется «потомками» ОС Unix: Linux, Android.
От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866. Используется в командном языке и в консольном режиме ОС Windows.
Наиболее распространенной в настоящее время является кодировка Microsoft, обозначаемая сокращением CP1251. Является стандартной 8-битной кодировкой для русских версий ОС Windows.
Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.
Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5. Широко применяется в Сербии, Болгарии на юниксоподобных системах. У нас не популярна!

Слайд 13

Unicode

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного

Unicode С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового
стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов.
Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Слайд 14

UTF-8

UTF-8 (от англ. Unicode Transformation Format — «формат преобразования Юникода, 8-битный») —

UTF-8 UTF-8 (от англ. Unicode Transformation Format — «формат преобразования Юникода, 8-битный»)
одна из общепринятых и стандартизированных кодировок текста, которая позволяет хранить символы Юникода, используя переменное количество байт (от 1 до 6).
Коды символов первой половины кода ASCII совпадают с кодами UTF-8. Коды остальных символов содержат от 2 до 6 байт. Русские буквы – по 2 байта.
Имя файла: Кодирование-текста.pptx
Количество просмотров: 36
Количество скачиваний: 0