Оценка количественных параметров текстовых документов. Обработка текстовой информации

Содержание

Слайд 2

Ключевые слова

кодовая таблица
восьмиразрядный двоичный код
информационный объём текста

Ключевые слова кодовая таблица восьмиразрядный двоичный код информационный объём текста

Слайд 3

Представление текстовой информации в памяти компьютера

Текст состоит из символов - букв, цифр,

Представление текстовой информации в памяти компьютера Текст состоит из символов - букв,
знаков препинания и т. д., которые компьютер различает по их двоичному коду.

Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.

Кодовая таблица

0 – 32 - управляющие символы

33 – 127 – латинские буквы, знаки препинания, цифры, знаки арифметических операций

128 – 256 – буквы национального
алфавита

ASCII

Слайд 4

Представление текстовой информации в памяти компьютера

Соответствие между изображениями символов и кодами символов

Представление текстовой информации в памяти компьютера Соответствие между изображениями символов и кодами
устанавливается с помощью кодовых таблиц.

Фрагмент кодовой таблицы ASCII

Коды русских букв в разных кодировках

Стандарт кодирования символов Unicode позволяет пользоваться более чем двумя языками.
В Unicode каждый символ кодируется шестнадцатиразрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65 536 различных символов: 216 = 65 536.

Слайд 5

Информационный объём фрагмента текста

I = K×i

I - информационный объём сообщения
K – количество

Информационный объём фрагмента текста I = K×i I - информационный объём сообщения
символов
i – информационный вес символа

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
8 битов (1 байт) - восьмиразрядная кодировка;
6 битов (2 байта) - шестнадцатиразрядная кодировка.

Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.

Слайд 6

Информационный объём фрагмента текста

Задача 1. Считая, что каждый символ кодируется одним байтом,

Информационный объём фрагмента текста Задача 1. Считая, что каждый символ кодируется одним
определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо:
Тысячи путей ведут к заблуждению, к истине - только один.
Решение
В данном тексте 57 символов (с учётом знаков препинания и пробелов). Каждый символ кодируется одним байтом. Следовательно, информационный объём всего текста - 57 байтов.
Ответ: 57 байтов.

Слайд 7

Информационный объём фрагмента текста

Задача 2. В кодировке Unicode на каждый символ отводится

Информационный объём фрагмента текста Задача 2. В кодировке Unicode на каждый символ
два байта. Определите информационный объём слова из 24 символов в этой кодировке.
Решение.
I = 24 × 2 = 48 (байтов).
Ответ: 48 байтов.

Слайд 8

Информационный объём фрагмента текста

Задача 3. Автоматическое устройство осуществило перекодировку информационного сообщения на

Информационный объём фрагмента текста Задача 3. Автоматическое устройство осуществило перекодировку информационного сообщения
русском языке, первоначально записанного в 8-битовом коде, в 16-битовую кодировку Unicode. При этом информационное сообщение увеличилось на 2048 байтов. Каков был информационный объём сообщения до перекодировки?
Решение
Информационный вес каждого символа в 16-битовой кодировке в два раза больше информационного веса символа в 8-битовой кодировке. Поэтому при перекодировании исходного блока информации из 8-битовой кодировки в 16-битовую его информационный объём должен был увеличиться вдвое, другими словами, на величину, равную исходному информационному объёму. Следовательно, информационный объём сообщения до перекодировки составлял 2048 байтов = 2 Кб.
Ответ: 2 Кбайта.

Слайд 9

Информационный объём фрагмента текста

Ответ: 3,39 Мбайт.

K = 740 × 80 × 60
N

Информационный объём фрагмента текста Ответ: 3,39 Мбайт. K = 740 × 80
= 256
I - ?

256 = 2i = 28, i = 8
К = 740 × 80 × 60 × 8 = 28 416 000 бит = 3 552 000 байтов =
= 3 468,75 Кбайт 3,39 Мбайт.

I = K × i
N = 2i

Решение

Задача 4. Выразите в мегабайтах объём текстовой информации в «Современном словаре иностранных слов» из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы). Считайте, что при записи использовался алфавит мощностью 256 символов.

Слайд 10

Текст состоит из символов - букв, цифр, знаков препинания и т. д.,

Текст состоит из символов - букв, цифр, знаков препинания и т. д.,
которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
8 битов (1 байт) - восьмиразрядная кодировка;
6 битов (2 байта) - шестнадцатиразрядная кодировка.
Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.

Самое главное

Слайд 11

Вопросы и задания

1. Почему кодировки, в которых каждый символ кодируется цепочкой из

Вопросы и задания 1. Почему кодировки, в которых каждый символ кодируется цепочкой
восьми нулей и единиц, называются иначе однобайтовыми?

2. С какой целью была введена кодировка Unicode?

Слайд 12

Вопросы и задания

3. Считая, что каждый символ кодируется одним байтом, определите, чему

Вопросы и задания 3. Считая, что каждый символ кодируется одним байтом, определите,
равен информационный объём следующего высказывания Алексея Толстого:
Не ошибается тот, кто ничего не делает, хотя это и есть его основная ошибка.
512 битов
608 битов
8 Кбайт
123 байта

Слайд 13

Вопросы и задания

4.В кодировке ASCII каждый символ кодируется 8 битами. Определите информационный

Вопросы и задания 4.В кодировке ASCII каждый символ кодируется 8 битами. Определите
объём сообщения в этой кодировке:
Длина данного текста 32 символа.
32 бита
320 битов
32 байта
256 байтов

Слайд 14

Вопросы и задания

5. В какой кодировочной таблице можно закодировать 65 536 различных

Вопросы и задания 5. В какой кодировочной таблице можно закодировать 65 536
символов?
ASCII
Windows
КОИ-8
Unicode