Стандарти представлення двобайтових символів

Слайд 3

UCS-2, UCS-4(Universal Character Set)

ASCII 00010101
UCS-2 00000000 00010101
UCS-4 00000000 00000000 00000000 00010101

UCS-2, UCS-4(Universal Character Set) ASCII 00010101 UCS-2 00000000 00010101 UCS-4 00000000 00000000 00000000 00010101

Слайд 4

UTF-8, UTF-16, UTF-16LE FF FE, UTF-16BE FE FF, UTF-32, UTF-32LE FF FE 00

UTF-8, UTF-16, UTF-16LE FF FE, UTF-16BE FE FF, UTF-32, UTF-32LE FF FE
00, UTF-32BE 00 00 FE FF.

Слайд 5

Стандарт кодування UTF-8

Старший біт зліва. Початком коду є керуючий символ (виділено жирним)
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xx 10xxxxxx 10xxxxxx 10xxxxxx
0

Стандарт кодування UTF-8 Старший біт зліва. Початком коду є керуючий символ (виділено
- використовується 8-бітна кодування,
110 - використовується 16-бітна кодування,
1110 - використовується 24-бітна кодування,
11110 - використовується 32 бітна кодування.

Слайд 6

Приклад кодування фрази «Самостійна 1» в UTF-8.

Код в бінарному вигляді (старший біт

Приклад кодування фрази «Самостійна 1» в UTF-8. Код в бінарному вигляді (старший
ліворуч):
11010000 10100001 (С) 11010000 10110000 (а) 11010000 10111100 (м)
11010000 10111110 (о) 11010001 10000001 (с) 11010001 10000010 (т)
11010001 10010110 (і) 11010000 10111001 (й) 11010000 10111101(н)
11010000 10110000 (а) 00100000 (пробіл) 00110001 (1)

Слайд 7

Приклад кодування фрази «Самостійна 1» в UTF-16LE.

Код в бінарному вигляді (старший біт

Приклад кодування фрази «Самостійна 1» в UTF-16LE. Код в бінарному вигляді (старший
ліворуч):
11111111 11111110 (Покажчик) 00100001 00000100 (С) 00110000 00000100 (а) 00111100 00000100 (м) 00111110 00000100 (о) 01000001 00000100 (с)
01000010 00000100 (т) 01010110 00000100 (і) 00111001 00000100 (й)
00111101 00000100 (н) 00110000 00000100 (а) 00100000 00000000 (пробіл)
00110001 00000000 (1)

Слайд 8

Розглянемо докладніше алгоритм кодування символів, номери яких перевищують значення 65535. Для прикладу

Розглянемо докладніше алгоритм кодування символів, номери яких перевищують значення 65535. Для прикладу
в якості символу використовуємо літеру древнетюркского алфавіту