Слайд 3UCS-2, UCS-4(Universal Character Set)
ASCII 00010101
UCS-2 00000000 00010101
UCS-4 00000000 00000000 00000000 00010101
Слайд 4UTF-8,
UTF-16,
UTF-16LE FF FE,
UTF-16BE FE FF,
UTF-32,
UTF-32LE FF FE 00
00,
UTF-32BE 00 00 FE FF.
Слайд 5Стандарт кодування UTF-8
Старший біт зліва. Початком коду є керуючий символ (виділено жирним)
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xx 10xxxxxx 10xxxxxx 10xxxxxx
0
- використовується 8-бітна кодування,
110 - використовується 16-бітна кодування,
1110 - використовується 24-бітна кодування,
11110 - використовується 32 бітна кодування.
Слайд 6Приклад кодування фрази «Самостійна 1» в UTF-8.
Код в бінарному вигляді (старший біт
ліворуч):
11010000 10100001 (С) 11010000 10110000 (а) 11010000 10111100 (м)
11010000 10111110 (о) 11010001 10000001 (с) 11010001 10000010 (т)
11010001 10010110 (і) 11010000 10111001 (й) 11010000 10111101(н)
11010000 10110000 (а) 00100000 (пробіл) 00110001 (1)
Слайд 7Приклад кодування фрази «Самостійна 1» в UTF-16LE.
Код в бінарному вигляді (старший біт
ліворуч):
11111111 11111110 (Покажчик) 00100001 00000100 (С) 00110000 00000100 (а) 00111100 00000100 (м) 00111110 00000100 (о) 01000001 00000100 (с)
01000010 00000100 (т) 01010110 00000100 (і) 00111001 00000100 (й)
00111101 00000100 (н) 00110000 00000100 (а) 00100000 00000000 (пробіл)
00110001 00000000 (1)
Слайд 8Розглянемо докладніше алгоритм кодування символів, номери яких перевищують значення 65535. Для прикладу
в якості символу використовуємо літеру древнетюркского алфавіту