АрхитектураVLIW / EPIC

Февраль 20, 2021

Главная
Разное
АрхитектураVLIW / EPIC

Содержание

2. Классификация архитектур Скалярные С параллелизмом на уровне команд (ILP) Суперскалярные VLIW / EPIC RISC CISC Itanium2
3. Параллелизм на уровне команд (Instruction Level Parallelism) ILP-процессоры Имеют несколько исполнительных устройств Могут исполнять несколько команд
4. Архитектура VLIW / EPIC VLIW – Very Long Instruction Word EPIC – Explicitly Parallel Instruction Computing
5. Сравнение суперскалярных и VLIW/EPIC-процессоров Какие задачи управления приходится решать, чтобы процессор работал быстро: Параллельное исполнение команд
6. Сравнение суперскалярных и VLIW/EPIC-процессоров Какие задачи управления приходится решать, чтобы процессор работал быстро: Параллельное исполнение команд
7. Сравнение суперскалярных и VLIW/EPIC-процессоров Какие задачи управления приходится решать, чтобы процессор работал быстро: Параллельное исполнение команд
8. Сравнение суперскалярных и VLIW/EPIC-процессоров Какие задачи управления приходится решать, чтобы процессор работал быстро: Параллельное исполнение команд
9. Сравнение суперскалярных и VLIW/EPIC-процессоров
10. Предсказание ветвлений Выборка Декодирование в RISC Переименование регистров Переупорядочение и распараллеливание Исполнение Завершение CISC RISC VLIW
11. Архитектура VLIW / EPIC История M-10 (1972) Cydrome (1984-1988) Cydra-5 256 bit VLIW (7 ops.), reg.
12. Архитектура Itanium
13. Семейство процессоров Itanium 2001 2002 2003 2006 Itanium (Merced) 800 MHz 4 MB L3 cache 180
14. Itanium: планы и реальность
15. Архитектура Itanium (IA-64) Явный ILP (параллелизм на уровне команд) Компилятор объединяет команды процессора в связки, которые
16. Особенности процессоров архитектуры Itanium (IA-64) Простой широкий конвейер Много команд за такт (до 6) Большие вычислительные
18. Регистры IA-64
19. Регистры IA-64 128 целочисленных регистра 64 бита + 1 бит NAT r0 = 0 целочисленные скалярные
20. Вращение регистров Верхние 75% регистров вращающиеся: целочисленные: r32 – r127 вещественные: f32 – f127 предикатные: p16
21. Стек регистров При вызове подпрограмм и возврате происходит сдвиг регистрового окна – целочисленные регистры работают как
22. Иерархия кэш-памяти Itanium2
23. Виртуальная память в IA-64 64-битное виртуальное адресное пространство Размер страницы: 4 KB – 4 GB 32
24. Конвейер Itanium2 Короткий 8-стадийный конвейер Полностью детерминированный путь команд Упорядоченная выборка команд, неупорядоченное завершение Рассчитан на
25. Исполнительные устройства Число операций за такт
26. Сравнение Itanium2 и Opteron
27. Itanium2 Montecito (2006) Montecito: 2 ядра по 2 потока (HyperThreading)
28. Команды IA-64 Команды IA-64 имеют RISC-подобный фиксированный формат: Пример команды: (p3) add r1 = r3, r4
29. Команды IA-64 Связка содержит 3 команды, поле шаблона и стоп-биты. Шаблон указывает типы команд в связке.
30. Команды IA-64 Всего возможно 24 различных шаблона: Процессор загружает максимум по 2 связки за такт. Только
31. Команды IA-64 Логические (and, …) Арифметические (add, …) Команды сравнения (cmp, …) Команды сдвига (shl, …)
32. Особенности целочисленной арифметики в Itanium2 До 6 операций за такт Операция fma (y=a*b+c) выполняется на регистрах
33. Особенности вещественной арифметики в Itanium2 Максимальная производительность 2 за такт: двойная точность 4 за такт: одинарная
34. Особенности вещественной арифметики в Itanium2 Вещественное деление (32-bit float) Вычисление корня (32-bit float)
35. Предсказание ветвлений в Itanium2 BHT – таблица истории ветвлений Адрес перехода и информация о предсказании в
36. Предвыборка инструкций в Itanium2 Автоматическая предвыборка следующей кэш-строки в кэш команд L1, если она содержится в
37. Фрагмент кода на ассемблере для IA-64 Синтаксис инструкций:
38. Средства повышения производительности в IA-64 Предикатное исполнение команд Аппаратные счетчики циклов Спекуляция по данным и управлению
39. Предикатное исполнение команд Позволяет зависимости по управлению (т.е. условные переходы) преобразовать в зависимости по данным. Пример:
40. Аппаратные счетчики циклов Архитектурная поддержка циклов По специальной команде перехода счетчики автоматически уменьшаются и делается проверка
41. Спекуляция по управлению Команды загрузки могут выполняться до того, как обнаружится, что это действительно нужно.
42. Спекуляция по данным Команды загрузки могут выполняться до того, как обнаружится, что это действительно можно.
43. Программная конвейеризация цикла Архитектурная поддержка параллельного исполнения команд цикла. Выполняется с помощью: Предикатных регистров Аппаратных счетчиков
51. Процессоры Itanium 9300 (Tukwila) Особенности нового Itanium-а Частота: до 1.73 GHz Режим Turbo boost: до 1.86
52. Процессоры Transmeta
53. Процессоры Transmeta Особенности архитектуры Архитектура VLIW Динамическая трансляция кода: x86 ? VLIW Интегрированный северный мост Ориентация
54. Динамическая двоичная компиляция Технология Code Morphing Преобразование команд x86 в команды VLIW Хранение транслированного кода в
55. Динамическая двоичная компиляция Технология Code Morphing Преобразование команд x86 в команды VLIW Хранение транслированного кода в
56. Динамическая двоичная компиляция Технология Code Morphing Преобразование команд x86 в команды VLIW Хранение транслированного кода в
57. Динамическая двоичная компиляция Технология Code Morphing Преобразование команд x86 в команды VLIW Хранение транслированного кода в
58. Динамическая двоичная компиляция Технология Code Morphing Преобразование команд x86 в команды VLIW Хранение транслированного кода в
59. Динамическая двоичная компиляция Технология Code Morphing Преобразование команд x86 в команды VLIW Хранение транслированного кода в
60. Процессор Transmeta Efficion Особенности Ширина командного слова 256 бит (8 команд) Кэш L1: 64 data /
61. Процессор Transmeta Efficion Стадии конвейера
62. Процессор Transmeta Efficion Структура команды Исполнительные устройства Отображение регистров
63. Архитектура Эльбрус 2000 Бабаян Борис Арташесович чл.корр. РАН Intel Fellow
64. Эльбрус 2000 ELBRUS – ExpLicit Basic Resources Utilization Scheduling (явное планирование использования основных ресурсов) Особенности архитектуры
65. Процессор Эльбрус Характеристики Командное слово переменной длины (2 – 16 слогов) До 23 операций за такт
66. Процессор Эльбрус Формат команды: Число слогов: 2 – 16 Типы слогов (максимальное число в команде) Заголовок
67. Процессор Эльбрус ALU0...ALU5 – арифметико-логические устройства; APU – устройство предварительной подкачки массивов; APB – буфер предварительной
68. Процессор Эльбрус Динамическая трансляция кода
70. Скачать презентацию

Классификация архитектур
Скалярные
С параллелизмом
на уровне команд (ILP)
Суперскалярные
VLIW / EPIC
RISC
CISC
Itanium2
Эльбрус 2000
Alpha
Power, PowerPC
SPARC
MIPS
x86
x86-64

Параллелизм на уровне команд (Instruction Level Parallelism)
ILP-процессоры
Имеют несколько исполнительных устройств
Могут исполнять несколько команд

одновременно

Суперскалярные процессоры
Процессор сам распределяет ресурсы

VLIW / EPIC-процессоры
Very Long Instruction Word /
Explicitly Parallel Instruction Computing
Компилятор распределяет ресурсы процессора

Архитектура VLIW / EPIC
VLIW – Very Long Instruction Word
EPIC – Explicitly Parallel

Instruction Computing
На входе процессора последовательность больших команд, состоящих из нескольких простых операций, которые могут исполняться параллельно.
Преимущества перед суперскалярами:
Меньше места на процессоре тратится на управление, больше остается на ресурсы: регистры, исполнительные устройства, кэш-память.
Более тщательное планирование дает лучшее заполнение исполнительных устройств (больше команд за такт).
Недостатки:
Долгое время планирования потока команд.
Невозможность учесть динамику исполнения программы.

Слайд 5

Сравнение суперскалярных и VLIW/EPIC-процессоров
Какие задачи управления приходится решать, чтобы процессор работал быстро:
Параллельное

исполнение команд
Нужно найти независимые команды
Спекулятивное исполнение команд
Нужно заранее угадать, выполнится ли переход
Спекулятивная загрузка данных
Нужно проверить корректность преждевременной загрузки данных
Размещение данных на регистрах
Нужно оптимально использовать регистры процессора

Слайд 6

Сравнение суперскалярных и VLIW/EPIC-процессоров
Какие задачи управления приходится решать, чтобы процессор работал быстро:
Параллельное

исполнение команд
SS: Независимые команды ищет процессор
EPIC: Независимые команды ищет компилятор
Спекулятивное исполнение команд
SS: Процессор автоматически предсказывает переход
EPIC: Компилятор подсказывает процессору как поступить
Спекулятивная загрузка данных
SS: Процессор автоматически проверяет корректность
EPIC: Компилятор использует специальную команду проверки
Размещение данных на регистрах
SS: Процессор автоматически отображает программные регистры на аппаратные и управляет стеком регистров
EPIC: Компилятор размещает данные на аппаратных регистрах и управляет стеком регистров с помощью специальных команд

Слайд 7

Сравнение суперскалярных и VLIW/EPIC-процессоров
Какие задачи управления приходится решать, чтобы процессор работал быстро:
Параллельное

исполнение команд
SS: Независимые команды ищет процессор
EPIC: Независимые команды ищет компилятор
Спекулятивное исполнение команд
SS: Процессор автоматически предсказывает переход
EPIC: Компилятор подсказывает процессору
Спекулятивная загрузка данных
SS: Процессор автоматически проверяет корректность
EPIC: Компилятор использует специальную команду проверки
Размещение данных на регистрах
SS: Процессор автоматически отображает программные регистры на аппаратные и управляет стеком регистров
EPIC: Компилятор размещает данные на аппаратных регистрах и управляет стеком регистров с помощью специальных команд

Слайд 8

Сравнение суперскалярных и VLIW/EPIC-процессоров
Какие задачи управления приходится решать, чтобы процессор работал быстро:
Параллельное

исполнение команд
SS: Независимые команды ищет процессор
EPIC: Независимые команды ищет компилятор
Спекулятивное исполнение команд
SS: Процессор автоматически предсказывает переход
EPIC: Компилятор подсказывает процессору
Спекулятивная загрузка данных
SS: Процессор автоматически проверяет корректность
EPIC: Компилятор использует специальную команду проверки
Размещение данных на регистрах
SS: Процессор автоматически отображает программные регистры на аппаратные и управляет стеком регистров
EPIC: Компилятор размещает данные на аппаратных регистрах и управляет стеком регистров с помощью специальных команд

Слайд 9

Сравнение суперскалярных и VLIW/EPIC-процессоров

Слайд 10

Предсказание ветвлений
Выборка
Декодирование в RISC
Переименование регистров
Переупорядочение и распараллеливание
Исполнение
Завершение
CISC
RISC
VLIW
Этапы обработки команды
Сравнение конвейеров

Слайд 11

Архитектура VLIW / EPIC
История
M-10 (1972)
Cydrome (1984-1988)
Cydra-5
256 bit VLIW (7 ops.), reg. rotation.,

sw. pipeline
МВК Эльбрус 3 (1986-1994)
NXP Semiconductors
TriMedia (1987, 1997, …)
VLIW / DSP, 5-8 ops., 256x128 bit regs, 45 FUs
Texas Instruments
C6000
VLIW / DSP

Слайд 12

Архитектура Itanium

Слайд 13

Семейство процессоров Itanium
2001
2002
2003
2006
Itanium
(Merced)
800 MHz
4 MB L3 cache
180 nm
Itanium2
(McKinley)
1 GHz
3 MB L3 cache
180

Itanium2
(Madison)
1.5 GHz
6 MB L3 cache
130 nm

Itanium2
(Montecito)
1.66 GHz
2×12 MB L3 cache
2 cores
HyperThreading
90 nm

Itanium
(Tukwila)
1.73 GHz
24 MB L3 cache
4 cores
HyperThreading
65 nm

2010

Слайд 14

Itanium: планы и реальность

Слайд 15

Архитектура Itanium (IA-64)
Явный ILP (параллелизм на уровне команд)
Компилятор объединяет команды процессора в

связки, которые могут быть выполнены параллельно,
Процессор обеспечивает большое число ресурсов для реализации ILP.
Способы увеличения ILP
Явная спекуляция по данным и управлению
(уменьшает задержки по памяти),
Предикатное исполнение команд (устраняет ветвления),
Аппаратная поддержка программной конвейеризации циклов,
Предсказание ветвлений.
Специальные способы увеличения производительности программ
Специальная поддержка модульности программ
(регистровый стек, вращающиеся регистры),
Высокопроизводительная вещественная арифметика,
Специальные векторные инструкции.

Слайд 16

Особенности процессоров архитектуры Itanium (IA-64)
Простой широкий конвейер
Много команд за такт (до 6)
Большие

вычислительные ресурсы
Много исполнительных устройств (11)
Большой объем (до 12 MB) кэш-памяти
Большое число регистров (264)

Слайд 17

Слайд 18

Регистры IA-64

Слайд 19

Регистры IA-64
128 целочисленных регистра
64 бита + 1 бит NAT
r0 = 0
целочисленные скалярные

и векторные данные (1,2,4,8 байт)
128 вещественных регистра
82 бита (17 + 64 + 1)
f0 = 0.0, f1 = 1.0
вещественные скалярные и векторные данные (82, 2х32 бита)
64 предикатных регистра
1 бит
p0 = 1
указания, выполнять ли команду
8 регистров ветвлений
64 бита
адреса перехода
128 прикладных регистра
Instruction Pointer

Слайд 20

Вращение регистров
Верхние 75% регистров вращающиеся:
целочисленные: r32 – r127
вещественные: f32 – f127
предикатные: p16

– p63
При выполнении специальной команды перехода (в цикле) вращающиеся регистры сдвигаются вправо на один:
Используется при программной конвейеризации циклов.

Слайд 21

Стек регистров
При вызове подпрограмм и возврате происходит сдвиг регистрового окна – целочисленные

регистры работают как стек.
Для автоматического сохранения/восстановления регистров в памяти при «переполнении/переизбытке» стека работает аппаратура RSE (Register Stack Engine). Она приостанавливает выполнение команд, ждущих соответствующие регистры.

Слайд 22

Иерархия кэш-памяти Itanium2

Слайд 23

Виртуальная память в IA-64
64-битное виртуальное адресное пространство
Размер страницы: 4 KB – 4

GB
32 entry L1d TLB (4KB), 128 entry Data TLB (4KB-4GB)
Схема преобразования виртуального адреса в физический:

Слайд 24

Конвейер Itanium2
Короткий 8-стадийный конвейер
Полностью детерминированный путь команд
Упорядоченная выборка команд, неупорядоченное завершение
Рассчитан на

малые задержки при чтении данных!

Слайд 25

Исполнительные устройства
Число операций за такт

Слайд 26

Сравнение Itanium2 и Opteron

Слайд 27

Itanium2 Montecito (2006)
Montecito: 2 ядра по 2 потока (HyperThreading)

Слайд 28

Команды IA-64
Команды IA-64 имеют RISC-подобный фиксированный формат:
Пример команды: (p3) add r1 = r3,

r4
Команды IA-64 объединяются в связки по три:

Слайд 29

Команды IA-64
Связка содержит 3 команды, поле шаблона и стоп-биты.
Шаблон указывает типы команд

в связке. Он определяет, какие исполнительные устройства будут задействованы при исполнении.
Типы команд: Устройство:
M – memory / move M
I – complex integer / multimedia I
A – simple integer / logic / multimedia I или M
F – floating point (normal / SIMD) F
B – branch B
L+X – extended I / B
Стоп-биты определяют, после каких команд должен быть переход на следующий такт.

Слайд 30

Команды IA-64
Всего возможно
24 различных
шаблона:
Процессор загружает максимум по 2 связки за такт.
Только некоторые

сочетания шаблонов в связках могут полностью загрузить исполнительные устройства:

Слайд 31

Команды IA-64
Логические (and, …)
Арифметические (add, …)
Команды сравнения (cmp, …)
Команды сдвига (shl, …)
SIMD

целочисленные (pmpy, …)
Команды ветвлений (br, …)
Команды управления циклом (br.cloop, …)
Вещественные (fma, …)
SIMD вещественные (fpma, …)
Команды чтения / записи данных в памяти (ld, ...)
Команды присваивания (mov, …)
Команды управления кэшированием (lfetch, …)

Слайд 32

Особенности целочисленной арифметики в Itanium2
До 6 операций за такт
Операция fma (y=a*b+c) выполняется

на регистрах FR
Реализованы некоторые операции над некоторыми векторами (1B, 2B, 4B)
Целочисленное деление реализуется программно
Пример деления 32-битных целых чисел:

Слайд 33

Особенности вещественной арифметики в Itanium2
Максимальная производительность
2 за такт: двойная точность
4 за такт:

одинарная точность (SIMD)
Основная операция
fma: f = a * b + c (4 такта)
Быстрое преобразование значений между целыми и вещественными регистрами
FP ? INT (getf): 5 тактов
INT ? FP (setf): 6 тактов
Операции деления (вещественного и целочисленного) и взятия квадратного корня реализованы программно

Слайд 34

Особенности вещественной арифметики в Itanium2
Вещественное деление (32-bit float)
Вычисление корня (32-bit float)

Слайд 35

Предсказание ветвлений в Itanium2
BHT – таблица истории ветвлений
Адрес перехода и информация о

предсказании в кэше L1i
Таблица на 12K 4-битных историй
Pattern History Table
Таблица на 16K 2-битных счетчиков
RSB – Буфер стека возврата
8 элементов
Предсказание косвенных переходов
Использует 8 регистров ветвлений, подсказки компилятора
Механизм предсказания выхода из циклов
Использует специальные счетчики

Слайд 36

Предвыборка инструкций в Itanium2
Автоматическая предвыборка следующей кэш-строки в кэш команд L1, если

она содержится в кэше L2.
Подсказка компилятора в команде перехода:
br.few

br.many

Подсказка компилятора:
brp.few

brp.many

Move address to Branch Register

Слайд 37

Фрагмент кода на ассемблере для IA-64
Синтаксис инструкций:

Слайд 38

Средства повышения производительности в IA-64
Предикатное исполнение команд
Аппаратные счетчики циклов
Спекуляция по данным и

управлению
Регистровый стек, RSE
Аппаратная поддержка программной конвейеризации циклов
Intel Itanium Architecture Overview, p.40

Слайд 39

Предикатное исполнение команд
Позволяет зависимости по управлению (т.е. условные переходы) преобразовать в зависимости

по данным.
Пример: if (a==b) y=4; else y=3;

Слайд 40

Аппаратные счетчики циклов
Архитектурная поддержка циклов
По специальной команде перехода счетчики автоматически уменьшаются и

делается проверка на выход из цикла
Можно не задействовать регистры общего назначения.
Пример:
mov ar.lc = 10 ;;
Label:
… тело цикла …
br.cloop.sptk Label

Слайд 41

Спекуляция по управлению
Команды загрузки могут выполняться до того, как обнаружится, что это

действительно нужно.

Слайд 42

Спекуляция по данным
Команды загрузки могут выполняться до того, как обнаружится, что это

действительно можно.

Слайд 43

Программная конвейеризация цикла
Архитектурная поддержка параллельного исполнения команд цикла.
Выполняется с помощью:
Предикатных регистров
Аппаратных счетчиков

цикла
Вращающихся регистров
Специальных команд перехода

Слайд 44

Слайд 45

Слайд 46

Слайд 47

Слайд 48

Слайд 49

Слайд 50

Слайд 51

Процессоры Itanium 9300 (Tukwila)
Особенности нового Itanium-а
Частота: до 1.73 GHz
Режим Turbo boost: до

1.86 GHz
4 ядра
Hyperthreading – 2 потока на ядро
Интегрированный контроллер памяти
Шина QPI – Quick Path Interconnect
Первый в мире процессор, содержащий более 2 млрд. транзисторов

Слайд 52

Процессоры Transmeta

Слайд 53

Процессоры Transmeta
Особенности архитектуры
Архитектура VLIW
Динамическая трансляция кода: x86 ? VLIW
Интегрированный северный мост
Ориентация на

низкое энергопотребление
Процессоры
Crusoe (2000) 1.0 GHz
Efficion (2003) 1.7 GHz