Слайд 2Рассматриваемые процессоры
Intel Itanium 2
Intel Core 2 Duo
IBM Cell
![Рассматриваемые процессоры Intel Itanium 2 Intel Core 2 Duo IBM Cell](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-1.jpg)
Слайд 3Неявный и явный параллелизмы
![Неявный и явный параллелизмы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-2.jpg)
Слайд 4Блок-схема процессора Itanium 2
![Блок-схема процессора Itanium 2](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-3.jpg)
Слайд 6Конвейер Itanium 2
Основной конвейер 8 стадий
![Конвейер Itanium 2 Основной конвейер 8 стадий](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-5.jpg)
Слайд 7Регистровый файл
128 целочисленных регистров
128 регистров с плавающей запятой
64 предикатных регистра
128 регистров приложений
Register
![Регистровый файл 128 целочисленных регистров 128 регистров с плавающей запятой 64 предикатных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-6.jpg)
Stack Engine
Слайд 8Связка
3 инструкции + шаблон
Объединяются в группы без RAW зависимостей
![Связка 3 инструкции + шаблон Объединяются в группы без RAW зависимостей](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-7.jpg)
Слайд 11Программно-конвейеризуемые циклы
Аппаратная поддрежка SWP-циклов
Стадии пролога и эпилога
Вращение регистров
Предикаты
![Программно-конвейеризуемые циклы Аппаратная поддрежка SWP-циклов Стадии пролога и эпилога Вращение регистров Предикаты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-10.jpg)
Слайд 13Технические характеристики Itanium 2
L1 DCache 16K 4-way
L1 ICache 16K 4-way
L2 Cache 256K
![Технические характеристики Itanium 2 L1 DCache 16K 4-way L1 ICache 16K 4-way](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-12.jpg)
8-way
L3 Cache 6M 12-way
Устройства
6 Integer
4 Load/Store
2 FP
6 Multimedia
4 Branch
Слайд 15Core 2 Duo
Двухъядерная 64-битная архитектура
За основу ядра взято ядро Pentium Pro
Широкое динамическое
![Core 2 Duo Двухъядерная 64-битная архитектура За основу ядра взято ядро Pentium](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-14.jpg)
исполнение
Разделяемый КЭШ 2го уровня
Поддержка мультимедиа
Micro-ops fusion и Macrofusion
Энергосберегательная система
Слайд 18Разделяемый КЭШ 2го уровня
Нет необходимости поддерживать когерентность
Динамически распределяется между ядрами
![Разделяемый КЭШ 2го уровня Нет необходимости поддерживать когерентность Динамически распределяется между ядрами](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-17.jpg)
Слайд 19Smart Memory Access
6 Блоков предвыборки
2 для КЭШа 2го уровня
По 2 для КЭШей
![Smart Memory Access 6 Блоков предвыборки 2 для КЭШа 2го уровня По](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-18.jpg)
1го уровня
Memory Disambiguation
Спекуляция по данным (RAW зависимость)
Слайд 22Технические характеристики Core 2 Duo
L1 DCache 32K 8-way
L1 ICache 32K 8-way
L2 Cache
![Технические характеристики Core 2 Duo L1 DCache 32K 8-way L1 ICache 32K](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-21.jpg)
4M / 2 Cores
ITLB 128 ent
DTLB 256 ent
Устройства
5 Integer 3 ALU + 2 AGU
2 Load/Store (1 Load + 1 Store)
4 FP (FADD + FMUL + FLOAD + FSTORE)
3 SSE (128 bit)
Слайд 24Cell
Главный процессорный элемент
Упорядоченное исполнение
Поддержка работы с двумя потоками
8 синергетических процессорных элементов
Ядро на
![Cell Главный процессорный элемент Упорядоченное исполнение Поддержка работы с двумя потоками 8](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-23.jpg)
основе 286 архитектуры
Поддержка векторных вычислений 128 бит
Отсутствие КЭШей
Локальная память 256 Кбайт с прямым доступом
Шина ввода вывода
Пропускная способность 76,8 Гбайт/с
Слайд 25Шина взаимосвязанных элементов
Передает 96 байт/цикл
Более 100 уникальных запросов
![Шина взаимосвязанных элементов Передает 96 байт/цикл Более 100 уникальных запросов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-24.jpg)
Слайд 26Power Processor Element
Два 64-битных ядра на основе архитектуры POWER
Упорядоченное исполнение комманд
Поддержка SMT
![Power Processor Element Два 64-битных ядра на основе архитектуры POWER Упорядоченное исполнение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-25.jpg)
(многопоточность)
КЭШ
1го уровня: 32+32 Кбайт
2го уровня: 512 Кбайт
Слайд 27Synergistic Processor Element
4 целочисленных векторных устройства
4 векторных устройства с плавающей запятой
128
![Synergistic Processor Element 4 целочисленных векторных устройства 4 векторных устройства с плавающей](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-26.jpg)
регистров по 128 бит
256 Кбайт локальной памяти
Динамическая защита доступа к памяти
Слайд 28Производительность Cell
(для 4GHz)
256 GFLOPS с плавающей запятой
256 GOPS целочисленная арифметика
25 GFLOPS с
![Производительность Cell (для 4GHz) 256 GFLOPS с плавающей запятой 256 GOPS целочисленная](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/395291/slide-27.jpg)
плавающей запятой двойной точности