Содержание
- 2. Цели Осветить наиболее значимые технологии стека Apache Hadoop для распределённой обработки данных: MapReduce HDFS Hbase ZooKeeper
- 3. Архитектурные принципы Линейная масштабируемость Надёжность и доступность Ненадёжное (commodity) оборудование Перемещение данных дороже перемещения программ Высокая
- 4. MapReduce Фреймворк для распределённых вычислений MapReduce job – 2 этапа Map: { } -> { }
- 5. MapReduce
- 6. MapReduce
- 7. HDFS Иерархия каталогов и файлов Файлы поделены на блоки (128 MB) Метаданные отделены от данных NameNode
- 8. HBase Распределённое ключ-значение хранилище на базе HDFS Таблицы: Строки с уникальными ключами Произвольное количество колонок Колонки
- 9. ZooKeeper Распределённая служба координации распределённых задач Выборы лидера Распределённые блокировки Координация и уведомления о событиях
- 10. Pig Платформа для анализа больших наборов данных Pig Latin – SQL-подобный язык Простота кодирования Возможности оптимизации
- 11. Hive Служит тем же целям, что и Pig Таблицы Типизированные колонки (int, float, string, date, boolean)
- 12. Avro Система сериализации данных Предоставляет: Компактный бинарный формат Удалённые вызовы процедур (RPC) Простая интеграция с динамическими
- 13. HDFS. Поставленные цели Очень большой объём распределённых данных 10К узлов, 100М файлов, 10ПБ данных Ненадёжное (commodity)
- 14. HDFS. Архитектура
- 15. HDFS. Архитектура Общее пространство имён для всего кластера Согласованность данных Write-once-read-many модель доступа Append-запись всё ещё
- 16. HDFS. Архитектура
- 17. HDFS. NameNode Управляет пространством имён Связывает имя файла с набором блоков Связывает блок с набором DN
- 18. HDFS. NameNode. Метаданные Метаданные для всего кластера хранятся в ОП Типы метаданных Списки файлов Списки блоков
- 19. HDFS. DataNode Сервер блоков Хранит данные в локальной ФС Хранит метаданные блоков (CRC) Предоставляет данные и
- 20. HDFS. CheckpointNode Периодически создаёт новый checkpoint образ из checkpoint и journal, загруженных с NN Загружает новый
- 21. HDFS. Запись Клиент запрашивает у NN список DN-кандидатов на запись Начинает конвейерную запись с ближайшего узла
- 22. HDFS. Чтение Клиент запрашивает местоположение реплик блока у NN Начинает чтение с ближайшего узла, содержащего реплику
- 23. HDFS. Расположение реплик Первая реплика помещается на локальном узле Вторая реплика – на узел удалённой стойки
- 24. HDFS. Balancer Процент используемого дискового пространства на всех DN должен быть одинаков Обычно запускается при добавлении
- 25. HDFS. Block Scanner Каждая DN периодически запускает BS BS проверяет, что контрольные суммы соответствуют блокам данных
- 26. HDFS. Интерфейс пользователя Команды пользователя HDFS hadoop fs –mkdir /foodir hadoop fs –cat /foodir/barfile.txt hadoop fs
- 27. HDFS. Веб-интерфейс
- 28. HDFS. Использование в Yahoo! 3500 узлов 2 процессора [email protected] (по 4 ядра) Red Hat Enterprise Linux
- 29. HDFS. Benchmarks Gray Sort benchmark. Сортировка 1 ТБ и 1 ПБ данных. Записи по 100 байт.
- 31. Скачать презентацию




























Глагол have to
Усі знаки зодіаку
Новое свойство квадратных уравнений
Бандитизм как социальная опасность
Декоративно-прикладное искусство в современном мире
Занятие 14
Недвижимость Санкт-Петербурга и Ленинградской области
Хлеб
Музыкальные обработки
Что такое гостиничный бизнес?
Анонимные Наркоманы
Презентация на тему Литература 18 века Классицизм в России
ФГОС ООО: особенности содержания, назначение
Debaty_v_textovom_formate
КОМПЬЮТЕР И ВИДЕОКАМЕРА КАК ИНСТРУМЕНТЫ ОБУЧЕНИЯ ФИЗИКЕ
Подготовленная аварийная посадка на воду
Ранняя профилактика социального неблагополучия и жестокого обращения с детьми в семьях
Средства защиты информации
The strategic interests of the United States in the Balkans in the late 20th and early 21st centuries
Презентация на тему День победы
Праздник Троицы
Кодирование информации
Металлургический комплекс
Финансы бюджетных учреждений
Презентация1
Будь благословен
Презентация на тему Система и структура трудового права
Графический дизайн. Азбука журналистики