Содержание
- 2. Цели Осветить наиболее значимые технологии стека Apache Hadoop для распределённой обработки данных: MapReduce HDFS Hbase ZooKeeper
- 3. Архитектурные принципы Линейная масштабируемость Надёжность и доступность Ненадёжное (commodity) оборудование Перемещение данных дороже перемещения программ Высокая
- 4. MapReduce Фреймворк для распределённых вычислений MapReduce job – 2 этапа Map: { } -> { }
- 5. MapReduce
- 6. MapReduce
- 7. HDFS Иерархия каталогов и файлов Файлы поделены на блоки (128 MB) Метаданные отделены от данных NameNode
- 8. HBase Распределённое ключ-значение хранилище на базе HDFS Таблицы: Строки с уникальными ключами Произвольное количество колонок Колонки
- 9. ZooKeeper Распределённая служба координации распределённых задач Выборы лидера Распределённые блокировки Координация и уведомления о событиях
- 10. Pig Платформа для анализа больших наборов данных Pig Latin – SQL-подобный язык Простота кодирования Возможности оптимизации
- 11. Hive Служит тем же целям, что и Pig Таблицы Типизированные колонки (int, float, string, date, boolean)
- 12. Avro Система сериализации данных Предоставляет: Компактный бинарный формат Удалённые вызовы процедур (RPC) Простая интеграция с динамическими
- 13. HDFS. Поставленные цели Очень большой объём распределённых данных 10К узлов, 100М файлов, 10ПБ данных Ненадёжное (commodity)
- 14. HDFS. Архитектура
- 15. HDFS. Архитектура Общее пространство имён для всего кластера Согласованность данных Write-once-read-many модель доступа Append-запись всё ещё
- 16. HDFS. Архитектура
- 17. HDFS. NameNode Управляет пространством имён Связывает имя файла с набором блоков Связывает блок с набором DN
- 18. HDFS. NameNode. Метаданные Метаданные для всего кластера хранятся в ОП Типы метаданных Списки файлов Списки блоков
- 19. HDFS. DataNode Сервер блоков Хранит данные в локальной ФС Хранит метаданные блоков (CRC) Предоставляет данные и
- 20. HDFS. CheckpointNode Периодически создаёт новый checkpoint образ из checkpoint и journal, загруженных с NN Загружает новый
- 21. HDFS. Запись Клиент запрашивает у NN список DN-кандидатов на запись Начинает конвейерную запись с ближайшего узла
- 22. HDFS. Чтение Клиент запрашивает местоположение реплик блока у NN Начинает чтение с ближайшего узла, содержащего реплику
- 23. HDFS. Расположение реплик Первая реплика помещается на локальном узле Вторая реплика – на узел удалённой стойки
- 24. HDFS. Balancer Процент используемого дискового пространства на всех DN должен быть одинаков Обычно запускается при добавлении
- 25. HDFS. Block Scanner Каждая DN периодически запускает BS BS проверяет, что контрольные суммы соответствуют блокам данных
- 26. HDFS. Интерфейс пользователя Команды пользователя HDFS hadoop fs –mkdir /foodir hadoop fs –cat /foodir/barfile.txt hadoop fs
- 27. HDFS. Веб-интерфейс
- 28. HDFS. Использование в Yahoo! 3500 узлов 2 процессора [email protected] (по 4 ядра) Red Hat Enterprise Linux
- 29. HDFS. Benchmarks Gray Sort benchmark. Сортировка 1 ТБ и 1 ПБ данных. Записи по 100 байт.
- 31. Скачать презентацию