Содержание
- 2. План презентации Apache Spark обзор Как работает Spark RDD Трансформация и действие Структура задания Spark ©2020
- 3. ©2020 «Неофлекс». Все права защищены 3 Краткая история Spark
- 4. ©2020 «Неофлекс». Все права защищены 3 Что такое Apache Spark Apache Spark – это BigData фреймворк
- 5. ©2020 «Неофлекс». Все права защищены 3 Преимущества и особенности Apache Spark Spark — всё-в-одном для работы
- 6. ©2020 «Неофлекс». Все права защищены 3 Преимущества и особенности Apache Spark
- 7. ©2020 «Неофлекс». Все права защищены 3 MapReduce и Spark
- 8. ©2020 «Неофлекс». Все права защищены 3 MapReduce и Spark Преимущество Spark особенно проявляется если необходимо выполнить
- 9. ©2020 «Неофлекс». Все права защищены 3 MapReduce и Spark
- 10. ©2020 «Неофлекс». Все права защищены 3 MapReduce и Spark Меньше шагов – Spark job это набор
- 11. ©2020 «Неофлекс». Все права защищены 3 MapReduce и Spark Жизненный цикл процессов MapReduce – каждый шаг
- 12. ©2020 «Неофлекс». Все права защищены 3 Развитие MapReduce - Tez Tez – позволяет запустить цепочку MR
- 13. ©2020 «Неофлекс». Все права защищены 3 MapReduce: word count Необходимо написать Mapper и Reducer все остальное
- 14. ©2020 «Неофлекс». Все права защищены 3 MapReduce и Spark: упрощение разработки MapReduce Java val sc =
- 15. Особенности Spark Для каждого набора данных Spark ведет Lineage и может пересчитать данные с любого момента
- 16. Основные концепции Spark ©2020 «Неофлекс». Все права защищены 11
- 17. ©2020 «Неофлекс». Все права защищены 3 RDD На самом деле внутри это набор партиций… Работаем с
- 18. ©2020 «Неофлекс». Все права защищены 3 RDD RDD - Resilient Distributed Dataset: Неизменяемая распределенная коллекция (таблица)
- 19. ©2020 «Неофлекс». Все права защищены 3 Трансформация и действие val textFile = sc.textFile("hdfs://...") val splits =
- 20. ©2020 «Неофлекс». Все права защищены 3 Трансформация и действие Трансформация не приводит к запуску вычислений Действие
- 21. Плюсы и минусы Lazy Evaluation Улучшает читаемость кода, можно разбивать на небольшие куски, потом все соберется
- 22. ©2020 «Неофлекс». Все права защищены 3 Lazy Evaluation кэширование RDD: textFile RDD: splits Подсчет к-ва RDD:
- 23. ©2020 «Неофлекс». Все права защищены 3 Lazy Evaluation кэширование RDD: textFile RDD: splits Подсчет к-ва RDD:
- 24. Как устроено приложение Spark ©2020 «Неофлекс». Все права защищены 11
- 25. ©2020 «Неофлекс». Все права защищены 3 Приложение Spark executors cores Каждая задача получает для выполнения: num_executors
- 26. ©2020 «Неофлекс». Все права защищены 3 Приложение Spark Для каждого действия строится DAG выполнения DAG отправляется
- 27. ©2020 «Неофлекс». Все права защищены 3 Приложение Spark Этап это последовательность трансформаций разделенных Shuffle
- 28. Звучит интересно, хочу попробовать !!! ©2020 «Неофлекс». Все права защищены 11
- 29. ©2020 «Неофлекс». Все права защищены 3 Как можно попробовать Spark 3. Распаковать архив в любую папку
- 30. ©2020 «Неофлекс». Все права защищены 3 Как можно попробовать Spark 5. Запустить: bin/spark-shell - интерпретатор Scala
- 31. ©2020 «Неофлекс». Все права защищены 3 Как можно попробовать Spark 6. Во время работы интерпретатора будет
- 33. Скачать презентацию