Инструменты аналитика

Содержание

Слайд 2

Сбор данных

Scraping-Bot
Scrapeworks
Diggernaut
ScrapingBee
Scraper API 

Сбор данных Scraping-Bot Scrapeworks Diggernaut ScrapingBee Scraper API

Слайд 3

Обзор инструментов

Excel
SAS, SPSS
MATLAB, Octave
Онлайн платформы
Hadoop, Spark
Python, R
Ноутбуки
Библиотеки

Обзор инструментов Excel SAS, SPSS MATLAB, Octave Онлайн платформы Hadoop, Spark Python, R Ноутбуки Библиотеки

Слайд 7

Облака

Amazon AWS
Microsoft Azure
IBM Watson Analytics

Облака Amazon AWS Microsoft Azure IBM Watson Analytics

Слайд 9

Зачем нужен Hadoop

В 10 раз дешевле СХД
Вычисления и данные — в одном

Зачем нужен Hadoop В 10 раз дешевле СХД Вычисления и данные —
месте
Вместе с удешевлением HDD устроил революцию

10

Слайд 10

11

Вычисления на кластере

Единый шедуллер, разделяющий ресурсы между всеми
Типичные потребители:
Базы данных (HBASE)
SQL-like инструменты

11 Вычисления на кластере Единый шедуллер, разделяющий ресурсы между всеми Типичные потребители:
(HIVE)
Map Reduce операции
Spark (in-memory)
Крайне важно грамотно организовать параллельность

Слайд 11

Python

Все становятся программистами
Преимущества Python
Простота и удобство, легкость в освоении
Расширяемость, огромное количество библиотек

Python Все становятся программистами Преимущества Python Простота и удобство, легкость в освоении
и примеров
Data Science стек, парсинг сайтов, веб-сервисы…
Недостатки Python
Медленнее компилируемых языков e.g. C++, Java
Не подходит для мобильной разработки
Не всегда лучшее решение для enterprise

Слайд 15

О языке

1991 год рождения, Нидерланды
Основан на ABC, который основан на SETL, 1969

С++

О языке 1991 год рождения, Нидерланды Основан на ABC, который основан на
– 1983, C – 1973
R – 1993, S – 1976
JavaScript – 1995
SQL – 1979

Красивое лучше, чем уродливое. Явное лучше, чем неявное.
Простое лучше, чем сложное. Сложное лучше, чем запутанное. Плоское лучше, чем вложенное. Разреженное лучше, чем плотное. Читаемость имеет значение.
Особые случаи не настолько особые, чтобы нарушать правила.
При этом практичность важнее безупречности. Ошибки никогда не должны замалчиваться.
Если они не замалчиваются явно.
Встретив двусмысленность, отбрось искушение угадать. Должен существовать один и, желательно, только один очевидный способ сделать это.
Хотя он поначалу может быть и не очевиден, если вы не голландец.
Сейчас лучше, чем никогда.
Хотя никогда зачастую лучше, чем прямо сейчас. Если реализацию сложно объяснить — идея плоха.
Если реализацию легко объяснить — идея, возможно,
хороша.
Пространства имён — отличная штука! Будем делать их больше!

Слайд 16

Основные свойства

Python – интерпретируемый язык
CPython – основная реализация интерпретатора, написан на C
Динамическая

Основные свойства Python – интерпретируемый язык CPython – основная реализация интерпретатора, написан
типизация
«white space» играет роль
Установка модулей через пакетный менеджер (pip, conda)
130 000 различных модулей (март 2021)

Слайд 17

Hello, world!

C++
#include
using namespace std; int main()
{
// print output to user
cout <<

Hello, world! C++ #include using namespace std; int main() { // print
"Hello, world!" << endl; return 0;
}

Python
print("Hello world!")

Слайд 18

Python

17

Numpy
Scipy
Pandas
Matplotlib
Scikit-learn
Ну и тысячи других

Python 17 Numpy Scipy Pandas Matplotlib Scikit-learn Ну и тысячи других

Слайд 19

Модели, фреймворки

18

Градиентный бустинг
XGBoost
Catboost
LightGBM
Нейросети
Keras
Caffe
TensorFlow
Theano
PyTorch

Обёртки для языков
Применение из консоли
Параллельное обучение
Параллельное применение
На одной машине и на

Модели, фреймворки 18 Градиентный бустинг XGBoost Catboost LightGBM Нейросети Keras Caffe TensorFlow
кластере
Исполнение на CPU, GPU
Поддержка Windows/Mac/Linux
Поддержка ARM

Слайд 21

IPython и Jupyter

IPython — интерактивная консоль python’а
Jupyter — популярный аналитчиеский ноутбук

20

IPython и Jupyter IPython — интерактивная консоль python’а Jupyter — популярный аналитчиеский ноутбук 20

Слайд 22

Облака

Google Cloud Platform

Облака Google Cloud Platform

Слайд 23

Облака

Google Colab

Облака Google Colab

Слайд 24

Tableau, Power BI, Google Data Studio: простая онлайн-визуализация без кода

Tableau, Power BI, Google Data Studio: простая онлайн-визуализация без кода

Слайд 25

Программа на Python

21

Программа на Python 21

Слайд 26

Программа на Python

22

Программа на Python 22

Слайд 27

Базовые алгоритмические конструкции

23

a = 1
b = 2
с = a + b d

Базовые алгоритмические конструкции 23 a = 1 b = 2 с =
= a – b print(c) print(d)

Слайд 28

Оператор условия

24

if a > b: c = a else:
c = b

Оператор условия 24 if a > b: c = a else: c = b

Слайд 29

Оператор условия

25

if a > 0: c = a
elif a == 0: c

Оператор условия 25 if a > 0: c = a elif a
= b
else: с = d

Слайд 30

Циклы

26

# while m = 0
while m < 10:
m = m + 1

Циклы 26 # while m = 0 while m m = m
print(m)
# for
for n in range(1, 10): print(n)

Слайд 31

Функции

27

# пример определения и вызова функции def time(hour, minute=0):
return("Время: %i часов %i

Функции 27 # пример определения и вызова функции def time(hour, minute=0): return("Время:
минут" % (hour, minute))
time(8) time(9, 20)
time(minute=5, hour=10)

Слайд 32

Исключения

28

Исключения 28

Слайд 33

Исключения

29

Исключения 29

Слайд 34

Исключения

30

Исключения 30

Слайд 35

Типы данных

31

целое число int и long
число с плавающей точкой float
логический bool (True

Типы данных 31 целое число int и long число с плавающей точкой
или False)
строка string