Получение и визуализация данных

Содержание

Слайд 2

Многоступенчатый анализ данных

Сбор

Анализ

Визуализация

Очищение /
Обработка

(5, 1.0, 0.985, 3, u'http://www.dr..')
(3, 1.0, 2.135, 4, u'http://www.dr..')
(1,

Многоступенчатый анализ данных Сбор Анализ Визуализация Очищение / Обработка (5, 1.0, 0.985,
1.0, 0.659, 2, u'http://www.dr..')
(1, 1.0, 0.659, 5, u'http://www.dr..')
....

Источник данных

Слайд 3

Технологии интеллектуального анализа данных

https://hadoop.apache.org/
http://spark.apache.org/
https://aws.amazon.com/redshift/
http://community.pentaho.com/
....

Технологии интеллектуального анализа данных https://hadoop.apache.org/ http://spark.apache.org/ https://aws.amazon.com/redshift/ http://community.pentaho.com/ ....

Слайд 4

«Интеллектуальный анализ персональных данных»

Наша цель — помочь вам стать лучше в программировании,

«Интеллектуальный анализ персональных данных» Наша цель — помочь вам стать лучше в
а не сделать из вас экспертов по интеллектуальному анализу данных

Слайд 5

Геодата (Geodata)

Создает Google-карту на основе введенных пользователем данных
Использует Google Geodata API
Кэширует данные

Геодата (Geodata) Создает Google-карту на основе введенных пользователем данных Использует Google Geodata
в базе данных, чтобы избежать ограничения скорости обработки запросов и позволяет перезагрузку базы данных
Отображается в браузере, используя Google Maps API

http://www.py4e.com/code3/geodata.zip

Слайд 6

geodata.sqlite

geoload.py

geodump.py

Северо-Восточный Университет, ... Бостон, Массачусетс 02115, США 42.3396998 -71.08975
Университет Брэдли, 1501

geodata.sqlite geoload.py geodump.py Северо-Восточный Университет, ... Бостон, Массачусетс 02115, США 42.3396998 -71.08975
... Пеория, Иллинойс 61625, США 40.6963857 -89.6160811
...
Technion, Viazman 87, Kesalsaba, 32000, Израиль 32.7775 35.0216667
Университет Монаша Клейтон... Виктория 3800, Австралия -37.9152113 145.134682
Кокшетау, Казахстан 53.2833333 69.3833333
...
12 записей в файле where.js
Откройте файл where.html, чтобы посмотреть данные в окне браузера

where.data

where.js

where.html

http://www.py4e.com/code3/geodata.zip

Слайд 7

Пэйдж-ранк

Пишет простой поисковый робот для веб-страниц
Вычисляет простую версию алгоритма ранжирования Google
Отображает получившуюся

Пэйдж-ранк Пишет простой поисковый робот для веб-страниц Вычисляет простую версию алгоритма ранжирования
сеть

http://www.py4e.com/code3/pagerank.zip

Слайд 8

Архитектура поисковой системы

Поисковый робот
Индексирование
Поиск

http://infolab.stanford.edu/~backrub/google.html

Архитектура поисковой системы Поисковый робот Индексирование Поиск http://infolab.stanford.edu/~backrub/google.html

Слайд 9

Поисковый робот («веб-паук») — автоматизированная компьютерная программа, которая систематически просматривает Интернет. Поисковые

Поисковый робот («веб-паук») — автоматизированная компьютерная программа, которая систематически просматривает Интернет. Поисковые
роботы обычно используются для создания копий всех посещенных страниц, которые затем будут обработаны поисковой системой. Она проиндексирует загруженные страницы, чтобы обеспечить быстрый поиск результатов.

Поисковый робот

https://ru.wikipedia.org/wiki/Поисковый_робот

Слайд 10

Поисковый робот

Извлекает информацию со страницы
Просматривает страницу на предмет ссылок на другие страницы
Добавляет

Поисковый робот Извлекает информацию со страницы Просматривает страницу на предмет ссылок на
ссылки в список, чтобы затем извлечь информацию с этих страниц
Повторяет процесс...

https://ru.wikipedia.org/wiki/Поисковый_робот

Слайд 11

Политика сканирования

политика выбора указывает страницы для загрузки
политика повторного посещения указывает, когда проверять

Политика сканирования политика выбора указывает страницы для загрузки политика повторного посещения указывает,
наличие изменений на страницах
политика вежливости указывает, как избежать перегрузки веб-сайта
политика параллелизации определяет, как координировать распределенные поисковые роботы

Слайд 12

Протокол robots.txt

Способ взаимодействия сайта с поисковыми роботами
Неформальный добровольный стандарт
Иногда администраторы сайта делают

Протокол robots.txt Способ взаимодействия сайта с поисковыми роботами Неформальный добровольный стандарт Иногда
«Ловушку для пауков», чтобы отловить «плохих» пауков

https://ru.wikipedia.org/wiki/Стандарт_исключений_для_роботов
http://en.wikipedia.org/wiki/Spider_trap

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

*Запретить

Слайд 13

Архитектура Google

Веб-сканирование
Индексация
Поиск

http://infolab.stanford.edu/~backrub/google.html

Архитектура Google Веб-сканирование Индексация Поиск http://infolab.stanford.edu/~backrub/google.html

Слайд 14

Поисковая машина индексирует, обрабатывает и хранит данные для обеспечения быстрого и точного

Поисковая машина индексирует, обрабатывает и хранит данные для обеспечения быстрого и точного
поиска информации.
Целью хранения индекса является повышение скорости и производительности поиска релевантных документов по поисковому запросу. Без индекса поисковая машина была бы вынуждена сканировать каждый документ в корпусе, что потребовало бы большого количество времени и вычислительной мощности.

Поисковый индекс

https://ru.wikipedia.org/wiki/Поисковый_индекс

Слайд 15

spider.sqlite

spider.py

spdump.py

(5, None, 1.0, 3, u'http://www.dr-chuck.com/csev-blog')
(3, None, 1.0, 4, u'http://www.dr-chuck.com/dr-chuck/resume/speaking.htm')
(1, None, 1.0,

spider.sqlite spider.py spdump.py (5, None, 1.0, 3, u'http://www.dr-chuck.com/csev-blog') (3, None, 1.0, 4,
2, u'http://www.dr-chuck.com/csev-blog/')
(1, None, 1.0, 5, u'http://www.dr-chuck.com/dr-chuck/resume/index.htm')
4 строки.

force.js

force.html
d3.js

http://www.py4e.com/code3/pagerank.zip

spreset.py

sprank.py

spjson.py

Слайд 16

Списки почтовой рассылки Gmane

Сканирует архив списка рассылки
Производит анализ / очистку
Представляет данные в виде

Списки почтовой рассылки Gmane Сканирует архив списка рассылки Производит анализ / очистку
облака из слов, расположенных по линиям

http://www.py4e.com/code3/gmane.zip

Слайд 17

Предупреждение: если набор данных превышает 1Гб,

не настраивайте использование gmane.org из своего

Предупреждение: если набор данных превышает 1Гб, не настраивайте использование gmane.org из своего
приложения
Нет ограничения частоты запросов – это круто!

Для тестирования используйте:
http://mbox.dr-chuck.net/sakai.devel/4/5

Слайд 18

content.sqlite

gmane.py

Сколько вывести на экран? 5
Loaded messages= 51330 subjects= 25033 senders= 1584
Top-5 участников

content.sqlite gmane.py Сколько вывести на экран? 5 Loaded messages= 51330 subjects= 25033
e-mail рассылки
[email protected] 2657
[email protected] 1742
[email protected] 1591
[email protected] 1304
[email protected] 1184
...

mbox.dr-chuck.net

gword.js

gword.htm
d3.js

http://www.py4e.com/code3/gmane.zip

gword.py

gmodel.py

gbasic.py

gline.js

gline.htm
d3.js

gline.py

content.sqlite

mapping.sqlite

Имя файла: Получение-и-визуализация-данных.pptx
Количество просмотров: 47
Количество скачиваний: 1