Содержание
- 2. Многоступенчатый анализ данных Сбор Анализ Визуализация Очищение / Обработка (5, 1.0, 0.985, 3, u'http://www.dr..') (3, 1.0,
- 3. Технологии интеллектуального анализа данных https://hadoop.apache.org/ http://spark.apache.org/ https://aws.amazon.com/redshift/ http://community.pentaho.com/ ....
- 4. «Интеллектуальный анализ персональных данных» Наша цель — помочь вам стать лучше в программировании, а не сделать
- 5. Геодата (Geodata) Создает Google-карту на основе введенных пользователем данных Использует Google Geodata API Кэширует данные в
- 6. geodata.sqlite geoload.py geodump.py Северо-Восточный Университет, ... Бостон, Массачусетс 02115, США 42.3396998 -71.08975 Университет Брэдли, 1501 ...
- 7. Пэйдж-ранк Пишет простой поисковый робот для веб-страниц Вычисляет простую версию алгоритма ранжирования Google Отображает получившуюся сеть
- 8. Архитектура поисковой системы Поисковый робот Индексирование Поиск http://infolab.stanford.edu/~backrub/google.html
- 9. Поисковый робот («веб-паук») — автоматизированная компьютерная программа, которая систематически просматривает Интернет. Поисковые роботы обычно используются для
- 10. Поисковый робот Извлекает информацию со страницы Просматривает страницу на предмет ссылок на другие страницы Добавляет ссылки
- 11. Политика сканирования политика выбора указывает страницы для загрузки политика повторного посещения указывает, когда проверять наличие изменений
- 12. Протокол robots.txt Способ взаимодействия сайта с поисковыми роботами Неформальный добровольный стандарт Иногда администраторы сайта делают «Ловушку
- 13. Архитектура Google Веб-сканирование Индексация Поиск http://infolab.stanford.edu/~backrub/google.html
- 14. Поисковая машина индексирует, обрабатывает и хранит данные для обеспечения быстрого и точного поиска информации. Целью хранения
- 15. spider.sqlite spider.py spdump.py (5, None, 1.0, 3, u'http://www.dr-chuck.com/csev-blog') (3, None, 1.0, 4, u'http://www.dr-chuck.com/dr-chuck/resume/speaking.htm') (1, None, 1.0,
- 16. Списки почтовой рассылки Gmane Сканирует архив списка рассылки Производит анализ / очистку Представляет данные в виде
- 17. Предупреждение: если набор данных превышает 1Гб, не настраивайте использование gmane.org из своего приложения Нет ограничения частоты
- 18. content.sqlite gmane.py Сколько вывести на экран? 5 Loaded messages= 51330 subjects= 25033 senders= 1584 Top-5 участников
- 20. Скачать презентацию