Слайд 2 О чем я хочу рассказать?
Развитии системы статистики
Проблемах и их решении

Слайд 3 Зачем нужна система расчета статистики

Слайд 4 Почему нужна система расчета статистики
Много проектов
Много данных
Потребовалось считать статистику регулярно и единообразно

Слайд 6
Сначала данных и проектов было мало
< 10Gb в сутки

Слайд 7Исходная архитектура
в СУБД складываем только необходимые фрагменты строк из лога
СУБД резервируем
считаем возможности

экстенсивного роста неограниченными
Проблема: конструкция не масштабируется.
Слайд 9
Данных и проектов еще было мало
< 100Gb в сутки

Слайд 10Первая попытка масштабирования
кластеризация считающих машин("парсеров")
кластеризация СУБД
SAN с использование iscsi
Проблема: все

пропало, сеть не может обеспечить нужную производительность :(
Слайд 12 Когда данных стало 200-300Гб в сутки

Слайд 13Вторая попытка масштабирования
Пределы экстенсивного роста
Научились эффективно балансировать нагрузку на сеть (а именно

TCP сессии iscsi)
Учли особенности работы с кластеризованной СУБД
Проблема: монолитность системы
Слайд 14 Вторая попытка масштабирования
Пределы экстенсивного роста

Слайд 18 Сейчас ежесуточно статистика обрабатывает 2-3Тб данных

Слайд 20
"оптимальность инструмента" расчетов
разделение монолитной системы на обособленные функциональному

признаку подсистемы
11
Пересмотр архитектуры
Слайд 21 А будет еще больше…
Рост в 3-4 раза каждый год!

Слайд 22Пересмотр архитектуры: почему?
Недостатки старой архитектуры:
- сложности масштабирования
- монолитность системы
Достоинства старой

архитектуры:
- единая точка входа
- SQL-интерфейс
- ну и то что она как-то работает :)
Слайд 23Пересмотр архитектуры: почему?
Недостатки новой архитектуры:
Необходимость локализации расчетов
Достоинства новой архитектуры

Масштабируемость
Надежность
Большая емкость вычислительных и сетевых ресурсов
Слайд 24Итог:
Нерешаемые проблемы решаются просто
Децентрализация системы сильно упрощает ее обслуживание.

Децентрализация системы повышает ее надежность.
(возможно этот слайд нафиг не нужен)
Слайд 25 Итог:
Децентрализация системы
Специализация
компонентов
Автономность
компонентов
«Простота»
компонентов
Отказоустойчивость
Производительность
Простота в обслуживании
и высокая эффективность
