Содержание
- 2. Построение единого информационного пространства в административно-технических системах Центр ситуационного моделирования (на OLAP-технологиях) Контур сосредоточенных процедур формирования
- 3. Информационная поддержка в системах автоматизированных исследований Подсистема анализа. Данная подсистема может быть построена на основе: подсистемы
- 4. Реляционные базы данных _1
- 5. Реляционные базы данных_2 Реляционный подход известен благодаря работам Е. Кодда, опубликованных в 1970 году, в которых
- 6. Основные понятия ER-диаграмм Определение 1. Сущность - это класс однотипных объектов, информация о которых должна быть
- 7. Нормализация данных Первая нормальная форма. Сущность находится в 1НФ, если все ее атрибуты являются простыми (имеют
- 8. Нормализация данных
- 9. Определение OLAP-системы_1 OLAP (On-Line Analytical Processing) — технология оперативной аналитической обработки данных, использующая методы и средства
- 10. Определение OLAP-системы_2 В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для пользователей-аналитиков: каким он
- 11. Определение OLAP-системы_3 В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для пользователей-аналитиков: каким он
- 12. Определение OLAP-системы_4 В 1995 г. Э. Кодд 12 требованиям, которым должны удовлетворять продукты, позволяющие выполнять оперативную
- 13. Определение OLAP-системы_5 Кодд все 18 требований сгруппировал в четыре группы В, S, R и D, назвав
- 14. Определение OLAP-системы_6 На основе анализа правил Кодда, Найджелом Пендсом (Nigel Pendse) и Ричардом Критом (Richard Creeth)
- 15. Сопоставление систем: OLTP и OLAP_1
- 16. Сопоставление систем: OLTP и OLAP_2
- 17. Концепция хранилища данных_1 Систематизированное изложение концепции хранилища данных было сделано в 1992 г. Уильман Г. Инмоном
- 18. Концепция хранилища данных_2 Виртуальные ХД. Основными достоинствами виртуального ХД являются: - минимизация объема памяти, занимаемой на
- 19. Концепция хранилища данных_3 Основные проблемы создания ХД: - необходимость интеграции данных из неоднородных источников в распределенной
- 20. Концепция хранилища данных_4 Структура системы автоматизированных исследований с самостоятельными ВД Система АИ
- 21. Концепция хранилища данных_5 Структура системы АИ с самостоятельными ХД и ВД Система АИ
- 22. Организация хранилищ данных Все данные в ХД делятся на три основные категории: - детальные данные; -
- 23. Репозиторий метаданных Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация
- 24. ETL-процесс (E – extraction, T – transformation, L – loading) Преобразование данных: - обобщение данных (aggregation);
- 25. Очистка данных Основные проблемы очистки данных классифицируют по следующим уровням: - уровень ячейки таблицы; - уровень
- 26. Многомерная модель данных_1 Э. Ф. Кодд— основоположник реляционной модели БД— рассмотрел ее недостатки, указав в первую
- 27. Многомерная модель данных_2 Над гиперкубом могут выполняться следующие операции: - Срез (Slice) — формируется подмножество многомерного
- 28. Многомерная модель данных_3 Над гиперкубом могут выполняться следующие операции: - Консолидация (Drill Up) и детализация (Drill
- 29. Архитектура OLAP-систем OLAP-система включает в себя два основных компонента: - OLAP-сервер — обеспечивает хранение данных, выполнение
- 30. Архитектура OLAP-систем: MOLAP MOLAP-серверы используют для хранения и управления данными многомерные БД. При этом данные хранятся
- 31. Архитектура OLAP-систем: ROLAP ROLAP-серверы используют реляционные БД. В настоящее время распространены две основные схемы реализации многомерного
- 32. Архитектура OLAP-систем: HOLAP ROLAP-серверы используют гибридную архитектуру, которая объединяет технологии ROLAP и MOLAP. В отличие от
- 33. OLAP-система SAS-института_0 Рассмотрите подробнее предлагаемые нами продукты:
- 34. OLAP-система SAS-института_1 SAS включает свыше 20 различных программных продуктов, объединенных друг с другом «средствами доставки информации»
- 35. OLAP-система SAS-института_2 SAS включает свыше 20 различных программных продуктов, объединенных друг с другом «средствами доставки информации»
- 36. OLAP-система SAS-института_3
- 37. OLAP-система SAS-института_4 В Enterprise Miner : Функции исследования (Explore) размещаются в узлах Distribution Explorer, SAS Insight,
- 38. OLAP-система SAS-института_5 В Enterprise Miner : Функции модификации (Modify) позволяют: 1. Управлять атрибутами наборов данных (Data
- 39. OLAP-система SAS-института_6 В Enterprise Miner : - кластеризация рассматривается как функция «модификации» данных, а не «моделирования».
- 40. OLAP-система SAS-института_7
- 41. OLAP-система SAS-института_8 В Enterprise Miner : Узел оценки (Assess) делится на два подузла — Assess и
- 42. OLAP-система компании ORACLE_1
- 43. OLAP-система компании ORACLE_2 В качестве механизма хранения в реляционных Хранилищах и Витринах Данных используется сервер Oracle9i
- 44. OLAP-система компании ORECLE_3 Oracle Warehouse Builder - многофункциональная расширяемая среда для разработки и развертывания корпоративных Хранилищ
- 45. OLAP-система компании ORECLE_4
- 46. OLAP-система компании ORECLE_5
- 47. OLAP-система компании ORECLE_6
- 48. OLAP-система компании ORECLE_7 Oracle Express Analyzer - средство конечного пользователя, предназначенное для самостоятельного построения отчетов, анализа
- 49. OLAP-система компании ORECLE_8 Технология Express позволяет пользователям проводить интерактивный анализ не только в среде клиент-сервер, но
- 50. OLAP-система компании «Прогноз»_1
- 51. OLAP-система компании «Прогноз»_2
- 52. OLAP-система компании «Прогноз»_3
- 53. OLAP-система компании «Прогноз»_4
- 55. Скачать презентацию
Слайд 2Построение единого информационного пространства в административно-технических системах
Центр ситуационного
моделирования
(на OLAP-технологиях)
Контур сосредоточенных
процедур
Построение единого информационного пространства в административно-технических системах
Центр ситуационного
моделирования
(на OLAP-технологиях)
Контур сосредоточенных
процедур
решений
Высший орган управления (первый уровень)
Слайд 3Информационная поддержка в системах автоматизированных исследований
Подсистема анализа. Данная подсистема может быть построена
Информационная поддержка в системах автоматизированных исследований
Подсистема анализа. Данная подсистема может быть построена
подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов
с использованием языка SQL (Structure Query Language);
- подсистемы оперативного анализа. Для реализации таких подсистем применяется технология
оперативной аналитической обработки данных OLAP (On-line analytical processing), использующая
концепцию многомерного представления данных;
подсистемы интеллектуального анализа. Данная подсистема реализует методы и алгоритмы
Data Mining ("добыча данных").
Подсистема ввода данных. В таких подсистемах, называемых OLTP (Online transaction processing),
реализуется операционная (транзакционная) обработка данных. Для их реализации используют обычные системы управления базами данных (СУБД).
Слайд 4Реляционные базы данных _1
Реляционные базы данных _1
Слайд 5Реляционные базы данных_2
Реляционный подход известен благодаря работам Е. Кодда, опубликованных в 1970
Реляционные базы данных_2
Реляционный подход известен благодаря работам Е. Кодда, опубликованных в 1970
сформулировал следующие 12 правил для реляционной БД:
Должна обеспечиваться независимость от физической организации данных — приложения,
оперирующие с данными реляционных БД, не должны зависеть от физического хранения данных (от
способа хранения, формата хранения и др.).
Должна обеспечиваться независимость от логической организации данных— приложения,
оперирующие с данными реляционных БД, не должны зависеть от организации связей между таблицами
(логической организации). При изменении связей между таблицами не должны меняться ни сами таблицы,
ни запросы к ним.
За целостность данных отвечает СУБД— под целостностью данных в общем случае понимается
готовность БД к работе. Различают следующие типы целостности:
физическая целостность — сохранность информации на носителях и корректность форматов
хранения данных;
логическая целостность — непротиворечивость и актуальность данных, хранящихся в БД.
Различают два способа обеспечения целостности: декларативный и процедурный.
Целостность данных не может быть нарушена — СУБД должна обеспечивать целостность данных при любых манипуляциях, производимых с ними
Должны поддерживать распределенные операции— реляционная БД может размещаться как на одном компьютере, так и на нескольких —распределенно. Пользователь должен иметь возможность связывать данные, находящиеся в разных таблицах и на разных узлах компьютерной сети.
БД имеет 1-ю НФ, если каждое значение, хранящееся в ней, неразделимо на более примитивные (неразложимость значений);
БД имеет 2-ю НФ, если она имеет 1-ю НФ, и при этом каждое значение целиком и полностью зависит от ключа (функционально независимые значения);
БД имеет 3-ю НФ, если она имеет 2-ю НФ, и при этом ни одно из значений не предоставляет никаких сведений о другом значении (взаимно независимые значения)и т. д.
Теория нормализации данных (исключение избыточности):
Слайд 6Основные понятия ER-диаграмм
Определение 1.
Сущность - это класс однотипных объектов, информация
Основные понятия ER-диаграмм
Определение 1.
Сущность - это класс однотипных объектов, информация
быть учтена в модели.
Каждая сущность должна иметь наименование, выраженное существитель-
ным в единственном числе.
Определение 2.
Экземпляр сущности - это конкретный представитель данной сущности.
Определение 3.
Атрибут сущности - это именованная характеристика, являющаяся
некоторым свойством сущности.
Наименование атрибута должно быть выражено существительным в
единственном числе (возможно, с характеризующими прилагательными)
Определение 4.
Ключ сущности - это неизбыточный набор атрибутов, значения которых в
совокупности являются уникальными для каждого экземпляра сущности.
Неизбыточность заключается в том, что удаление любого атрибута из ключа
нарушается его уникальность.
Сущность может иметь несколько различных ключей.
Определение 5.
Связь - это некоторая ассоциация между двумя сущностями.
Одна сущность может быть связана с другой сущностью или сама с собою
Слайд 7Нормализация данных
Первая нормальная форма. Сущность находится в 1НФ, если все ее
Нормализация данных
Первая нормальная форма. Сущность находится в 1НФ, если все ее
атрибуты являются простыми (имеют единственное значение).
Вторая нормальная форма. Сущность находится в 2НФ, если она
находится в 1НФ и каждый неключевой атрибут функционально полно зависит
от первичного ключа (составного)
Третья нормальная форма.
Определение 1. Сущность находится в ЗНФ, если она находится в 2НФ и
каждый неключевой атрибут нетранзитивно зависит от первичного ключа.
Существует и альтернативное определение.
Определение 2. Сущность находится в ЗНФ в том и только в том случае,
если все неключевые атрибуты сущности взаимно независимы и полностью
зависят от первичного ключа
Слайд 8Нормализация данных
Нормализация данных
Слайд 9Определение OLAP-системы_1
OLAP (On-Line Analytical Processing) — технология оперативной аналитической
обработки данных, использующая
Определение OLAP-системы_1
OLAP (On-Line Analytical Processing) — технология оперативной аналитической
обработки данных, использующая
Основное назначение OLAP-систем — поддержка аналитической деятельности,
произвольных (часто используется термин ad-hoc) запросов пользователей-аналитиков.
Цель OLAP-анализа — проверка возникающих гипотез.
В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для пользователей-аналитиков: каким он должен быть“, в которой изложил основы концепции оперативной аналитической обработки и определил 12 требований, которым должны удовлетворять продукты, позволяющие выполнять оперативную аналитическую обработку:
1. Многомерность — OLAP-система на концептуальном уровне должна
представлять данные в виде многомерной модели, что упрощает процессы
анализа и восприятия информации.
2. Прозрачность — OLAP-система должна скрывать от пользователя реальную реализацию многомерной модели, способ организации, источники, средства обработки и хранения.
3. Доступность — OLAP-система должна предоставлять пользователю единую, согласованную и целостную модель данных, обеспечивая доступ к данным независимо от того, как и где они хранятся.
4. Постоянная производительность при разработке отчетов — производительность OLAP-систем не должна значительно уменьшаться при увеличении количества измерений, по которым выполняется анализ.
Слайд 10Определение OLAP-системы_2
В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для
Определение OLAP-системы_2
В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для
5. Клиент-серверная архитектура — OLAP-система должна быть способна работать в среде "клиент-сервер", т. к. большинство данных, которые сегодня требуется подвергать оперативной аналитической обработке, хранятся распределенно.
6. Равноправие измерений — OLAP-система должна поддерживать многомерную модель, в которой все измерения равноправны.
7. Динамическое управление разреженными матрицами — OLAP-система должна обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную степень разреженности данных.
8. Поддержка многопользовательского режима — OLAP-система должна предоставлять возможность работать нескольким пользователям совместно с одной аналитической моделью или создавать для них различные модели из единых данных. При этом возможны как чтение, так и запись данных, поэтому система должна обеспечивать их целостность и безопасность.
9. Неограниченные перекрестные операции — OLAP-система должна обеспечивать сохранение функциональных отношений, описанных с помощью определенного формального языка между ячейками гиперкуба при выполнении любых операций среза, вращения, консолидации или детализации. Система должна самостоятельно (автоматически) выполнять преобразование установленных отношений, не требуя от пользователя их переопределения.
Слайд 11Определение OLAP-системы_3
В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для
Определение OLAP-системы_3
В 1993 г. Э. Кодд опубликовал статью под названием "OLAP для
10. Интуитивная манипуляция данными— OLAP-система должна предоставлять способ выполнения операций среза, вращения, консолидации, детализации над гиперкубом без необходимости пользователю совершать множество действий с интерфейсом. Измерения, определенные в аналитической модели, должны содержать всю необходимую информацию для выполнения вышеуказанных операций.
11. Гибкие возможности получения отчетов — OLAP-система должна поддерживать различные способы визуализации данных, т. е. отчеты должны представляться в любой возможной ориентации. Средства формирования отчетов должны представлять синтезируемые данные или информацию, следующую из модели данных в ее любой возможной ориентации.
12. Неограниченная размерность и число уровней агрегации — исследование о возможном числе необходимых измерений, требующихся в аналитической модели, показало, что одновременно может использоваться до 19 измерений. Отсюда вытекает настоятельная рекомендация, чтобы аналитический инструмент мог одновременно предоставить хотя бы 15, а предпочтительно — 20 измерений. Более того, каждое из общих измерений не должно быть ограничено по числу определяемых пользователем-аналитиком уровней агрегации и путей консолидации.
Слайд 12Определение OLAP-системы_4
В 1995 г. Э. Кодд 12 требованиям, которым должны удовлетворять продукты,
Определение OLAP-системы_4
В 1995 г. Э. Кодд 12 требованиям, которым должны удовлетворять продукты,
13. Пакетное извлечение против интерпретации — OLAP-система должна в равной степени эффективно обеспечивать доступ как к собственным, так и к внешним данным.
14. Поддержка всех моделей OLAP-анализа — OLAP-система должна поддерживать все четыре модели анализа данных, определенные Коддом: категориальную, толковательную, умозрительную и стереотипную.
15. Обработка ненормализованных данных — OLAP-система должна быть интегрирована с ненормализованными источниками данных. Модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранимых в исходных внешних системах.
16. Сохранение результатов OLAP: хранение их отдельно от исходных данных — OLAP-система, работающая в режиме чтения-записи, после модификации исходных данных должна результаты сохранять отдельно. Иными словами, обеспечивается безопасность исходных данных.
17. Исключение отсутствующих значений— OLAP-система, представляя данные пользователю, должна отбрасывать все отсутствующие значения. Другими словами, отсутствующие значения должны отличаться от нулевых значений.
18. Обработка отсутствующих значений — OLAP-система должна игнорировать все отсутствующие значения без учета их источника. Эта особенность связана с 17-м правилом.
Слайд 13Определение OLAP-системы_5
Кодд все 18 требований сгруппировал в четыре группы В, S, R
Определение OLAP-системы_5
Кодд все 18 требований сгруппировал в четыре группы В, S, R
Основные особенности (В) включают следующие правила:
- многомерное концептуальное представление данных (правило 1);
- интуитивное манипулирование данными (правило 10);
- доступность (правило 3);
- пакетное извлечение против интерпретации (правило 13);
- поддержка всех моделей OLAP-анализа (правило 14);
- архитектура "клиент-сервер" (правило 5);
- прозрачность (правило 2);
- многопользовательская поддержка (правило 8).
Специальные особенности (S):
- обработка ненормализованных данных (правило 15);
- сохранение результатов OLAP: хранение их отдельно от исходных данных (правило 16);
- исключение отсутствующих значений (правило 17);
- обработка отсутствующих значений (правило 18). Особенности представления отчетов (R):
- гибкость формирования отчетов (правило 11);
- стандартная производительность отчетов (правило 4):
- автоматическая настройка физического уровня (измененное правило 7).
Управление измерениями (D):
- универсальность измерений (правило 6);
- неограниченное число измерений и уровней агрегации (правило 12);
- неограниченные операции между размерностями (правило 9).
Слайд 14Определение OLAP-системы_6
На основе анализа правил Кодда, Найджелом Пендсом (Nigel Pendse) и
Определение OLAP-системы_6
На основе анализа правил Кодда, Найджелом Пендсом (Nigel Pendse) и
FAST (Быстрый) — OLAP-система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно 5 с. При этом самые простые запросы обрабатываются в течение 1 с, и очень немногие более 20 с.
ANALYSIS (Анализ) — OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для данного приложения, и обеспечивать его сохранение в виде, доступном для конечного пользователя.
SHARED (Разделяемой)— OLAP-система должна выполнять все требования защиты конфиденциальности (возможно, до уровня ячейки хранения данных). Если множественный доступ для записи необходим, обеспечивается блокировка модификаций на соответствующем уровне.
MULTIDIMENSIONAL (Многомерной) — OLAP-система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий, обеспечивающих наиболее логичный способ анализа.
INFORMATION (Информации) — OLAP-система должна обеспечивать получение необходимой информации в условиях реального приложения. Мощность различных систем измеряется не объемом хранимой информации, а количеством входных данных, которые они могут обработать. В этом смысле мощность продуктов весьма различна. Большие OLAP-системы могут оперировать по крайней мере в 1000 раз большим количеством данных по сравнению с простыми версиями OLAP-систем.
Слайд 15Сопоставление систем: OLTP и OLAP_1
Сопоставление систем: OLTP и OLAP_1
Слайд 16Сопоставление систем: OLTP и OLAP_2
Сопоставление систем: OLTP и OLAP_2
Слайд 17Концепция хранилища данных_1
Систематизированное изложение концепции хранилища данных было сделано в
1992 г.
Концепция хранилища данных_1
Систематизированное изложение концепции хранилища данных было сделано в
1992 г.
Хранилище данных — предметно-ориентированный, интегрированный,
неизменчивый, поддерживающий хронологию набор данных, организованный для целей
поддержки принятия решений. В основе концепции ХД лежит идея разделения данных,
используемых для оперативной обработки и для решения задач анализа.
Структура системы автоматизированных исследований с физическим ХД
Система АИ
Слайд 18Концепция хранилища данных_2
Виртуальные ХД. Основными достоинствами виртуального ХД являются:
- минимизация объема памяти,
Концепция хранилища данных_2
Виртуальные ХД. Основными достоинствами виртуального ХД являются:
- минимизация объема памяти,
- работа с текущими, детализированными данными
Структура системы автоматизированных исследований с виртуальным ХД
Система АИ
Слайд 19Концепция хранилища данных_3
Основные проблемы создания ХД:
- необходимость интеграции данных из неоднородных источников
Концепция хранилища данных_3
Основные проблемы создания ХД:
- необходимость интеграции данных из неоднородных источников
- потребность в эффективном хранении и обработке очень больших объемов информации;
- необходимость наличия многоуровневых справочников метаданных;
- повышенные требования к безопасности данных
Витрина данных (ВД) — это упрощенный вариант ХД, содержащий только тематически
объединенные данные
Достоинствами ВД:
- проектирование ВД для ответов на определенный круг вопросов;
- быстрое внедрение автономных ВД и получение отдачи;
- упрощение процедур заполнения ВД и повышение их производительности за счет учета потребностей определенного круга пользователей
Недостатками автономных ВД:
- многократное хранение данных в разных ВД, что приводит к увеличению
расходов на их хранение и потенциальным проблемам, связанным с необходимостью
поддержания непротиворечивости данных;
- отсутствие консолидированности данных на уровне предметной области, а
следовательно — отсутствие единой картины
Слайд 20Концепция хранилища данных_4
Структура системы автоматизированных исследований с самостоятельными ВД
Система АИ
Концепция хранилища данных_4
Структура системы автоматизированных исследований с самостоятельными ВД
Система АИ
Слайд 21Концепция хранилища данных_5
Структура системы АИ с самостоятельными ХД и ВД
Система АИ
Концепция хранилища данных_5
Структура системы АИ с самостоятельными ХД и ВД
Система АИ
Слайд 22Организация хранилищ данных
Все данные в ХД делятся на три основные категории:
- детальные
Организация хранилищ данных
Все данные в ХД делятся на три основные категории:
- детальные
- агрегированные данные;
- метаданные
Система АИ
Слайд 23Репозиторий метаданных
Для удобства работы с ХД необходима информация о содержащихся в нем
Репозиторий метаданных
Для удобства работы с ХД необходима информация о содержащихся в нем
информация называется метаданными (данные о данных).
Метаданные должны отвечать на следующие вопросы — что, кто, где, как, когда и
почему:
- что (описание объектов)— метаданные описывают объекты предметной области,
информация о которых хранится в ХД. Такое описание включает: атрибуты объектов, их
возможные значения, соответствующие поля в информационных структурах ХД, источники
информации об объектах и т. п.;
- кто (описание пользователей) — метаданные описывают категории пользователей,
использующих данные. Они описывают права доступа к данным, а также включают в себя
сведения о пользователях, выполнявших над данными различные операции (ввод,
редактирование, загрузку, извлечение и т. п.);
- где (описание места хранения) — метаданные описывают местоположение серверов,
рабочих станций, ОИД, размещенные на них программные средства и распределение между
ними данных;
- как (описание действий) — метаданные описывают действия, выполняемые над
данными. Описываемые действия могли выполняться как в процессе переноса из ОИД
(например, исправление ошибок, расщепление полей и т. п.), так и в процессе их
эксплуатации в ХД;
- когда (описание времени)— метаданные описывают время выполнения разных
операций над данными (загрузка, агрегирование, архивирование, извлечение и т.п.);
- почему (описание причин) — метаданные описывают причины, повлекшие выполнение
над данными тех или иных операций. Такими причинами могут быть требования
пользователей, статистика обращений к данным и т. п.
Слайд 24ETL-процесс (E – extraction, T – transformation, L – loading)
Преобразование данных:
-
ETL-процесс (E – extraction, T – transformation, L – loading)
Преобразование данных:
-
- перевод значений (value translation) — в ОИД данные часто хранятся в закодированном виде для того, чтобы сократить избыточность данных и память для их хранения;
- создание полей (field derivation);
- очистка данных (cleaning).
Загрузка данных — после того как данные преобразованы для размещения в ХД, осуществляется этап их загрузки. При загрузке выполняется запись преобразованных детальных и агрегированных данных. Кроме того, при записи новых детальных данных часть старых может переноситься в архив
Система АИ
Слайд 25Очистка данных
Основные проблемы очистки данных классифицируют по следующим уровням:
- уровень ячейки таблицы;
-
Очистка данных
Основные проблемы очистки данных классифицируют по следующим уровням:
- уровень ячейки таблицы;
-
- уровень таблицы БД;
- уровень одиночной БД;
- уровень множества БД.
В целом, очистка данных включает несколько этапов:
- выявление проблем в данных;
- определение правил очистки данных;
- тестирование правил очистки данных;
- непосредственная очистка данных.
Непосредственная очистка данных. На этом этапе выполняются преобразования в
соответствии с определенными ранее правилами. Очистка выполняется в два приема:
- сначала устраняются проблемы, связанные с отдельными источниками данных,
- за тем устраняются проблемы множества БД.
Над отдельными ОИД выполняются следующие процедуры:
- проверка допустимости и исправления;
- стандартизация;
- исключение дубликатов
Слайд 26Многомерная модель данных_1
Э. Ф. Кодд— основоположник реляционной модели БД— рассмотрел ее недостатки,
Многомерная модель данных_1
Э. Ф. Кодд— основоположник реляционной модели БД— рассмотрел ее недостатки,
первую очередь на невозможность "объединять, просматривать и анализировать
данные с точки зрения множественности измерений, т. е. самым понятным для
аналитиков способом".
Измерение — это последовательность значений одного из анализируемых параметров.
Каждое измерение может быть представлено в виде иерархической структуры. Например,
измерение "Исполнитель" может иметь следующие иерархические уровни: "предприятие —
подразделение — отдел — служащий". Более того, некоторые измерения могут иметь
несколько видов иерархического представления. Например, измерение "время" может
включать две иерархии со следующими уровнями: "год — квартал — месяц — день" и
"неделя — день"
На пересечениях осей измерений (Dimensions) располагаются данные, количественно характеризующие анализируемые факты, — меры (Measures). Это могут быть объемы продаж, выраженные в единицах продукции или в денежном выражении, остатки на складе, издержки и т. п.
Слайд 27Многомерная модель данных_2
Над гиперкубом могут выполняться следующие операции:
- Срез (Slice) — формируется
Многомерная модель данных_2
Над гиперкубом могут выполняться следующие операции:
- Срез (Slice) — формируется
соответствующее единственному значению одного или нескольких элементов измерений,
не входящих в это подмножество;
- Вращение (Rotate) — изменение расположения измерений, представленных в
отчете или на отображаемой странице
Слайд 28Многомерная модель данных_3
Над гиперкубом могут выполняться следующие операции:
- Консолидация (Drill Up) и
Многомерная модель данных_3
Над гиперкубом могут выполняться следующие операции:
- Консолидация (Drill Up) и
определяют переход вверх по направлению от детального (down) представления данных к
агрегированному (up) и наоборот, соответственно. Направление детализации (обобщения)
может быть задано как по иерархии отдельных измерений, так и согласно прочим
отношениям, установленным в рамках измерений или между измерениями
Слайд 29Архитектура OLAP-систем
OLAP-система включает в себя два основных компонента:
- OLAP-сервер — обеспечивает хранение
Архитектура OLAP-систем
OLAP-система включает в себя два основных компонента:
- OLAP-сервер — обеспечивает хранение
необходимых операций и формирование многомерной модели на концептуальном уровне. В настоящее время OLAP-серверы объединяют с ХД или ВД;
- OLAP-клиент — представляет пользователю интерфейс к многомерной модели данных, обеспечивая его возможностью удобно манипулировать данными для выполнения задач анализа.
OLAP-серверы скрывают от конечного пользователя способ реализации многомерной модели. Они формируют гиперкуб, с которым пользователи посредством OLAP-клиента выполняют все необходимые манипуляции, анализируя данные. Между тем способ реализации очень важен, т. к. от него зависят такие характеристики, как производительность и занимаемые ресурсы.
Выделяют три основных способа реализации OLAP-серверов :
- MOLAP — для реализации многомерной модели используют многомерные БД;
- ROLAP — для реализации многомерной модели используют реляционные БД;
- HOLAP — для реализации многомерной модели используют и многомерные и
реляционные БД.
Слайд 30Архитектура OLAP-систем: MOLAP
MOLAP-серверы используют для хранения и управления данными многомерные БД. При
Архитектура OLAP-систем: MOLAP
MOLAP-серверы используют для хранения и управления данными многомерные БД. При
В гиперкубе все хранимые в БД ячейки имеют одинаковую размерность, т.е. находятся в максимально полном базисе измерений.
В поликубе каждая ячейка хранится с собственным набором измерений, и все связанные с этим сложности обработки перекладываются на внутренние механизмы системы.
Физически данные, представленные в многомерном виде, хранятся в "плоских" файлах. При этом куб представляется в виде одной плоской таблицы, в которую построчно вписываются все комбинации членов всех измерений с соответствующими им значениями мер
Достоинства:
- высокая скорость обработки данных.
Недостатки:
- за счет денормализации и предварительно выполненной агрегации объем
данных в многомерной БД в 2,5...100 раз меньше объема исходных детализированных данных;
- информационный гиперкуб является сильно разреженным;
- многомерные БД чувствительны к изменениям в многомерной модели. При добавлении нового измерения приходится изменять структуру всей БД, что влечет за собой большие затраты времени.
Слайд 31Архитектура OLAP-систем: ROLAP
ROLAP-серверы используют реляционные БД.
В настоящее время распространены две основные
Архитектура OLAP-систем: ROLAP
ROLAP-серверы используют реляционные БД.
В настоящее время распространены две основные
Слайд 32Архитектура OLAP-систем: HOLAP
ROLAP-серверы используют гибридную архитектуру, которая объединяет технологии ROLAP и MOLAP.
Архитектура OLAP-систем: HOLAP
ROLAP-серверы используют гибридную архитектуру, которая объединяет технологии ROLAP и MOLAP.
Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP — для плотных областей.
Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.
Основные производители OLAP-систем:
- SAS Институт,
- Компания ORACLE,
- Компания Microsoft,
- Компания «Прогноз»
Слайд 33OLAP-система SAS-института_0
Рассмотрите подробнее предлагаемые нами продукты:
OLAP-система SAS-института_0
Рассмотрите подробнее предлагаемые нами продукты:
Слайд 34OLAP-система SAS-института_1
SAS включает свыше 20 различных программных продуктов, объединенных друг с другом
OLAP-система SAS-института_1
SAS включает свыше 20 различных программных продуктов, объединенных друг с другом
«средствами доставки информации» (Information Delivery System, или IDS), так что весь
пакет иногда обозначается как SAS/IDS.
SAS/IDS — это система комплексной интеграции разнообразных возможностей доступа к данным и управления ими, а также средств анализа данных, способов представления информации, генерации отчетов и визуализации результатов обработки информационных материалов
В составе системе SAS/IDS функционируют следующие компоненты (модули системы):
BASE SAS — ядро системы со встроенным языком программирования 4GL и языком работы с базами данных SQL, средства управления данными, поддержки индексов для баз данных, возможностями доступа к широкому набору форматов данных, процедуры описательной статистики и генерации отчетов.
FSP - обеспечивает доступ к данным, ввод, редактирование, преобразование данных, генерацию отчетов и деловую переписку.
GRAPH - содержит деловую, научную, рекламную графику, различные шрифты и карты.
STAT - включает в себя многофункциональный набор статистических процедур анализа данных.
Слайд 35OLAP-система SAS-института_2
SAS включает свыше 20 различных программных продуктов, объединенных друг с другом
OLAP-система SAS-института_2
SAS включает свыше 20 различных программных продуктов, объединенных друг с другом
«средствами доставки информации» (Information Delivery System, или IDS), так что весь
пакет иногда обозначается как SAS/IDS.
Дополнительные модули:
1ML - представляет собой интерактивный матричный язык программирования для выполнения углубленных математических, инженерных и статистических расчетов. Этот язык дает возможность математику легко программировать свои собственные процедуры, используя язык, близкий к языку линейной алгебры.
LAB - предоставляет пользователю экспертную поддержку. В частности, здесь система подсказывает пользователю, выполняются или нет предположения, лежащие в основе того или иного метода анализа данных.
ASSIST - служит средством для обеспечения интерактивного доступа пользователей к различным возможностям системы SAS/IDS.
EIS - является меню-управляемым инструментом разработки и поддержки интерактивных исполняемых информационных систем методом объектно-ориентированной технологии. С помощью этого модуля легко настроить систему на собственные данные и формы представления результатов.
ACCESS - дает возможность конструировать отдельные интерфейсы для связи SAS/IDS с самыми разнообразными СУБД (ADABAS, DB2, ORACLE, SQL/DS и др.).
INSIGHT - представляет собой интерактивный инструмент для графического анализа данных
Слайд 36OLAP-система SAS-института_3
OLAP-система SAS-института_3
Слайд 37OLAP-система SAS-института_4
В Enterprise Miner :
Функции исследования (Explore) размещаются в узлах Distribution Explorer,
OLAP-система SAS-института_4
В Enterprise Miner :
Функции исследования (Explore) размещаются в узлах Distribution Explorer,
К категории Noninteractive Explore относятся Multiplot, Association и Variable Selection.
Multiplot — это узел простых неинтерактивных графических операций, позволяющий создавать диаграммы и гистограммы.
Узел Association позволяет определять традиционные правила ассоциаций и последовательных цепочек.
Узел Variable Selection служит для автоматического или ручного выбора входных переменных. В нем можно выполнить оценки критерия хи-квадрат и R-квадрат для автоматического определения наиболее важных входных переменных при попытке создания моделей прогноза интервальных или двоичных значений.
Distribution Explorer позволяет создавать многомерные гистограммы. Он оптимизирован для эффективной обработки больших наборов данных и позволяет интерактивно вращать и перемещать объемные диаграммы.
Узел Insight — это ссылка на систему SAS Insight, интерактивное средство исследования и анализа данных.
Узлы Distribution Explorer и Insight взаимно дополняют друг друга: Distribution Explorer применяется для исследования очень больших наборов данных с ограниченной графической поддержкой, а Insight — для тщательных изысканий в меньших, более тщательно отобранных подмножествах данных.
Слайд 38OLAP-система SAS-института_5
В Enterprise Miner :
Функции модификации (Modify) позволяют:
1. Управлять атрибутами наборов данных
OLAP-система SAS-института_5
В Enterprise Miner :
Функции модификации (Modify) позволяют:
1. Управлять атрибутами наборов данных
2. Преобразовывать транзакционные данные во временные ряды с помощью нового (экспериментального) узла Time Series.
Узел Data Set Attribute — это инструмент создания и использования набора данных для просеивания.
В узле Transform можно создавать из существующих переменных новые.
Узел Replace применяется для преобразования существующих или восстановления недостающих значений.
Узел Filter Outliers служит для работы с интервальными переменными и переменными типа категория и предоставляет автоматические и ручные методы удаления выбросов.
Слайд 39OLAP-система SAS-института_6
В Enterprise Miner :
- кластеризация рассматривается как функция «модификации» данных, а
OLAP-система SAS-института_6
В Enterprise Miner :
- кластеризация рассматривается как функция «модификации» данных, а
- есть два узла для выполнения кластеризации — Cluster (рекомендуемый) и SOM/Kohonen.
Узел Cluster — это просто ссылка на процедуру SAS Fastclus, которая позволяет эффективно распределять очень большие наборы данных на взаимоисключающие кластеры.
Узел SOM/Kohonen используется преимущественно для выделения признаков и сокращения размерности, особенно в случаях, когда переменные характеризуются высокой степенью нелинейных отношений.
Слайд 40OLAP-система SAS-института_7
OLAP-система SAS-института_7
Слайд 41OLAP-система SAS-института_8
В Enterprise Miner :
Узел оценки (Assess) делится на два подузла —
OLAP-система SAS-института_8
В Enterprise Miner :
Узел оценки (Assess) делится на два подузла —
Подузел Assess — это комплексный модуль для сравнения ожидаемых результатов моделей с реальной производительностью или моделей между собой.
Подузел Reporter автоматически генерирует HTML-отчеты о потоках завершенных проектов добычи данных. Интеллектуальность этого узла заключается в этом, что он «понимает» свое место в рамках конкретного проектного потока и создает отчеты с разной детализацией в зависимости от своего местоположения и входных данных.
Помимо прочего, в Enterprise Miner включена база данных Data Mining Database (DMDB) для хранения уже добытых результатов. DMDB — это особый набор данных SAS, оптимизированный для операций по добыче данных. Хранение предварительно рассчитанных статистических данных в DMDB позволяет алгоритмам Enterprise Miner не выполнять эти операции и сэкономить на многих «проходах» по данным.
Слайд 42OLAP-система компании ORACLE_1
OLAP-система компании ORACLE_1
Слайд 43OLAP-система компании ORACLE_2
В качестве механизма хранения в реляционных Хранилищах и Витринах Данных
OLAP-система компании ORACLE_2
В качестве механизма хранения в реляционных Хранилищах и Витринах Данных
используется сервер Oracle9i (Oracle10i), в многомерных Витринах - Express Server.
Инструментальное средство Oracle Warehouse Builder, построенное на базе современной
архитектуры Common Warehouse Metadata, позволяет спроектировать структуру целевого
Хранилища, создать процедуры извлечения, согласования и загрузки данных из различных
источников и сгенерировать метаданные для средств доступа, таких как Discoverer и
Express.
Для проектирования Хранилища можно также использовать Oracle Designer, а затем
автоматически перенести описание проекта в репозиторий метаданных Warehouse
Builder.
Средства доступа к данным покрывают весь спектр аналитических задач: для стандартной
отчетности используется Reports, для генерации нерегламентированных отчетов и запросов
- Discoverer, для сложного многомерного анализа - продукты семейства Express, а для задач
"извлечения знаний" - Darwin Data Mining Suite.
Существуют готовые аналитические приложения для решения специализированных задач
- Sales Analyzer, Financial Analyzer, Activa и Balanced Scorecard. В настоящее время
готовятся к выпуску новые аналитические приложения, такие как Demand Planning, Value
Based Management и другие.
Конечные пользователи могут получать информацию как с помощью традиционных
клиент-серверных технологий, так и в Интранет-архитектуре с использованием
масштабируемого сервера приложений Application Server.
Слайд 44OLAP-система компании ORECLE_3
Oracle Warehouse Builder - многофункциональная расширяемая среда для разработки и
OLAP-система компании ORECLE_3
Oracle Warehouse Builder - многофункциональная расширяемая среда для разработки и
развертывания корпоративных Хранилищ и Витрин Данных:
1. Продукт позволяет визуально моделировать схему Хранилища либо
импортировать описывающие ее метаданные из репозитория Oracle Designer.
2. В Warehouse Builder включены возможности визуального определения
отображений между источниками и Хранилищем и последующей генерации на их основе
модулей загрузки данных в виде процедур PL/SQL или с использованием SQL*Loader.
3. Используемый в сочетании с Warehouse Builder продукт Oracle Pure*Integrate
предоставляет мощные средства автоматической очистки данных, включающие алгоритмы
нечеткой логики, синтаксический разбор имен и адресов, вероятностные модели и т.д.
4. Источниками данных для Warehouse Builder, помимо СУБД Oracle различных
версий, могут быть плоские файлы, СУБД других производителей (доступ через шлюзы и
ODBC), файловые системы мэйнфреймов (через шлюзы либо продукт Oracle Pure*Extract),
а также приложения ERP (через компоненты Integrator for Oracle Applications, SAP R/3 и др.).
5. Открытая архитектура Common Warehouse Metadata позволяет осуществлять
обмен метаданными между Warehouse Builder и средствами бизнес-анализа - Discoverer и
Express.
Oracle Reports - это инструмент создания и публикации стандартных отчетов с помощью визуального интерфейса. Oracle Reports позволяет распространять информацию, используя Web-архитектуру
Oracle Discoverer - это инструмент для получения произвольных отчетов, формирования
нерегламентированных запросов и анализа данных, который дает бизнес-пользователям
всех уровней быстрый и удобный доступ к информации, содержащейся в реляционных
Хранилищах и Витринах Данных, а также в OLTP-системах (в том числе не обязательно
реализованных на СУБД Oracle).
Слайд 45OLAP-система компании ORECLE_4
OLAP-система компании ORECLE_4
Слайд 46OLAP-система компании ORECLE_5
OLAP-система компании ORECLE_5
Слайд 47OLAP-система компании ORECLE_6
OLAP-система компании ORECLE_6
Слайд 48OLAP-система компании ORECLE_7
Oracle Express Analyzer - средство конечного пользователя, предназначенное для самостоятельного
OLAP-система компании ORECLE_7
Oracle Express Analyzer - средство конечного пользователя, предназначенное для самостоятельного
Основным понятием в Express Analyzer является брифинг - набор страниц, содержащих динамические интерактивные отчеты в табличном и графическом виде, кнопки с привязанными к ним действиями (например, печать или экспорт в Excel) и OLE-объекты.
Слайд 49OLAP-система компании ORECLE_8
Технология Express позволяет пользователям проводить интерактивный анализ не только в
OLAP-система компании ORECLE_8
Технология Express позволяет пользователям проводить интерактивный анализ не только в
Серверная компонента Oracle Express Web Agent, состоящая из интерфейсного модуля к Express Server и набора Java-апплетов для визуализации и работы с данными, предоставляет все возможности OLAP, не требуя программного обеспечения Express на персональном компьютере
Oracle Financial Analyzer - интегрированное решение для формирования финансовой отчетности, анализа, прогнозирования, составления и контроля исполнения бюджетов.
Oracle Sales Analyzer - приложение масштаба предприятия, предназначенное для анализа продаж и маркетинговых исследований. В продукт встроен графический инструментарий для построения индикаторов эффективности и других показателей, таких как динамика продаж, доля рынка, различные индексы, результаты нарастающим итогом, скользящее среднее, сдвиги по времени и т. д.
Инструментальная среда Darwin предназначена для анализа данных методами, относящимися к технологии "data mining" (извлечение знаний).
Слайд 50OLAP-система компании «Прогноз»_1
OLAP-система компании «Прогноз»_1
Слайд 51OLAP-система компании «Прогноз»_2
OLAP-система компании «Прогноз»_2
Слайд 52OLAP-система компании «Прогноз»_3
OLAP-система компании «Прогноз»_3
Слайд 53OLAP-система компании «Прогноз»_4
OLAP-система компании «Прогноз»_4