Содержание

Слайд 2

Задачи OLTP-системы – это быстрый сбор и оптимальное размещение данных в БД,

Задачи OLTP-системы – это быстрый сбор и оптимальное размещение данных в БД,
а также обеспечение их полноты, актуальности и согласованности.
Однако такие системы не предназначены для эффективного, быстрого и многоаспектного анализа.
По собранным данным можно строить отчеты, но это требует от бизнес-аналитика или постоянного взаимодействия с IT-специалистом, или специальной подготовки в области программирования и вычислительной техники.

Слайд 3

Традиционный процесс принятия решений в российской компании, использующей информационную систему, построенную на

Традиционный процесс принятия решений в российской компании, использующей информационную систему, построенную на
OLTP-технологии:
Менеджер дает задание специалисту информационного отдела в соответствии со своим пониманием вопроса.
Специалист информационного отдела, по-своему осознав задачу, строит запрос оперативной системе, получает электронный отчет и доводит его до сведения руководителя.

Слайд 4

Недостатки такой схемы принятия решений:
используется малое количество данных;
процесс занимает длительное время;
требуется повторение

Недостатки такой схемы принятия решений: используется малое количество данных; процесс занимает длительное
цикла в случае необходимости уточнения данных или рассмотрения данных в другом разрезе, а также при возникновении дополнительных вопросов;
ИТ специалист и руководитель мыслят разными категориями => непонимание
сложность электронных отчетов (в цифровом виде) для восприятия => ИТ специалист вынужден отвлекаться на рутинную работу по составлению таблиц, диаграмм и т.д.

Слайд 5

Выход из этой ситуации – исходная информация должна быть доступна ее непосредственному

Выход из этой ситуации – исходная информация должна быть доступна ее непосредственному
потребителю – аналитику (Билл Гейтс – «Информация на кончиках пальцев»).
OLAP-технология и предназначена для этого.
Инструменты OLAP-технологии позволяют бизнес-аналитикам даже без специальной подготовки самостоятельно (непосредственно) и оперативно получать всю необходимую для исследования закономерностей бизнеса информацию в различных комбинациях и срезах.
При этом максимальный отклик любого отчета не превышает ~5 секунд.

Слайд 6

Основы OLAP
OLAP – технологии интерактивной аналитической обработки данных в системах БД, предназначенные

Основы OLAP OLAP – технологии интерактивной аналитической обработки данных в системах БД,
для поддержки принятия решений и ориентированные гл. образом на нерегламентированные интерактивные запросы.
Термин OLAP был введен Э. Коддом в 1993г.
По способам организации источников данных систем OLAP различают технологии:
ROLAP (Relational OLAP),
MOLAP (Multi-Dimensional OLAP),
HOLAP (Hybrid OLAP).

Слайд 7

В качестве источников данных часто используют хранилища данных.
Обеспечивает многомерный анализ данных (с

В качестве источников данных часто используют хранилища данных. Обеспечивает многомерный анализ данных
т. зр. их концептуального представления).
Основная структура – N-мерный куб данных.
Куб данных обладает 2-мя или более независимыми измерениями (атрибутами) => система координат пространства данных.
Совокупности координат соответствуют значения данных в точках куба, называемые элементами (Item) или ячейками (Cell).
Для анализа на многомерном кубе делают «срезы» (обычные двумерные таблицы)

Слайд 8

OLAP (On-Line Analytical Processing)

OLAP – это совокупность концепций, принципов и требований, лежащих

OLAP (On-Line Analytical Processing) OLAP – это совокупность концепций, принципов и требований,
в основе программных продуктов, облегчающих аналитикам доступ к данным.
Аналитика не интересует одиночный факт - ему нужна информация о сотнях и тысячах подобных событий (причем, без лишних подробностей).
Задача аналитика – находить закономерности в больших массивах данных.
Данные, которые требуются аналитику, обязательно содержат числовые значения.

Слайд 9

Итак, аналитику нужно много данных, эти данные являются выборочными, а также носят

Итак, аналитику нужно много данных, эти данные являются выборочными, а также носят
характер «набор атрибутов – число»:

Слайд 10

В общем случае куб может быть многомерным (~ до 20 измерений) –

В общем случае куб может быть многомерным (~ до 20 измерений) –
«система координат»
В принципе, все измерения равноправны

Трехмерное представление таблицы (куб OLAP):

Слайд 11

Измерения OLAP-кубов (например: страна, товар, год) состоят из т.н. меток или членов

Измерения OLAP-кубов (например: страна, товар, год) состоят из т.н. меток или членов
(members). Например: измерение "Страна" состоит из меток "Аргентина", "Бразилия", "Венесуэла" и так далее.
Элементы куба м.б. не заполнены (нет данных) – «вакуум».
Куб (гиперкуб) – это логическое представление данных (для пользователя). Данные физически не обязательно хранятся в многомерной структуре. Благодаря спец. способам компактного хранения многомерных данных решается проблема «вакуума» (бесполезной траты памяти)

Слайд 12

Куб сам по себе не пригоден для восприятия и анализа человеком (нельзя

Куб сам по себе не пригоден для восприятия и анализа человеком (нельзя
адекватно представить более 3-х измерений).
Перед употреблением из n-мерного куба извлекают обычные двумерные таблицы. Эта операция называется «разрезанием» (slice) куба.
При «разрезании» куба оставляются только необходимые измерения (обычно не больше двух), остальные измерения – фиксируются на интересующих аналитика метках.
Пример: фиксируем измерение «Товары» на метке «Бытовая электроника» и анализируем объемы продаж по странам и годам.

Слайд 13

Данные в таблице не являются первичными, а получены в результате агрегирования более

Данные в таблице не являются первичными, а получены в результате агрегирования более
мелких элементов:
Год => кварталы => месяцы => недели => дни.
Страна => регионы => населенные пункты =>. районы => конкретные торговые точки.

Слайд 14

Такие многоуровневые объединения значений атрибутов-измерений называется иерархиями

Пример иерархии:

Такие многоуровневые объединения значений атрибутов-измерений называется иерархиями Пример иерархии:

Слайд 15

Исходные данные берутся из нижних уровней иерархий, а затем суммируются для получения

Исходные данные берутся из нижних уровней иерархий, а затем суммируются для получения
значений более высоких уровней.
Средства OLAP дают возможность в любой момент перейти на нужный уровень иерархии с помощью операций агрегации (aggregation) и детализации (drill-down).
Для ускорения процесса перехода, просуммированные значения для разных уровней хранятся в кубе.
Операция поворота (rotation) позволяет изменить порядок измерений в кубе данных нужным для пользователя образом.

Слайд 16

Средства OLAP позволяют значительно повысить эффективность работы аналитика с данными по сравнению

Средства OLAP позволяют значительно повысить эффективность работы аналитика с данными по сравнению
с OLTP-системами.
Аналитик непосредственно работает с заранее подготовленными (загруженными из OLTP БД) данными, оптимизированными для быстрой аналитической обработки (нет необходимости каждый раз обрабатывать тысячи и миллионы первичных данных).
Кубы OLAP представляют собой, по сути, многомерные отчеты. Разрезая многомерные кубы по измерениям, аналитик получает интересующие его "обычные" двумерные отчеты.

Слайд 17

Тест FASMI (требования к продуктам OLAP):
Fast (Быстрый) - время доступа к аналитическим

Тест FASMI (требования к продуктам OLAP): Fast (Быстрый) - время доступа к
данным - порядка 5 секунд;
Analysis (Анализ) - возможность осуществлять числовой и статистический анализ;
Shared (Разделяемый доступ) - возможность работы с информацией многим пользователям одновременно;
Multidimensional (Многомерность) - см. выше;
Information (Информация) - возможность получать нужную информацию, в каком бы электронном хранилище данных она не находилась.

Слайд 18

Хранилища данных (Data Warehouse)

Хранилище данных (ХД) и OLAP - две разные технологии.

Хранилища данных (Data Warehouse) Хранилище данных (ХД) и OLAP - две разные
Однако, в комплексных решениях обе технологии применяются совместно.
Задача ХД – интеграция, актуализация и согласование оперативных данных из разнородных источников для формирования единого непротиворечивого взгляда на объект управления в целом.
ХД используются для составления отчетности, проведения оперативной аналитической обработки и глубинного анализа данных (Data Mining).

Слайд 19

Понятие хранилища данных:

Хранилище данных — система, содержащая непротиворечивую интегрированную предметно-ориентированную совокупность исторических

Понятие хранилища данных: Хранилище данных — система, содержащая непротиворечивую интегрированную предметно-ориентированную совокупность
данных крупной корпорации или иной организации с целью поддержки принятия стратегических решений.
Хранилище:
(1) собирает, (2) очищает, (3) загружает, (4) агрегирует, (5) хранит данные и (6) предоставляет к ним быстрый доступ.
Основной источник данных - учетные системы (OLTP)

Слайд 20

Билл Инмон («отец» хранилищ данных):
Хранилища данных - "предметно ориентированные, интегрированные, неизменчивые,

Билл Инмон («отец» хранилищ данных): Хранилища данных - "предметно ориентированные, интегрированные, неизменчивые,
поддерживающие хронологию наборы данных, организованные с целью поддержки управления" и призванные выступать в роли "единого и единственного источника истины", который обеспечивает менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

Слайд 21

Предметная ориентация – данные объединены в категории и сохраняются соответственно областям, которые

Предметная ориентация – данные объединены в категории и сохраняются соответственно областям, которые
они описывают, а не применениям, их использующим.
Интегрированность – данные удовлетворяют требованиям всего предприятия, а не одной функции бизнеса (одинаковые отчеты, сгенерированные для разных аналитиков, будут содержать одинаковые результаты).
Неизменность – попав один раз в хранилище, данные там сохраняются и не изменяются. Данные могут лишь добавляться.

Слайд 22

Привязка ко времени – хранилище можно рассматривать как совокупность "исторических" данных: возможно

Привязка ко времени – хранилище можно рассматривать как совокупность "исторических" данных: возможно
восстановление данных на любой момент времени. Атрибут времени явно присутствует в структурах хранилища данных.

Т.о., хранилище данных представляет собой своеобразный накопитель информации о деятельности предприятия.
ХД изначально технологически оптимизированы не для ввода, а для быстрого поиска и анализа информации => имеют другую архитектуру БД (структура часто денормализована)

Слайд 23

В дополнение к единому ХД могут создаваться т.н. витрины данных
Витрина данных (Data

В дополнение к единому ХД могут создаваться т.н. витрины данных Витрина данных
Mart) – хранилище данных, связанных с какими-либо конкретными аспектами деятельности организации.
Используется для поддержки принятия решений в интересах какого-либо подразделения организации или обеспечения какой-либо сферы ее деятельности.
Источником данных может быть общее хранилище данных организации.

Слайд 24

Архитектура Хранилища данных

Архитектура Хранилища данных

Слайд 25

Хранилище данных
(OLAP, Data Mining)

OLTP DB

сбор, очистка, загрузка

OLTP DB

OLTP DB

Витрина данных

Внешняя среда

Витрина данных

Data

Хранилище данных (OLAP, Data Mining) OLTP DB сбор, очистка, загрузка OLTP DB
Mining

OLAP

OLAP

OLAP

Слайд 26

Контрольные вопросы:

Сущность и назначение операции разрезания (slice) куба OLAP
Сущность и назначение иерархий

Контрольные вопросы: Сущность и назначение операции разрезания (slice) куба OLAP Сущность и
значений в измерениях куба OLAP
Сущность и назначение Хранилищ данных

Слайд 27

Data Mining

Корпоративная БД любого современного предприятия обычно содержит набор таблиц, хранящих

Data Mining Корпоративная БД любого современного предприятия обычно содержит набор таблиц, хранящих
записи о тех или иных фактах либо объектах.
Совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.

Слайд 28

Примеры сведений, которые могут быть получены на основе анализа больших объемов накопленных

Примеры сведений, которые могут быть получены на основе анализа больших объемов накопленных
данных:
как зависят продажи определенного товара от дня недели, времени суток или времени года,
какие категории покупателей чаще всего приобретают тот или иной товар,
какая часть покупателей одного конкретного товара приобретает другой конкретный товар,
какая категория клиентов чаще всего вовремя не отдает предоставленный кредит.

Слайд 29

Григорий Пиатецкий-Шапиро (один из основателей направления):
Data Mining – это процесс обнаружения в

Григорий Пиатецкий-Шапиро (один из основателей направления): Data Mining – это процесс обнаружения
сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Суть и цель технологии Data Mining: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и практически полезных закономерностей (знаний).

Слайд 30

Неочевидных – найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным

Неочевидных – найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным
путем.
Объективных – обнаруженные закономерности полностью соответствуют действительности, в отличие от экспертного мнения, которое всегда является субъективным.
Практически полезных – выводы имеют конкретное значение, которому можно найти практическое применение (например, для достижения конкретных преимуществ в конкурентной борьбе за рынок)

Слайд 31

Data Mining – это процесс, цель которого - обнаружить новые значимые корреляции,

Data Mining – это процесс, цель которого - обнаружить новые значимые корреляции,
образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания шаблонов, статистических и математических методов.
В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных.
Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих подвыборках.

Слайд 32

Сравнительные примеры вопросов:

Сравнительные примеры вопросов:

Слайд 33

Типы закономерностей, выявляемых методами Data Mining:

Ассоциация — высокая вероятность связи событий друг

Типы закономерностей, выявляемых методами Data Mining: Ассоциация — высокая вероятность связи событий
с другом (например, один товар часто приобретается вместе с другим);
Последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);

Слайд 34

Классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное

Классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное
событие или объект
Кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;
Временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

Слайд 35

Методы исследования данных в Data Mining:

регрессионный, дисперсионный и корреляционный анализ;
нейросетевые алгоритмы;
выбор близкого

Методы исследования данных в Data Mining: регрессионный, дисперсионный и корреляционный анализ; нейросетевые
аналога исходных данных из уже имеющихся исторических данных (метод «ближайшего соседа»);
деревья решений (иерархии вопросов, подразумевающих ответ «Да» или «Нет»);
кластерные модели;
алгоритмы ограниченного перебора;
эволюционное программирование.

Слайд 36

Хранилище данных
(OLAP, Data Mining)

OLTP DB

сбор, очистка, загрузка

OLTP DB

OLTP DB

Витрина данных

Внешняя среда

Витрина данных

Data

Хранилище данных (OLAP, Data Mining) OLTP DB сбор, очистка, загрузка OLTP DB
Mining

OLAP

OLAP

OLAP

Слайд 37

Агентство Gartner Group в 1980-х годах ввело термин "Business Intelligence" (BI) –

Агентство Gartner Group в 1980-х годах ввело термин "Business Intelligence" (BI) –
деловой интеллект или бизнес-интеллект.
Business Intelligence – программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.

Слайд 38

Понятие BI объединяет в себе различные средства и технологии анализа и обработки

Понятие BI объединяет в себе различные средства и технологии анализа и обработки
данных масштаба предприятия.
На основе этих средств создаются BI-системы, цель которых – повысить качество информации для принятия управленческих решений.
BI-системы относятся к классу Систем Поддержки Принятия Решений (СППР, DSS)

Слайд 39

По Gartner Group к системам Business Intelligence относятся программные продукты следующих классов:
средства

По Gartner Group к системам Business Intelligence относятся программные продукты следующих классов:
построения хранилищ данных (data warehousing, ХД);
системы оперативной аналитической обработки (OLAP);
информационно-аналитические системы (Enterprise Information Systems, EIS);
средства интеллектуального анализа данных (data mining);
инструменты для выполнения запросов и построения отчетов (query and reporting tools)

Слайд 40

Экспертные системы (ЭС)

Характеристика и назначение:

Основная идея состоит в отчуждении и сохранении знаний

Экспертные системы (ЭС) Характеристика и назначение: Основная идея состоит в отчуждении и
и опыта специалистов высокой квалификации в данной ПрО с целью их последующего многократного использования специалистами менее высокой квалификации в той же ПрО при решении возникающих перед ними проблем.
Знания экспертов извлекаются, представляются в формализованном виде (чаще всего - в виде правил) и сохраняются в базе знаний (БЗ).

Слайд 41

Экспертная система — компьютерная программа, способная заменить специалиста-эксперта в решении проблемной ситуации.
Экспертная

Экспертная система — компьютерная программа, способная заменить специалиста-эксперта в решении проблемной ситуации.
система — это программный комплекс, аккумулирующий знания специалистов в конкретной предметной области и тиражирующий этот эмпирический опыт для консультаций менее квалифицированных пользователей.

Слайд 42

Экспертная система – компьютерная система, использующая знания одного или нескольких экспертов (представленные

Экспертная система – компьютерная система, использующая знания одного или нескольких экспертов (представленные
в некотором формальном виде), а также логику принятия решения человеком-экспертом в трудно- или неформализуемых задачах.
ЭС способна в сложной ситуации (при недостатке времени, информации или опыта) дать квалифицированную консультацию (совет, подсказку), помогающую специалисту или менеджеру принять обоснованное решение.

Слайд 43

Основные характеристики ЭС:
Используют эвристические, субъективные знания экспертов в определенной ПрО. Знания отделены

Основные характеристики ЭС: Используют эвристические, субъективные знания экспертов в определенной ПрО. Знания
от данных.
Предназначены для решения слабоформализованных, нетривиальных задач, исключающих возможность полного перебора.
Используют эвристический поиск решения (а не исполнение известного алгоритма).
В основном используют символьный (а не числовой) способ представления и символьный вывод.

Слайд 44

Решения ЭС обладают "прозрачностью", т.е. могут быть объяснены пользователю на качественном уровне

Решения ЭС обладают "прозрачностью", т.е. могут быть объяснены пользователю на качественном уровне
(способны объяснить, как было принято решение, показать цепочку рассуждений).
Способны пополнять свои знания в ходе взаимодействия с экспертом.
Эвристики не гарантируют получения оптимального результата с такой же уверенностью, как обычные алгоритмы. Однако часто они дают в достаточной степени приемлемые решения для практического применения => могут быть использованы в качестве советующих систем.

Слайд 45

Преимущества ЭС перед человеком-экспертом:
у них нет предубеждений и они устойчивы к

Преимущества ЭС перед человеком-экспертом: у них нет предубеждений и они устойчивы к
различным помехам;
они не делают поспешных выводов;
эти системы выдают не первое нашедшееся, а оптимальное (по определенным критериям) решение;
БЗ может быть очень большой. Введенные в машину один раз, знания сохраняются навсегда. Человек же имеет ограниченную БЗ, и если данные долгое время не используются, то они забываются и навсегда теряются.

Слайд 46

База знаний

Интерфейс пользователя

Подсистема логического вывода

Подсистема объяснений

Подсистема приобретения знаний

База данных (раб. память)

Основные компоненты

База знаний Интерфейс пользователя Подсистема логического вывода Подсистема объяснений Подсистема приобретения знаний
ЭС:

Слайд 47

База знаний (БЗ) предназначена для хранения экспертных знаний о ПрО, используемых при

База знаний (БЗ) предназначена для хранения экспертных знаний о ПрО, используемых при
решении задач экспертной системой.
Чаще всего для представления знаний в ЭС используются системы продукций и семантические сети.
Допустим, БЗ состоит из фактов и правил (если <посылка> то <заключение>). Если ЭС определяет, что посылка верна, то правило признается подходящим и оно запускается в действие. Запуск правила означает принятие заключения данного правила в качестве составной части процесса консультации. Др. словами – на след. слайде.

Слайд 48

Организация БЗ на основе системы продукций (если…, то…):
БЗ – совокупность правил («клише»),

Организация БЗ на основе системы продукций (если…, то…): БЗ – совокупность правил
позволяющих на основе известных фактов делать выводы относительно фактов пока неизвестных: «если факт1 и факт2, то факт3»
Правила «если…, то…» могут быть связаны др. с др.: «если факт1 и факт2, то факт3» «если факт3 и факт4 и факт5, то факт6»
В процессе решения факты, получаемые от пользователя, проверяются на соответствие имеющимся в БЗ «клише».

Слайд 49

База данных часто используется для временного хранения фактов или гипотез, являющихся промежуточными

База данных часто используется для временного хранения фактов или гипотез, являющихся промежуточными
решениями или результатом общения ЭС с пользователем.
Машина логического вывода – механизм рассуждений, оперирующий знаниями и данными с целью получения новых данных из знаний и других данных, имеющихся в рабочей памяти. Для этого обычно используется программно реализованный механизм дедуктивного логического вывода (прямого, обратного, комбинированного) или механизм поиска решения в сети фреймов или семантической сети.

Слайд 50

Интерфейс пользователя служит для ведения диалога с пользователем, в ходе которого ЭС

Интерфейс пользователя служит для ведения диалога с пользователем, в ходе которого ЭС
запрашивает у пользователя необходимые факты для процесса рассуждения и дает возможность в какой-то степени корректировать ход рассуждений ЭС.
Подсистема объяснений поясняет, как система получила решение задачи (или почему она не получила решение) и какие знания она при этом использовала, что повышает доверие пользователя к полученному результату, дает ему возможность контролировать ход рассуждений и, может быть, учиться у ЭС.

Слайд 51

Подсистема приобретения знаний служит для корректировки и пополнения базы знаний. В простейшем

Подсистема приобретения знаний служит для корректировки и пополнения базы знаний. В простейшем
случае это - интеллектуальный редактор БЗ, в более сложных ЭС - средства для извлечения знаний из баз данных, неструктурированного текста, графической информации и т.д.

Слайд 52

Среди инструментальных средств для создания ЭС наиболее популярны такие языки программирования, как

Среди инструментальных средств для создания ЭС наиболее популярны такие языки программирования, как
LISP и PROLOG, а также экспертные системы-оболочки (ЭСО): KEE, CENTAUR, G2 и GDA, CLIPS и др.
Архитектуры конкретных ЭС зависят от классов задач и областей деятельности, для которых они создаются.

Слайд 53

Основные классы задач, решаемых экспертными системами:
диагностика,
прогнозирование,
идентификация,
управление (в том числе - ТП),
проектирование,
мониторинг,
планирование,
обучение,
поддержка

Основные классы задач, решаемых экспертными системами: диагностика, прогнозирование, идентификация, управление (в том
принятия решений.

Слайд 54

Области деятельности, где используются экспертные системы:
медицина,
вычислительная техника,
военное дело,
микроэлектроника,

Области деятельности, где используются экспертные системы: медицина, вычислительная техника, военное дело, микроэлектроника,

радиоэлектроника,
юриспруденция,
экономика,
экология,
геология (поиск полезных ископаемых),
математика.

Слайд 55

Примеры широко известных ЭС:

DENDRAL – разработана в Стэндфордском ун-те в сер. 60-х

Примеры широко известных ЭС: DENDRAL – разработана в Стэндфордском ун-те в сер.
годов для распознавания структуры сложных органических молекул по результатам их спектрального анализа (считается первой в мире экспертной системой).
PROSPECTOR – разработана в Стэндфордском ун-те в 1974-1983 годах для оценки геологами потенциальной рудоносности района. Содержит > 1000 правил. Сравнивает наблюдения геологов с моделями разного рода залежей руд. В 1984 году точно предсказала существование молибденового месторождения, оцененного в многомиллионную сумму.

Слайд 56

MYCIN - разработана в Стэндфордском университете в середине 70-х годов для диагностики

MYCIN - разработана в Стэндфордском университете в середине 70-х годов для диагностики
и лечения инфекционных заболеваний .
MYCIN в настоящее время используется для обучения врачей.
MOLGEN - ЭС для выработки гипотез о структуре ДНК на основе экспериментов с ферментами.
PUFF - ЭС диагностики легочных заболеваний.
POMME - ЭС для выдачи рекомендаций по уходу за яблоневым садом.

Слайд 57

Контрольные вопросы:

Сущность и назначение Data Mining.
Основные отличия Data Mining от OLAP.
Сущность и

Контрольные вопросы: Сущность и назначение Data Mining. Основные отличия Data Mining от
назначение Экспертных систем.
Основные компоненты Экспертной системы.

Слайд 58

Технологии управления знаниями

Понятие «управление знаниями» (УЗ) появилось в середине 90-х годов в

Технологии управления знаниями Понятие «управление знаниями» (УЗ) появилось в середине 90-х годов
крупных корпорациях, для которых проблемы обработки информации приобрели особую остроту и стали критическими.
Стало очевидным, что основным узким местом является работа (сохранение, поиск, тиражирование) со знаниями, накопленными специалистами компании, так как именно знания обеспечивают преимущество перед конкурентами.

Слайд 59

«Управление знаниями» можно рассматривать и как новое направление в менеджменте, и как

«Управление знаниями» можно рассматривать и как новое направление в менеджменте, и как
направление в информатике для поддержки процессов создания, распространения, обработки и использования знаний внутри предприятия.
УЗ – систематический процесс создания и преобразования индивидуального и группового, научного и практического опыта таким образом, чтобы знания могли быть перенесены в процессы, услуги и продукты, предлагаемые организацией с тем, чтобы увеличивалась их общая стоимость, а => и совокупная продуктивность организации .

Слайд 60

Двойственность понятия «управление знаниями»

Двойственность понятия «управление знаниями»

Слайд 61

Новизна концепции УЗ заключается в принципиально новой задаче – копить не только

Новизна концепции УЗ заключается в принципиально новой задаче – копить не только
разрозненную информацию, бумаги, графики, файлы, но и знания, т.е. закономерности и принципы, позволяющие решать реальные производственные и бизнес-задачи.
При этом в расчет берутся и те знания, которые «невидимы» – они хранятся в памяти специалистов, а не на материальных носителях => разделение на явные и неявные знания.

Слайд 62

Понятие «знания» трактуется в УЗ очень широко. Под знаниями скорее понимаются информационно-знаниевые

Понятие «знания» трактуется в УЗ очень широко. Под знаниями скорее понимаются информационно-знаниевые
ресурсы.
Знания м.б. явными и неявными
Явные знания – объективно хранимые знания в форме явных лингвистических выражений и артефактов (документов, файлов, БД, сообщений эл. почты и т.д.)
Неявные знания – ментально хранимые знания индивидуумов и групп (хранятся в головах специалистов и экспертов)

Слайд 63

Ключ к УЗ - доставка нужных знаний нужным людям в нужное для

Ключ к УЗ - доставка нужных знаний нужным людям в нужное для
эффективной реализации бизнес-процессов время.
На пути эффективного накопления, распространения, совместного и повторного использования знаний возникает ряд естественных барьеров:

Слайд 64

Для преодоления перечисленных барьеров и достижения целей УЗ предназначены корпоративные системы управления

Для преодоления перечисленных барьеров и достижения целей УЗ предназначены корпоративные системы управления
знаниями (СУЗ), к-рые должны обеспечивать:
систематизированное описание, классификацию и агрегацию знаний;
фиксацию и хранение явных и неявных знаний;
накопление и обновление знаний, доступ к ним работников компании со своих раб. мест;
распространение знаний в соответствии с регламентом (кому, что, когда) и по запросам;
разведку знаний, семантический поиск и навигацию по знаниям;

Слайд 65

широкий спектр средств (среду) для профессионального общения и обмена знаниями между специалистами,

широкий спектр средств (среду) для профессионального общения и обмена знаниями между специалистами,
экспертами, командами, проектными группами и сообществами по интересам;
язык профессионального общения (состоящий из терминов, понятий, связей и отношений между ними, соединяющий с помощью метаописаний информационные ресурсы с понятиями онтологии предметной области)
поддержку процесса принятия решений;
и др.

Слайд 66

В СУЗ интегрируются разнообразные технологии:
электронная почта и Интернет-ресурсы;
системы управления базами данных (СУБД)

В СУЗ интегрируются разнообразные технологии: электронная почта и Интернет-ресурсы; системы управления базами
и сами базы данных (БД);
средства создания хранилищ данных (Data Warehousing);
системы поддержки групповой работы;
локальные корпоративные системы автоматизации;
системы документооборота и workflow;
порталы знаний, экспертные системы и др.

Слайд 67

СУЗ существенно отличается от ИС организации:
Предназначение ИС – эффективное хранение, обработка и

СУЗ существенно отличается от ИС организации: Предназначение ИС – эффективное хранение, обработка
предоставление пользователям по регламенту или запросу искомой информации.
Предназначение СУЗ – увеличение объема и повышение уровня использования знаний организации за счет их эффективного поиска и фильтрации, включения в коллективную память компании профессиональных знаний и опыта, в том числе хранящегося в головах специалистов.

Слайд 68

Ввиду относительной новизны проблематики, представления о структуре и составе элементов СУЗ не

Ввиду относительной новизны проблематики, представления о структуре и составе элементов СУЗ не
являются устоявшимся.
По одной из точек зрения СУЗ можно рассматривать как некоторую надстройку над современной ИС компании, развивающую ее функциональность не только в количественном, но и в качественном отношении.
Вариант архитектуры такой надстройки приведен на след. рисунке

Слайд 69

Концептуальная архитектура системы SEAL

Концептуальная архитектура системы SEAL

Слайд 70

Модели представления знаний
Существует множество обстоятельств, которые затрудняют распространение и обмен знаниями между

Модели представления знаний Существует множество обстоятельств, которые затрудняют распространение и обмен знаниями
людьми.
Дело не только в том, что люди думают, говорят и пишут на разных языках.
Многие проблемы связаны с неоднозначным или неадекватным восприятием смысла данных, информации, знаний различными участниками знаниевого процесса.
В цепи передачи знаний (см. рис) отправитель и получатель знания зачастую пользуются различными представлениями, различной терминологией и понятийным аппаратом.

Слайд 72

Например, много неструктурированных и полуструктурированных информационных источников доступно в сети Web и

Например, много неструктурированных и полуструктурированных информационных источников доступно в сети Web и
на различных корпоративных порталах, основное содержание которых представлено на естественном языке в формате HTML.
Эта информация не понимается Машиной => проблемы при поиске необход. информации.
Поэтому информация и знания д.б. структурированы и описаны так, чтобы получатель (пользователь) был способен понять и текст, и контекст (смысл) сообщения.
В идеале сообщение д.б «понятно» компьютеру, а не только человеку.

Слайд 73

Описанием знаний уже давно занимается дисциплина «Искусственный интеллект» (ИИ), (такие ее разделы,

Описанием знаний уже давно занимается дисциплина «Искусственный интеллект» (ИИ), (такие ее разделы,
как «Представление знаний» и «Инженерия знаний»)
У ИИ и УЗ общий объект исследования - знания, но цели его исследования в этих дисциплинах разные:
Цель ИИ заключается в создании моделей и методов работы со знаниями, которые позволят их использовать без участия (или почти без участия) человека
Люггер Д.Ф., 2003: «ИИ можно определить как область компьютерной науки, занимающейся автоматизацией разумного поведения»

Слайд 74

Целью УЗ является организация эффективной работы со знаниями (повышение эффективности процессов преобразования

Целью УЗ является организация эффективной работы со знаниями (повышение эффективности процессов преобразования
знаний на предприятии, создание, сбор, накопление, распространение, использование), при этом использование знаний выполняет человек, сотрудник организации.
УЗ направлено на повышение эффективности создания, хранения и использования знаний, но не на замену человека компьютером.
Наоборот, в УЗ считается, что единственным источником новых знаний и основным их потребителем является человек (специалист).

Слайд 75

В настоящее время существуют и развиваются разные методы представления и описания знаний,

В настоящее время существуют и развиваются разные методы представления и описания знаний,
такие, как:
продукционные модели,
семантические сети,
фреймы,
онтологии.

Слайд 76

Продукционная модель или модель, основанная на правилах, позволяет представлять знания в виде

Продукционная модель или модель, основанная на правилах, позволяет представлять знания в виде
предположения типа «if - then»: если (условие), то (действие).
Под «условием» понимается некоторое предложение - образец, по которому осуществляется поиск в базе знаний, а под «действием» - выполняемые в результате успешного поиска действия.
Продукционные модели чаще всего применяются в промышленных экспертных системах при фиксации совокупности правил поведения персонала в некотором множестве ситуаций.

Слайд 77

Семантическая сеть («смысловая» сеть)
Семантика - это наука, устанавливающая отношения между символами и

Семантическая сеть («смысловая» сеть) Семантика - это наука, устанавливающая отношения между символами
объектами, которые они обозначают. Иначе говоря, семантика - это наука, определяющая смысл знаков.
По своей структуре семантическая сеть – это ориентированный граф, вершины которого - понятия, а дуги - отношения между ними.
Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений между понятиями

Слайд 78

Следует различать понятия «Семантическая сеть» (англ. Semantic Network) и «Семантическая паутина» (англ.

Следует различать понятия «Семантическая сеть» (англ. Semantic Network) и «Семантическая паутина» (англ.
Semantic Web).
Компьютерные семантические сети были разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу.
Процесс машинного перевода подразделялся на 2 части: перевод исходного текста в промежуточную форму представления, которая затем транслируется на нужный язык. Такой промежуточной формой как раз и были семантические сети.

Слайд 79

Чаще всего в семантических сетях используются следующие отношения:
Родо-видовое отношение (транспортное средство –

Чаще всего в семантических сетях используются следующие отношения: Родо-видовое отношение (транспортное средство
автомобиль)
Часть — целое (компьютер состоит из системного блока, монитора, клавиатуры, мыши и т. д.)
Синонимия/антонимия (Луна и месяц / плохой и хороший)
функциональные связи (определяемые обычно глаголами «производит», «влияет»…);
количественные (больше, меньше, равно…);

Слайд 80

пространственные (далеко от, близко от, за, под, над…);
временные (раньше, позже, в течение…);
атрибутивные

пространственные (далеко от, близко от, за, под, над…); временные (раньше, позже, в
(иметь свойство, иметь значение);
логические (И, ИЛИ, НЕ);
лингвистические и др.
Примеры СС:
классификации организмов (людей, растений, животных) – (отношения «род – вид»)
Сеть фотокарт сделанных из космоса (узлы, связанные отношениями смежности в простр-ве и «целое-часть»)

Слайд 81

СС, отражающая взаимоотношения между атрибутами птицы и самолета

СС, отражающая взаимоотношения между атрибутами птицы и самолета

Слайд 82

Классификации семантических сетей (по Гавриловой)
По количеству типов отношений:
Однородные (с единственным типом отношений).
Неоднородные

Классификации семантических сетей (по Гавриловой) По количеству типов отношений: Однородные (с единственным
(с различными типами отношений).
По типам отношений:
Бинарные (в которых отношения связывают два объекта)
N-арные (в которых есть специальные отношения связывающие более двух обьектов)

Слайд 83

Семантическая паутина (Semantic Web)
Концепция организации гипертекста напоминает однородную бинарную СС (страницы –

Семантическая паутина (Semantic Web) Концепция организации гипертекста напоминает однородную бинарную СС (страницы
узлы, а гиперссылки - отношения),
Но связь, осуществляемая гиперссылкой, не имеет семантики (не описывает смысла связи)
Попытка создания СС на основе WWW получила название семантической паутины.
Эта концепция подразумевает использование языка RDF (подмножества XML) и призвана придать ссылкам некий смысл, понятный КС. Это позволит превратить Интернет в распределённую БЗ глобального масштаба.
См. Тим Бернерс-Ли, Джеймс Хендлер, Ора Лассила. Семантическая паутина

Слайд 84

Фрейм (от англ. frame - каркас, рамка)
Это абстрактный образ для представления

Фрейм (от англ. frame - каркас, рамка) Это абстрактный образ для представления
некоторого стереотипа восприятия.
По существу, фрейм - это некоторый абстрактный обобщенный образ совокупности объектов.
Например, фрейм «комната» порождает у человека образ жилого помещения с четырьмя стенами, полом, потолком, окнами и дверью.
Фрейм м.б. представлен следующим образом:

Слайд 85

Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие знаний о

Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие знаний о
мире через:
фреймы-структуры, использующиеся для обозначения объектов и понятий (заем, залог, вексель);
фреймы-роли (менеджер, кассир, клиент);
фреймы-сценарии (банкротство, собрание акционеров, празднование именин);
фреймы-ситуации (тревога, авария, рабочий режим устройства) и др.

Слайд 86

В качестве значения слота может выступать имя другого фрейма, так образуются сети

В качестве значения слота может выступать имя другого фрейма, так образуются сети
фреймов.
Существует несколько способов получения слотом значений во фрейме-экземпляре:
по умолчанию от фрейма-образца (Default-значение);
через наследование свойств от фрейма, указанного в слоте АКО;
по формуле, указанной в слоте;
через присоединенную процедуру;
явно из диалога с пользователем;
из базы данных.

Слайд 87

Важнейшим свойством теории фреймов является наследование свойств (из СС).
Наследование происходит по

Важнейшим свойством теории фреймов является наследование свойств (из СС). Наследование происходит по АКО-связям (A-Kind-Of = это)
АКО-связям (A-Kind-Of = это)

Слайд 88

Онтология
В последние десятилетия онтологии рассматриваются в качестве наиболее перспективной модели представления знаний
Термин

Онтология В последние десятилетия онтологии рассматриваются в качестве наиболее перспективной модели представления
заимствован из философии:
Онтология (от древнегреч. онтос - сущее, логос - учение, понятие) – термин, определяющий учение о сущем, бытии, в отличие от гносеологии — учении о познании.
В философском смысле онтология есть определенная система категорий, являющихся следствием определенных взглядов на мир.

Слайд 89

Онтология – это формальное, явное, точное определение (спецификация) совместно используемой концептуализации (Gruber

Онтология – это формальное, явное, точное определение (спецификация) совместно используемой концептуализации (Gruber
T.A., 1995)
Концептуализация – абстрактное упрощенное представление мира для некоторых целей.
Явл. точным определением - представляет концептуализацию в конкретной форме.
явное – все используемые в ней ограничения явно определены.
формальное – онтология должна пониматься машиной.
совместно используемая – содержит согласованные знания.

Слайд 90

Рабочее и более приближенное к УЗ определение [Гаврилова Т.А., Хорошевский]:
Онтологии -

Рабочее и более приближенное к УЗ определение [Гаврилова Т.А., Хорошевский]: Онтологии -
это базы знаний специального типа, которые могут «читаться» и пониматься, отчуждаться от их разработчика и/или физически разделяться их пользователями.
Онтология состоит из терминов, организованных в таксономию (иерархию), их определений, атрибутов, а также связанных с ними аксиом и правил вывода.
Онтология соединяет человеческое и компьютерное понимание символов. Эти символы (термины) могут интерпретироваться как людьми, так и машинами.

Слайд 91

Формальная модель онтологии
Под формальной моделью онтологии О будем понимать упорядоченную тройку вида:
О

Формальная модель онтологии Под формальной моделью онтологии О будем понимать упорядоченную тройку
= < C, R, F >, где:
C — конечное множество концептов (понятий, терминов) предметной области, которую представляет онтология О;
R — конечное множество отношений между концептами (понятиями, терминами) заданной предметной области;
F — конечное множество функций интерпретации (аксиоматизация), заданных на концептах и/или отношениях онтологии О.

Слайд 92

Некоторые граничные случаи:
Пусть R = Ø и F = Ø => онтология

Некоторые граничные случаи: Пусть R = Ø и F = Ø =>
О трансформируется в простой словарь:
O = V =
Пусть R = Ø и F ≠ Ø, а функция интерпретации f задается оператором присваивания значений (С1 := С2) => пассивный словарь:
O = Vp =
Пусть R ≠ Ø, R = {is-a} => простая таксономия:
О = Т° = <С, {is-a}, {}>.
Имя файла: OLTP-и-OLAP.pptx
Количество просмотров: 321
Количество скачиваний: 2