Реальный мир и хорошие модели данных

Содержание

Слайд 2

Реальность и данные

Что есть в мире – как об этом записать в

Реальность и данные Что есть в мире – как об этом записать
компьютере
Модель данных
Структура
Смысл
«Хорошие» и «плохие модели»
Понимание человек-человек
Понимание человек-компьютер
Понимание компьютер-компьютер

Слайд 3

Как говорить о данных?

Метамодель – модель – данные
Языки метамоделирования
EXPRESS
EXPRESS-G
Текст
Английский
FOL
RDF/OWL (XML)
Нужна ли граница

Как говорить о данных? Метамодель – модель – данные Языки метамоделирования EXPRESS
«модель – данные»?

Слайд 4

Совершенный мир

Использована диаграмма FIATECH

Совершенный мир Использована диаграмма FIATECH

Слайд 5

Реальная жизнь

Использована диаграмма FIATECH

Реальная жизнь Использована диаграмма FIATECH

Слайд 6

Частное решение

Использована диаграмма FIATECH

Частное решение Использована диаграмма FIATECH

Слайд 7

Много частных решений

Использована диаграмма FIATECH

Много частных решений Использована диаграмма FIATECH

Слайд 8

Общий словарь

Использована диаграмма FIATECH

Общий словарь Использована диаграмма FIATECH

Слайд 9

«Хорошая» модель

Разделяемая
Понятная
Описывающая реальный мир
А какой мир «реален»?
Страшное слово – «онтология»

«Хорошая» модель Разделяемая Понятная Описывающая реальный мир А какой мир «реален»? Страшное слово – «онтология»

Слайд 10

Традиционные парадигмы моделирования данных

Традиционные парадигмы моделирования данных

Слайд 11

Предметы и атрибуты

Моя лампа # 1234

Красная

Твоя лампа # 5678

Зелёная

Предметы и атрибуты Моя лампа # 1234 Красная Твоя лампа # 5678 Зелёная

Слайд 12

Типы сущностей и атрибутов

Моя лампа # 1234

Красная

Твоя лампа # 5678

Зелёная

Лампа

Цвет

Типы сущностей и атрибутов Моя лампа # 1234 Красная Твоя лампа # 5678 Зелёная Лампа Цвет

Слайд 13

Проблема сущностей и атрибутов (1)

Продавец

Имя

Фамилия

Кладовщик

Имя

Фамилия

Проблема сущностей и атрибутов (1) Продавец Имя Фамилия Кладовщик Имя Фамилия

Слайд 14

Проблема сущностей и атрибутов (2)

Продавец

Имя

Фамилия

Кладовщик

Имя

Фамилия

Сотрудник

Фамилия

Кладовщик

Имя

Продавец

Да

Нет

Да

Нет

Проблема сущностей и атрибутов (2) Продавец Имя Фамилия Кладовщик Имя Фамилия Сотрудник

Слайд 15

Сущности в реальном мире

Сотрудник

Продавец

Кладовщик

Сущности в реальном мире Сотрудник Продавец Кладовщик

Слайд 16

Субстанциональный подход

Субстанциональный подход

Слайд 17

Аристотелева иерархия всего

Предметы

Одушевленные
предметы

Неодушевлённые
предметы

Машины

Лампы

Моя лампа # 1234

Цвет

Аристотелева иерархия всего Предметы Одушевленные предметы Неодушевлённые предметы Машины Лампы Моя лампа # 1234 Цвет

Слайд 18

Тег и серийный номер

Насос Bloggs 100H

Серийный номер 5755/A

C1

P101

C2

Тег

Установка первичной перегонки нефти

Использована диаграмма

Тег и серийный номер Насос Bloggs 100H Серийный номер 5755/A C1 P101
Matthew West

Слайд 19

Объект протяжён во времени

Наряду с настоящим, существуют и прошлое, и будущее

Индивиды расположены

Объект протяжён во времени Наряду с настоящим, существуют и прошлое, и будущее
как во времени, так и в пространстве , и имеют как темпоральные, так и пространственные части.
Если два индивида занимают одинаковую пространственно-временную область, они представляют собой одно и то же (экстенсионализм).

4D + экстенсионализм

Использована диаграмма Matthew West

Слайд 20

Пространственно-временная карта элемента системы

Насос 1

Насос 2

P101

время

пространство

Установка первичной перегонки нефти

элемент системы

Установленный на своё

Пространственно-временная карта элемента системы Насос 1 Насос 2 P101 время пространство Установка
место объект

Обычный физический объект

система

Использована диаграмма Matthew West

Слайд 21

перевод

Перевод

Перевод

перевод

Приложения
проектанты

Приложения
Поставщики

Приложения
технология

Приложения
Эксплуатация

ISO 15926 – «английский» для данных жизненного цикла

ISO 15926 определяет :
Терминологию
Классификацию
Стандарт взаимодействия

перевод Перевод Перевод перевод Приложения проектанты Приложения Поставщики Приложения технология Приложения Эксплуатация
софта

Слайд 22

Уменьшая неопределённость?

Доступ к данным и обмены работают лучше всего, когда неопределённость исключена

Уменьшая неопределённость? Доступ к данным и обмены работают лучше всего, когда неопределённость
из деловых интерфейсов.
Неопределённость между обменивающимися сторонами представляет риск, и может потребовать значительных усилий для решения.
Сем выше неопределённость тем выше риск и затраты на реализацию действенного и рационального обмена.
При появлении нового делового или технологического интерфейса могут появиться новые неопределённости, а затраты и риски – возникнуть вновь.
Неопределённость = (Повторить) Затраты и(или) Риск

Шкала неопределённости

Наименьшая
неопределённость

Высочайшая
неопределённость

Наименьшее
соответствие

Наивысшее
соответствие

ISO-15926

Слайд 23

15926 и объединённые справочные данные

Логическая организация справочных данных

ISO

PCA

Общественный
полигон

Частный
полигон

Чтение-Запись

Уровни стандартизации

Запросы на сертификацию

Объединённая
конструкция
из связанных
в

15926 и объединённые справочные данные Логическая организация справочных данных ISO PCA Общественный
интернете
библиотек

Неизменные
идентификаторы

Глобальный
справочник

Слайд 24

С 2004 года язык представления онтологий OWL рекомендован консорциумом W3C в качестве

С 2004 года язык представления онтологий OWL рекомендован консорциумом W3C в качестве
основного средства описания онтологий. Тем же консорциумом W3C рекомендован стандарт представления информации RDF, как основа компьютерного описания знаний о мире в проектах, призванных объединить накопленные в интернете знания в единый семантический интернет (Semantic Web).

Технологии представления знаний

Слайд 25

Триплет

N-Triple
Turtle
Сериализация в XML

Суть одна: каждое утверждение – это триплет (triple) вида:
subject predicate

Триплет N-Triple Turtle Сериализация в XML Суть одна: каждое утверждение – это
object

Слайд 26

RDF

Тройки
Направленный помеченный граф
URI – уникальные обозначения
Пространства имён
RDF Schema (RDFS)

RDF Тройки Направленный помеченный граф URI – уникальные обозначения Пространства имён RDF
– набор фиксированных элементов, могущих быть S,O,P
Форматы сериализации – XML, N3, Turtle

Слайд 27

Идентификация

Уникальные идентификаторы ресурсов: URI (Unified Resource Identificator)
Unicode – способ представления строк в

Идентификация Уникальные идентификаторы ресурсов: URI (Unified Resource Identificator) Unicode – способ представления
национальных кодировках (= нет привязки к латинице)
URI + поддержка Unicode в идентификаторах ресурсов = IRI: (International Resource Identificator)

Слайд 28

URI

URL – Uniform resource Locator

URN – Uniform Resource Name

http://www.amazon.com/Foundations-Semantic-Technologies-Textbooks-Computing/dp/142009050X

urn:isbn:978-1-4200-9050-5

Идентификатор конкретной книги по

URI URL – Uniform resource Locator URN – Uniform Resource Name http://www.amazon.com/Foundations-Semantic-Technologies-Textbooks-Computing/dp/142009050X
её адресу в он-лайн магазине Amazon

Идентификатор конкретной книги по ISBN (где находится сама книга - неизвестно)

is-a

is-a

Слайд 29

Итак, RDF

RDF – Resource Description Framework –
Среда описания ресурсов (в Сети)
Сеть

Итак, RDF RDF – Resource Description Framework – Среда описания ресурсов (в
моделируется как гиперграф (точнее, Giant Global Graph, GGG), вершинами которого являются ресурсы произвольной природы (в том числе, литералы), а дугами – связи (или ссылки) между ресурсами

Слайд 30

Пример RDF графа

http://posccaesar.org/rdl/RDS416834

http://rds.posccaesar.org/2008/02/OWL/ISO-15926-2_2003#ClassOfInanimatePhysicalObject

CENTRIFUGAL PUMP

RDS416834

http://www.w3.org/2000/01/rdf-schema#label

В описании дуг используются как специальные словари, созданные для

Пример RDF графа http://posccaesar.org/rdl/RDS416834 http://rds.posccaesar.org/2008/02/OWL/ISO-15926-2_2003#ClassOfInanimatePhysicalObject CENTRIFUGAL PUMP RDS416834 http://www.w3.org/2000/01/rdf-schema#label В описании дуг
моделей данных в промышленности ( https://www.posccaesar.org/wiki/Rds/ ), так и общие словари, например, словарь описания ресурсов в сети, RDF Schema

http://www.w3.org/2000/01/rdf-schema#label

http://www.w3.org/1999/02/22-rdf-syntax-ns#type

RDF литералы

RDF ресурсы

http://posccaesar.org/rdl/hasCreationDate

1999.07.01

Слайд 31

RDF на Turtle

@prefix part2 .
@prefix rdl .
@prefix rdfs .
@prefix rdf

RDF на Turtle @prefix part2 . @prefix rdl . @prefix rdfs .
.
@prefix lib
@prefix dc
rdl:RDS416834 rdl:hasIdPCA “RDS416834”.
rdl:RDS416834 rdl:hasCreationDate “1999.07.01”.
rdl:RDS416834 rdfs:label “CENTRIFUGAL PUMP”.
rdl:RDS416834 rdf:type part2:ClassOfInanimatePhysicalObject.

Символ « . » - конец трипла

Субъекты

Предикаты

Объекты

Слайд 32

RDF в XML


xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#”
xmlns:rdl=“http://posccaesar.org/rdl/”>

RDS416834
1999.07.01
CENTRIFUGAL PUMP


RDF в XML xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#” xmlns:rdl=“http://posccaesar.org/rdl/”> RDS416834 1999.07.01 CENTRIFUGAL PUMP

Слайд 33

Ещё более детальная типизация ресурсов: язык OWL

OWL = Web Ontology Language
Язык разработан

Ещё более детальная типизация ресурсов: язык OWL OWL = Web Ontology Language
для более детального описания групп ресурсов в сети
Разработан так, чтобы по исходной, частичной, классификации некоторой группы ресурсов можно было получить (с помощью логического машинного вывода!) полную классификацию этой группы ресурсов
Используется везде - в науке, в бизнес-приложениях, при описании ресурсов в Интернет (Web.2.0, Semantic Web, Web of Data...), когда нужно точно описать семантику ресурса

Стандартное пространство имён для OWL
xmlns:owl = “http://www.w3.org/2002/07/owl#”

Слайд 34

Что можно “сказать” в OWL по сравнению с RDF Schema

Что есть класс

Что можно “сказать” в OWL по сравнению с RDF Schema Что есть
ресурсов, к которому можно применить логический машинный вывод owl:Class
Два (или более класса) ресурсов
Эквивалентны owl:equivalentClass
Не имеют общих элементов owl:disjointWith
Объединяются/пересекаются в новый класс owl:unionOf / owl:intersectionOf
Данный класс ресурсов задаётся перечислением его экземпляров owl:oneOf
Объявить сложный безымянный класс owl:Restriction
Объявить, что объект связи (в трипле <субъект, предикат, объект>) должен быть непременно ресурсом (owl:objectProperty) или непременно литералом (owl:datatypeProperty)
Объявить, что количество ресурсов, участвующих в связи, равно (owl:cardinality), больше (owl:minCardinality) или меньше (owl:maxCardinality) определенного числа

Слайд 35

Специализация для CENTRIFUGAL PUMP: RDF-граф

rdl:RDS12960314

part2:Specialization

RDS12960314

rdl:hasIdPCA

rdf:type

rdl:RDS416834

rdl:RDS12957286

part2:hasSuperclass

CENTRIFUGAL PUMP

rdfs:label

part2:hasSubclass

CENTRIFUGAL SEWAGE PUMP

rdfs:label

Специализация для CENTRIFUGAL PUMP: RDF-граф rdl:RDS12960314 part2:Specialization RDS12960314 rdl:hasIdPCA rdf:type rdl:RDS416834 rdl:RDS12957286

Слайд 36

RDF хранилища

RDF triplestore (RDF хранилище, хранилище триплов) – база данных, (грубо) состоящая

RDF хранилища RDF triplestore (RDF хранилище, хранилище триплов) – база данных, (грубо)
из двух таблиц:
1) таблица целочисленных идентификаторов для всех используемых URI URI (Code int not null, URI uri)
2) таблица квадов
Quad (Graph int not null, Subject int not null,
Predicate int not null, Object any not null)
3) индексы GSPO, PGOS, OGPS, SPGS
4) view, связывающий таблицу квадов с таблицей идентификаторов URI и возвращающий квады в читабельном виде.
Т.е. хранятся не триплы, а квады (quads, “четвёрки”)!

По структуре триплстора благодарность Ивану Михайлову,
http://forum.semanticfuture.net/viewtopic.php?id=74

Слайд 37

SPARQL

SPARQL – это SPARQL Query Language for RDF – язык запросов для

SPARQL SPARQL – это SPARQL Query Language for RDF – язык запросов
RDF
Описан здесь
http://www.w3.org/TR/rdf-sparql-query/
Похож на SQL

Слайд 38

Compreno

AABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов на

Compreno AABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов
русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне.
JОбласть применения
●- Интеллектуальный корпоративный поиск
●- Автоматическое реферировании документов
●- Извлечение фактов из больших объемов информации
●- Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений
●- Другие приложения, включающие анализ текстов

Слайд 39

.15926 Editor: инструментарий ISO 15926

Система онтологического программирования: - просмотр, создание, поиск и преобразование

.15926 Editor: инструментарий ISO 15926 Система онтологического программирования: - просмотр, создание, поиск
данных в форматах стандарта ISO 15926;
- поддержка множественности неймспейсов, работа с серверами SPARQL;
- консоль онтологического программирования на языке Python; - распознавание онтологических паттернов;
Работа будет продолжаться в направлениях: - разработка адапторов для различных инженерных (и не только инженерных) применений;
- интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.).
Скачать с http://techinvestlab.ru/dot15926Editor/

*

Слайд 40

Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и

Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и
мокрый бокс" (ABBYY Compreno).

*

Слайд 41

Формирование справочных данных на основе онтологического разбора (.15926 Editor)

*

Формирование справочных данных на основе онтологического разбора (.15926 Editor) *

Слайд 42

Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для уменьшения отложения продуктов

Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для уменьшения отложения продуктов
коррозии и упрощения дезактивации" (ABBYY Compreno).

*

Слайд 43

Формирование справочных данных на основе онтологического разбора (.15926 Editor)

*

Формирование справочных данных на основе онтологического разбора (.15926 Editor) *
Имя файла: Реальный-мир-и-хорошие-модели-данных.pptx
Количество просмотров: 237
Количество скачиваний: 0