Введение в Data Science и Machine Learning

Содержание

Слайд 2

Обзор

Общие рассуждения:
-интеллект; -свойство разумности; -отличие машинного обучения от обычного программирования.
Намеки на базовые понятия:
-типы задач

Обзор Общие рассуждения: -интеллект; -свойство разумности; -отличие машинного обучения от обычного программирования.
и методы обучения; -методы обучения.
Основные “школы познания”.:
-символисты; -коннекционисты; -эволюционисты; -байесианцы; -аналогисты.

Слайд 3

Общие рассуждения

Общие рассуждения

Слайд 4

Интеллект и разум

Интеллект и
Это способность воспринимать информацию и сохранять ее в качестве знания

Интеллект и разум Интеллект и Это способность воспринимать информацию и сохранять ее
для построения адаптивного поведения в среде или контексте.
Основная задача - “проложить путь” к “мишени” указанной механизмами целеполагания

Разумность
Восприятие
Целеполагание
Построение алгоритма действия для достижения цели

Слайд 5

Ford Mark 1 - cистема управления огнем (ВМС США)

Интеллектуальные свойства
Принимал данные

Ford Mark 1 - cистема управления огнем (ВМС США) Интеллектуальные свойства Принимал
о курсах и положении кораблей, а также метеоданные
Проводил баллистические вычисления
Выдавал параметры стрельбы на орудия

Слайд 6

Отличие машинного обучения от обычного программирования

Обычное программирование
Главная задача программиста - самому

Отличие машинного обучения от обычного программирования Обычное программирование Главная задача программиста -
в ручную прописать все правила, которыми будет руководствоваться система в своем поведении и отладить их.

Машинное обучение
на основании имеющихся данных(примеров решения данной задачи) подобрать метод обучения и подходящий алгоритм, обучить его и проверить на тестовых данных. То есть машина сама напишет себе программу по примерам из данных.

Слайд 7

Намеки на базовые понятия

Намеки на базовые понятия

Слайд 8

На примерах Распознавание цифр относят к задаче классификации обучение с учителем. То

На примерах Распознавание цифр относят к задаче классификации обучение с учителем. То
есть имеем тренировочный набор рукописных циф, в котором каждая цифра соответствует своему класс и роль учителя заключается в том, что он соотнес каждому изображению цифры ее класс. Программа генерации лиц представляет собой отработку метода анализа принципиальных компонент (PCA) обучения без учителя на чьем-то наборе студенческих фотографий. То есть автор “скормил” компьютеру набор фото студентов и попросил его разложить их самому по 80ти “полочкам”. Первое что бросилось в глаза методу - цвет футболки.

Типы задач и методы обучения

Слайд 9

CRISP-DM Стандартизованный жизненный цикл систем интеллектуальной обработки данных

CRISP-DM Стандартизованный жизненный цикл систем интеллектуальной обработки данных

Слайд 10

Какие бы задачи не решались методами машинного обучения, они проходят через 3

Какие бы задачи не решались методами машинного обучения, они проходят через 3
стадии: -представление; -оценка; -оптимизация

Оптимизационный метод “градиентный спуск” оценивает данные представленные моделью по косвенной “функции ошибок” и выдает информацию о том, как изменить модель так, чтобы функция ошибок спустилась в тот минимум, который нас устроит.

Слайд 11

Школы познания

Школы познания

Слайд 12

05.09.XX

Символисты

Получают знание применяя различные математические методы к известному аксиоматическому базису. Основное допущение -

05.09.XX Символисты Получают знание применяя различные математические методы к известному аксиоматическому базису.
равнозначность явления и символа его обозначающего.

Слайд 13

05.09.XX

Стадии Браге, Кеплера и Ньютона

Тихо Браге значительную часть жизни собирал астрономические данные

05.09.XX Стадии Браге, Кеплера и Ньютона Тихо Браге значительную часть жизни собирал
достаточной точности о движении планет

Слайд 14

05.09.XX

Кеплер находит математические закономерности в данных Браге

05.09.XX Кеплер находит математические закономерности в данных Браге

Слайд 15

05.09.XX

Ньютон на основании найденных Кеплером закономерностей выводит известный аксиоматический базис

05.09.XX Ньютон на основании найденных Кеплером закономерностей выводит известный аксиоматический базис

Слайд 16

Основные методы: обратная дедукция и решающие деревья

Основные методы: обратная дедукция и решающие деревья

Слайд 17

Коннекционисты

Эта школа вдохновляется данными о том как работает мозг. Как он строит

Коннекционисты Эта школа вдохновляется данными о том как работает мозг. Как он
знание в реальных условиях

Перцептрон

Слайд 18

Многослойный Перцептрон Нейронная сеть хранит знание в связях между нейронами

Многослойный Перцептрон Нейронная сеть хранит знание в связях между нейронами

Слайд 19

Основной метод построения знания в нейронных сетях, позволяющий на основе знания о

Основной метод построения знания в нейронных сетях, позволяющий на основе знания о
том, как сильно ошиблась модель перестраивать все веса модели начиная с выходного

Обратное распространение ошибки

Слайд 20

Эволюционисты

Эволюция, как метод получения нового знания берет свои истоки из наблюдений за

Эволюционисты Эволюция, как метод получения нового знания берет свои истоки из наблюдений
развитием живого. В частности за тем, как человек сам стал влиять на развитие организмов его окружающих. Агрокультура издавна отбирала растения с самыми вкусными плодами, овец - с самой длинной шерстью. Одомашненные кошки, собаки, рыбки, кролики, попугаи и прочее также следствие эволюции с рукотворным отбором.

Слайд 21

Эволюционисты рассматривают программы (алгоритм), как набор обращений к подпрограммам. Для решения конкретной задач

Эволюционисты рассматривают программы (алгоритм), как набор обращений к подпрограммам. Для решения конкретной
они создают популяции программ и оценивают их способность к решению данной задачи с помощью функции приспособленности. Отобрав лучшие версии программ они “скрещивают” их в случайных местах вызовов подпрограмм и таким образом получают новую популяцию для следующей эпохи отбора.

Слайд 22

Сильнейшей стороной эволюционных алгоритмов является широчайший охват “пространства гипотез”, в котором каждая

Сильнейшей стороной эволюционных алгоритмов является широчайший охват “пространства гипотез”, в котором каждая
версия алгоритма прорабатывает свою версию ответа. Также следует отметить взаимосвязь эволюции и коннекционизма. Эволюционный рост ассоциативных зон коры головного мозга основан на нейронном обучении в сенсорных зонах - без этого он был бы бесполезен. Эволюция усиливает в потомках те свойства, что в наибольшей мере помогли предкам выжить и размножиться..

Слайд 23

Байесианцы

Томас Байес(1702-1761) - британский математик, священник, член лондонского королевского общества. Сформулировал правило обновления

Байесианцы Томас Байес(1702-1761) - британский математик, священник, член лондонского королевского общества. Сформулировал
уровня доверия к гипотезе при получении новых свидетельств. Сама теорема была опубликована Лапласом спустя 10 лет после смерти Байеса, т.к. он посчитал ее недостойной публикации, но к счастью оставил ее в своих записях.

Слайд 24

Проиллюстрируем работу теоремы на примере диагностики заболеваний. Известно: Тест на болезнь дает верный результат

Проиллюстрируем работу теоремы на примере диагностики заболеваний. Известно: Тест на болезнь дает
в 99% случаях заболеваний и дает ложноположительный результат в 1% случаев. P(A)Распространенность заболевания - 0,1% среди всего населения (приорная вероятность) P(B|A) - вероятность положительного теста при болезни P(B) - вероятноcть положительного срабатывания теста = [P(A)*P(B|A)+P(-H)*P(E|-H)] Тогда P(A|B) - вероятность болезни в случае положительного теста составит примерно 9%. Неочевидность результата объясняется игрой вероятностей - из 1000 человек будет болен 1 и тест это покажет(на 99%), но так же тест даст ложноположительное срабатывание для 10 человек, т.е. в результате тест из 1000 раз сработает 11 и только 1 из них будет болен, что и соответствует вероятности в 9%

Слайд 25

Аналогисты

Рассуждения по аналогии - древнейший метод построения знания. Первое упоминание относят к Аристотелю

Аналогисты Рассуждения по аналогии - древнейший метод построения знания. Первое упоминание относят
и его закону подобия “если две вещи схожи, мысль об одной из них будет склонна вызывать мысль о другой.”

Слайд 26

Метод ближайших соседей

Джон Сноу — серьёзная вспышка эпидемии холеры, случившаяся в 1854

Метод ближайших соседей Джон Сноу — серьёзная вспышка эпидемии холеры, случившаяся в
году в Лондоне. Событие вошло в историю благодаря методичным действиям доктора Джона Сноу выявившего источник эпидемии — загрязнённую воду из водозаброной колонки. Исследование Сноу послужило толчком к развитию эпидемиологии и совершенствованию систем водоснабжения и канализации.

Слайд 27

Метод опорных векторов созданный Владимиром Вапником сотрудником Bell Labs в 1994м году

Метод опорных векторов созданный Владимиром Вапником сотрудником Bell Labs в 1994м году
решает задачу разделения классов “проводя аналогии” и секущие гиперплоскости из n+1 мерного пространства