Обзор применения Data Mining с учетом специфики HR-организаций

Содержание

Слайд 2

О компании

Компания spellabs работает с 2004 года
Основные интересы и компетенции:

Разработка корпоративных

О компании Компания spellabs работает с 2004 года Основные интересы и компетенции:
портальных решений
Внедрение систем и методологии анализа данных

Слайд 3

План доклада
Data Mining: общее понятие
Задачи Data Mining и обзор алгоритмов
Сценарий: выявление

План доклада Data Mining: общее понятие Задачи Data Mining и обзор алгоритмов
факторов влияния
Сценарий: исследование навигации на сайте

Слайд 4

Data Mining: общее понятие

Data Mining: общее понятие

Слайд 5

Data Mining – это процесс анализа данных с целью выявления в них

Data Mining – это процесс анализа данных с целью выявления в них
скрытых закономерностей с помощью автоматических методик.

Data Mining

Слайд 6

Применение

Выдача рекомендаций
Выявление аномалий
Анализ оттока клиентов
Управление рисками
Сегментация клиентов
Целевая реклама
Прогнозирование

Применение Выдача рекомендаций Выявление аномалий Анализ оттока клиентов Управление рисками Сегментация клиентов Целевая реклама Прогнозирование

Слайд 7

Задачи Data Mining

Задачи Data Mining

Слайд 8

Классы задач

Описательный анализ
Профиль идеального соискателя
Анализ закономерностей карьерных лестниц
Взаимосвязь информации в резюме
Предиктивный анализ
Анализ

Классы задач Описательный анализ Профиль идеального соискателя Анализ закономерностей карьерных лестниц Взаимосвязь
рисков при приеме на работу
Прогнозирование спроса на вакансии
Предсказание вакансий, подходящих соискателю

Слайд 9

Классификация

Откликнется ли соискатель на вашу вакансию?
Что характерно для соискателя, откликающегося на определенные

Классификация Откликнется ли соискатель на вашу вакансию? Что характерно для соискателя, откликающегося
группы вакансий?

Рис. 1. Анализ желаемого дохода, и образования показал, что если человек не имеет профильного образования, то, скорее всего, он не пойдет работать программистом, а те, кто пойдут – захотят зарплату от 66 до 74 тысяч рублей.
Использован алгоритм Microsoft Decision Trees.

Слайд 10

Сегментация

Выявление особенностей естественных группировок резюме, вакансий, соискателей
Характеристика группировок невостребованных резюме и соискателей
Выявление

Сегментация Выявление особенностей естественных группировок резюме, вакансий, соискателей Характеристика группировок невостребованных резюме
скрытых, но репрезентативных групп пользователей

Рис.2. Анализ кластеров показал, что в данной отрасли имеется нехватка молодых специалистов, а москвичи совсем не склонны идти стажерами.
Применен алгоритм Microsoft Clustering.

Слайд 11

Анализ путей влияния

Влияние семейного положения на выбор профессии
Связь между образованием, доходом, и

Анализ путей влияния Влияние семейного положения на выбор профессии Связь между образованием,
местом проживания

Рис. 3. Граф взаимосвязей характеристик соискателя.
Использован алгоритм Microsoft Naïve Bayes.

Слайд 12

Прогнозирование

Прогноз спроса на специалистов
Прогноз с учетом сезонности
Прогнозирование динамики рынка вакансий с

Прогнозирование Прогноз спроса на специалистов Прогноз с учетом сезонности Прогнозирование динамики рынка
учетом его сегментов и взаимосвязей с другими отраслями

Рис.4. Анализ особенностей отрасли позволил предсказать динамику спроса на программистов на языках высокого уровня с учетом динамики спроса на программистов на двух видах ассемблера.
Использован алгоритм Microsoft Time Series.

Слайд 13

Ассоциативные правила

Выявление шаблонов карьерной лестницы
Каковы наборы предпочитаемых работодателей у начинающих специалистов различных

Ассоциативные правила Выявление шаблонов карьерной лестницы Каковы наборы предпочитаемых работодателей у начинающих
отраслей?
Рекомендации на основе имеющегося опыта работы и информации из резюме

Рис. 5. Анализ выявил тенденцию, что для соискателей с низким желаемым доходом не характерно желание стать программистами, при этом это решение не зависит от пола, но зависит от образования.
Применен алгоритм Microsoft Association Rules.

Слайд 14

Анализ цепочек последовательностей

Какова вероятность ухода с сайта после просмотра данной вакансии?
Куда пойдет соискатель

Анализ цепочек последовательностей Какова вероятность ухода с сайта после просмотра данной вакансии?
после просмотра страницы компании?
Какие сочетания страниц наиболее популярны для данного типа соискателей?

Рис.6. Анализ цепочек переходов на сайте неожиданно показал, что поведенческие мотивы программистов под Windows преобладают на сайте, и сильно отличаются от поведения других программистов, которые “растворяются” среди других категорий пользователей.
Применен алгоритм Microsoft Sequence Clustering.

Слайд 15

Сценарий: выявление факторов влияния

Сценарий: выявление факторов влияния

Слайд 16

Особенности сценария
Необходимость выявления взаимосвязей факторов
Визуализация в виде ациклического графа
Требуется независимость модели

Особенности сценария Необходимость выявления взаимосвязей факторов Визуализация в виде ациклического графа Требуется
от количества факторов
Высокие требования к быстродействию

Слайд 17

Решение: spellabs influence.maps

Рис. 7. Анализ анкет американских обывателей с помощью данного решения

Решение: spellabs influence.maps Рис. 7. Анализ анкет американских обывателей с помощью данного
показал, что со времен одноэтажной Америки кое-что изменилось.

Слайд 18

Преимущества решения

Автоматическое выявление факторов влияния
Сортировка факторов влияния по силе связи
Возможность ручной

Преимущества решения Автоматическое выявление факторов влияния Сортировка факторов влияния по силе связи
корректировки выявленных факторов и пересчета модели с учетом внесенных изменений
Полная реализация Байесовских сетей
Визуализация реализована на HTML5

Слайд 19

Сценарий: исследование навигации на сайте

Сценарий: исследование навигации на сайте

Слайд 20

Особенности решения
Выявление поведенческих шаблонов на сайте
Выявление частых сочетаний посещенных страниц в

Особенности решения Выявление поведенческих шаблонов на сайте Выявление частых сочетаний посещенных страниц
рамках пользовательских сессий
Кластеризация посетителей сайта
Высокие требования к быстродействию, возможность выполнения предсказания “на лету”

Слайд 21

Решение: spellabs web.usage mining

Рис. 8. Просмотр графа посещаемости внутри кластера посетителей сайта

Решение: spellabs web.usage mining Рис. 8. Просмотр графа посещаемости внутри кластера посетителей
spellabs.ru, с вероятностями переходов на другие страницы.

Слайд 22

Архитектура решения

Оперативная база
данных

HTTP – модуль

OLAP

Структуры анализа
данных

Пакет SQL Server
Integration Services

Сайт

Запросы

Архитектура решения Оперативная база данных HTTP – модуль OLAP Структуры анализа данных

Слайд 23

Преимущества решения
Возможность прогнозирования переходов в зависимости от поведения пользователя
Быстродействие предсказания
Выявление “проблемных”

Преимущества решения Возможность прогнозирования переходов в зависимости от поведения пользователя Быстродействие предсказания
страниц, после которых, например, посетитель уходит с сайта
Кластер пользователя определяется на основе его поведения, возможен учет персональной информации
Интегрированный в решение OLAP, позволяющий получить представление о посещениях страниц

Слайд 24

Ответы на вопросы

Ответы на вопросы
Имя файла: Обзор-применения-Data-Mining-с-учетом-специфики-HR-организаций.pptx
Количество просмотров: 140
Количество скачиваний: 0