Содержание
- 2. Структура экзаменационного билета В билете 2 задания: 1 задание – предварительный анализ данных (исследование данных, визуальный
- 3. Примеры задания 1 На основе индивидуальных данных о клиентах банка (файл “….csv”) проведите оценку основных статистических
- 4. Примеры задания 1 3. С использованием SAS Studio проведите кластеризацию объектов недвижимости из набора данных «...csv»
- 5. Примеры задания 2 1. Постройте и исследуйте три регрессионные зависимости срока кредитования от возраста и длительности
- 6. Кластерный анализ в SAS/STAT
- 7. Кластерный анализ в SAS/STAT
- 8. Результаты
- 9. Дендрограмма
- 10. Number of Clusters - количество кластеров Clusters Joined - имена объединенных кластеров. (Наблюдения идентифицируются либо по
- 12. Скачать презентацию
Слайд 2Структура экзаменационного билета
В билете 2 задания:
1 задание – предварительный анализ данных (исследование
Структура экзаменационного билета
В билете 2 задания:
1 задание – предварительный анализ данных (исследование

данных, визуальный анализ, фильтрация, выявление мультиколлинеарности, вывод о возможности снижения признакового пространства (корреляционный анализ, МГК (факторный анализ), кластерный анализ) – 20 баллов
2 задание – прогнозирование (построение нескольких (не больше 3) моделей регрессии или классификации и предсказание целевого признака) – 40 баллов
2 задание – прогнозирование (построение нескольких (не больше 3) моделей регрессии или классификации и предсказание целевого признака) – 40 баллов
Слайд 3Примеры задания 1
На основе индивидуальных данных о клиентах банка (файл “….csv”) проведите
Примеры задания 1
На основе индивидуальных данных о клиентах банка (файл “….csv”) проведите

оценку основных статистических характеристик набора данных с использованием SAS Studio. Сформируйте набор данных с информацией о клиентах старше 45 лет с уровнем дохода не менее 2000 у.е. Проведите визуальный анализ полученной в результате фильтрации выборки (не менее 3 диаграмм)
По результатам корреляционного и компонентного/факторного анализа данных о клиентах страховой компании (файл “….csv”) сделайте вывод о возможности снижения размерности признакового пространства. Предложите смысловую интерпретацию главных компонент. Требуемый уровень информативности – не менее 80%
По результатам корреляционного и компонентного/факторного анализа данных о клиентах страховой компании (файл “….csv”) сделайте вывод о возможности снижения размерности признакового пространства. Предложите смысловую интерпретацию главных компонент. Требуемый уровень информативности – не менее 80%
Слайд 4Примеры задания 1
3. С использованием SAS Studio проведите кластеризацию объектов недвижимости из
Примеры задания 1
3. С использованием SAS Studio проведите кластеризацию объектов недвижимости из

набора данных «...csv» на функциональные группы методом k-средних для различных вариантов настроек. Интерпретируйте полученные результаты для трех моделей с помощью отчета по кластеризации, сравните полученные результаты, сделайте выводы
Слайд 5Примеры задания 2
1. Постройте и исследуйте три регрессионные зависимости срока кредитования от
Примеры задания 2
1. Постройте и исследуйте три регрессионные зависимости срока кредитования от

возраста и длительности трудоустройства иностранных клиентов, арендующих жилье с использованием инструментов отбора признаков SAS/STAT. Проведите сравнительный анализ качества полученных моделей, предложите смысловую интерпретацию результатов и сделайте выводы
2. Для набора данных «...csv» построить бинарную логистическую регрессию с использованием SAS Studio (не менее 3 моделей-кандидатов, используя различные методы отбора переменных в модель и вид модели). Провести сравнение моделей кандидатов, выявить наилучшую по результатам ROC-кривой и значений показателя AUC, сделать выводы.
2. Для набора данных «...csv» построить бинарную логистическую регрессию с использованием SAS Studio (не менее 3 моделей-кандидатов, используя различные методы отбора переменных в модель и вид модели). Провести сравнение моделей кандидатов, выявить наилучшую по результатам ROC-кривой и значений показателя AUC, сделать выводы.
Слайд 6Кластерный анализ в SAS/STAT
Кластерный анализ в SAS/STAT

Слайд 7Кластерный анализ в SAS/STAT
Кластерный анализ в SAS/STAT

Слайд 8Результаты
Результаты

Слайд 9Дендрограмма
Дендрограмма

Слайд 10Number of Clusters - количество кластеров
Clusters Joined - имена объединенных кластеров. (Наблюдения
Number of Clusters - количество кластеров
Clusters Joined - имена объединенных кластеров. (Наблюдения

идентифицируются либо по значению идентификатора, либо по CLn, где n - номер кластера)
Freq - количество наблюдений в новом кластере
Semipartial R-Square - полупериодический квадрат R, представляет собой уменьшение доли дисперсии, приходящейся на объединение двух кластеров.
R-Square - квадратная кратная корреляция R квадрат, которая представляет собой долю дисперсии, учитываемой кластерами
Approximate Expected R-Square - примерное ожидаемое значение квадрата R. Это ожидание аппроксимируется при нулевой гипотезе о том, что данные имеют равномерное распределение вместо формирования отдельных кластеров.
В следующих трех столбцах отображаются значения статистики кубического критерия кластеризации (CCC), псевдо F (PSF) и (PST2). Эта статистика полезна для оценки количества кластеров в данных.
связи для минимального расстояния; пустое значение указывает на отсутствие связи. Связывание означает, что кластеры являются неопределенными и что изменение порядка наблюдений может изменить кластеры.
Freq - количество наблюдений в новом кластере
Semipartial R-Square - полупериодический квадрат R, представляет собой уменьшение доли дисперсии, приходящейся на объединение двух кластеров.
R-Square - квадратная кратная корреляция R квадрат, которая представляет собой долю дисперсии, учитываемой кластерами
Approximate Expected R-Square - примерное ожидаемое значение квадрата R. Это ожидание аппроксимируется при нулевой гипотезе о том, что данные имеют равномерное распределение вместо формирования отдельных кластеров.
В следующих трех столбцах отображаются значения статистики кубического критерия кластеризации (CCC), псевдо F (PSF) и (PST2). Эта статистика полезна для оценки количества кластеров в данных.
связи для минимального расстояния; пустое значение указывает на отсутствие связи. Связывание означает, что кластеры являются неопределенными и что изменение порядка наблюдений может изменить кластеры.
- Предыдущая
История ЮгрыСледующая -
Нижегородский кремль
Дипломная работаинтерьеры коттеджа ,,SUMMER SKY”( Летнее небо)
«Об изменениях в законодательстве в области обязательного подтверждения соответствия товаров, ввозимых на таможенную территорию
Договор подряда Бабарыкина Н. МЭ081
Статистика профсоюзной организации
Weather. Seasons
Вибрационная болезнь
Творческий отчет тимуровского отряда Горячие сердца
АО Кокшетауские Минеральные Воды
Разложение многочленов на множители
Enjoy English
ОбъектГод Финишное покрытие Генподрядчик Дом Татарской Кулинарии 2002- 2004 Capatect ЗАО "Фобос" Торговый центр "Модная семья" 2002 Muresko-PlusЗАО
Technik reklamy
ОП по Гагинскому району МО МВД России Большеболдинский: история, сегодняшнее состояние и перспективы развития
Реферат«Трудный путь к победе»(Великая Отечественная война 1941-1945)Выполнила:учащаяся 10 «А» классаМОУ СОШ №40Амелина М.И.Научны
Викторина по биологии (8 класс)
ГЛАДИЛИНА ОЛЬГА ВАЛЕРЬЕВНА
Пример построения сочинения- рассуждения по предложенному тексту ЕГЭ – 2004, 2005Переходите к части С, даже если в школе Вам обычно н
О предварительных итогах реализации приоритетного национального проекта «Здоровье» в 2006 – 2007 годах, мероприятиях и параметрах п
Щенок из гофрокартона
Адаптация. Степени тяжести адаптации
Типовые менеджерские ошибки, совершаемые заказчиком при разработке сайта
Структура специальностей подготовки аспирантов. Требования к кандидатским диссертациям
Презентация на тему Крылатые выражения в речи
Структура персонала ПАО Аэрофлот
Древнерусская культура 9 класс
Общественная экологическая экспертиза
ЭЛЕКТРОДВИГАТЕЛИ НА КУХНЕ
Парк мечты.