Деревья решений. Bagging. Random Forest. Boosting. Лекция 6

Слайд 2

2 основных вида

CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева

2 основных вида CART (Classification and Regression Tree) – это алгоритм построения
решений. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии. Используется в scikit-learn.
C4.5 – алгоритм построения дерева решений, количество потомков у узла не ограничено. Решает только задачи классификации.

Слайд 3

Терминология

Терминология

Слайд 4

Жадные:
«берут все, что дают, не отдают»

Большинство из известных алгоритмов являются "жадными

Жадные: «берут все, что дают, не отдают» Большинство из известных алгоритмов являются
алгоритмами".
Перебирают все признаки и все возможные значения в выборке.
Если один раз был выбран атрибут, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение.
И поэтому на этапе построения нельзя сказать даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение.

По https://basegroup.ru/community/articles/description

Слайд 5

Алгоритм

Первое множество (корень) : есть ли такие два подмножества, которые улучшат предсказания?

Алгоритм Первое множество (корень) : есть ли такие два подмножества, которые улучшат
Подмножества определим по какому-то признаку и его значению. Делим первое множество.
И так поступаем далее. Однако если улучшения нет, или достигли порог ошибки, или решили остаться на этой глубине дерева, то это лист.

Слайд 6

Критерии разбиения:
Классификация

https://habr.com/en/company/ods/blog/322534/#kak-stroitsya-derevo-resheniy

Критерии разбиения: Классификация https://habr.com/en/company/ods/blog/322534/#kak-stroitsya-derevo-resheniy

Слайд 7

Критерии разбиения: Регрессия.
«Улучшат предсказания».

Критерии разбиения: Регрессия. «Улучшат предсказания».

Слайд 8

Bagging, Random Forests, Boosting

Random forest Grow many deep regression trees to randomized

Bagging, Random Forests, Boosting Random forest Grow many deep regression trees to
versions of the training data, and average them. Here “randomized” is a wide ranging term, and includes bootstrap sampling (bagging) and/or subsampling of the observations, as well as subsampling of the variables.
Boosting Repeatedly grow shallow trees to the residuals, and hence build up an additive model consisting of a sum of trees.

https://web.stanford.edu/~hastie/CASI_files/PDF/casi.pdf

Слайд 9

Random Forest лучше Lasso, Tree, Bagging в этом показательном примере

Random Forest лучше Lasso, Tree, Bagging в этом показательном примере

Слайд 10

Boosting бьет Random Forest в этом показательном примере

As is often the case,

Boosting бьет Random Forest в этом показательном примере As is often the
boosting slightly outperforms a random forest here, but at a price. Careful tuning of boosting requires considerable extra work, with time-costly rounds of cross-validation, whereas random forests are almost automatic.
Имя файла: Деревья-решений.-Bagging.-Random-Forest.-Boosting.-Лекция-6.pptx
Количество просмотров: 27
Количество скачиваний: 0