Основы математической статистики. Регрессионный и корреляционный анализы

Содержание

Слайд 2

Основы математической статистики

Большой раздел современной матема-тической статистики — статистический последовательный анализ, фундаментальный

Основы математической статистики Большой раздел современной матема-тической статистики — статистический последовательный анализ,
вклад в создание и развитие которого внес А. Вальд во время Второй мировой войны.
Систематическая ошибка выжившего – разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет. Так что исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».

Абрахам Вальд,
венгерский математик и статистик.

Слайд 3

Выборочный метод

Выборочный метод заключается в том, что из общей совокупности объектов, называемых

Выборочный метод Выборочный метод заключается в том, что из общей совокупности объектов,
генеральной совокупностью, извлекают некоторое число объектов, которое именуется выборкой. Эту выборку подвергают детальному исследованию, результаты которого можно применить ко всей генеральной совокупности. При выборочном методе исследуемый признак может быть распределён по «генеральной совокупности» неравномерно, поэтому выборка должна полностью отражать структуру генеральной совокупности.

Согласно теории вероятностей выборка будет правильно отражать свойства всей совокупности, если выбор производится случайно, т. е. так, что любая из возможных выборок заданного объема n из совокупности объема А имеет одинаковую вероятность быть фактически выбранной.

Слайд 4

Пример использования «выборочного метода» - расчёт потерь

Пример.
Как правило, после расчёта потерь

Пример использования «выборочного метода» - расчёт потерь Пример. Как правило, после расчёта
электроэнергии в сетях 0,4 кВ решается задача определения суммарных потерь в целом для сетей 0,4 кВ энергопредприятия на основании непосредственного расчёта потерь только в части из них. При этом, общее число линий обычно называют генеральной совокупностью, а рассчитываемую часть выборкой. Относительные потери электроэнергии в выборке с заданной доверительной вероятностью принимаются одинаковыми для всех сетей (генеральной совокупности) предприятия трансформаторных подстанций, находящихся на балансе предприятия.
Относительные потери электроэнергии в процентах для всей совокупности сети 0,4 кВ определяют по значениям (К) выбранных линий 0,4 кВ. Следует учесть, что для достоверных расчётов потерь в сети 0,4 кВ следует профессионально произвести объём выборки рассчитываемых линий, объединив сети в характерные группы с необходимым количеством воздушных и кабельных линий, а также близких и удалённых потребителей

Слайд 5

Доверительные интервалы

Доверительный интервал – термин, используемый в математической статистике при интервальной оценке

Доверительные интервалы Доверительный интервал – термин, используемый в математической статистике при интервальной
статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.
Метод доверительных интервалов разработал американский статистик Ежи Нейман, исходя из идей английского статистика Рональда Фишера.

Ежи Нейман,
польский и американский математик и статистик

Суть метода заключается в следующем. По сделанной выборке x1, x2,…,xn, находятся числа хmin и хmax такие, чтобы выполнялось условие

 

Слайд 6

Доверительные интервалы

 

Доверительные интервалы

Слайд 7

Пример использования – планирование расхода тепловой энергии на основе прогноза температуры воздуха
Расход

Пример использования – планирование расхода тепловой энергии на основе прогноза температуры воздуха
тепловой энергии для целей отопления в значительной степени предопределяется температурой наружного воздуха.

Прогноз температуры наружного воздуха на отопительный период 2006 г. по Правобережному округу, г. Братска

Слайд 8

Проверка статистических гипотез

Проверка статистических гипотез является содержанием одного из обширных классов

Проверка статистических гипотез Проверка статистических гипотез является содержанием одного из обширных классов
задач математической статистики.
Статистическая гипотеза — предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным выборки.
В ходе проверки статистических гипотез исследователь может столкнуться с возможностью допустить два вида ошибок:
1) отвергнуть правильную гипотезу – это ошибка первого рода;
2) принять неверную гипотезу – это ошибка второго рода.
Ошибку первого рода часто называют ложной тревогой, ложным срабатыванием — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня.
Ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила.

Слайд 9

Проверка статистических гипотез

Метод проверки статистической гипотезы состоит в следующем.
Производится выборка, на

Проверка статистических гипотез Метод проверки статистической гипотезы состоит в следующем. Производится выборка,
основе которой вычисляется значение t контрольной величины. Для проверки гипотез необходимо знать контрольную величину функции Т от рассматриваемой выборки, меньше значения которой гипотеза будет считаться неверной. Если вероятность события tКритерий принятия гипотезы описывается условием
В соответствии со стандартными подходами, принятыми в теории стат. гипотез, мерой надежности является уровень значимости принятия гипотезы: величина α. Чем меньше а, тем «осторожнее» гипотеза. Надежность принятия гипотезы (1-α.) для обычной гипотезы равна 0,9 (α. =0,1), для «осторожной» гипотезы – 0,95 (α. =0,05) и более.

Слайд 10

Проверка статистических гипотез

Критерии значимости - проверка гипотез о нормальности выборки
Критерий Шапира-Уилка
Критерий

Проверка статистических гипотез Критерии значимости - проверка гипотез о нормальности выборки Критерий
хи-квадрат Пирсона и др.
Критерии согласия - это критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей.
Критерий Колмогорова-Смирнова
Критерий согласия хи-квадрат Пирсона
и др.
Критерии однородности - это критерии проверки гипотез о том, что две (или более) выборки взяты из одного распределения вероятностей.
Критерий Стьюдента
Критерий Фишера-Снедекора
Критерий Кохрена и др.

Слайд 11

Пример использования – Бомбардировка Лондона

Пример. Задача о бомбардировках Лондона. Задача возникла в

Пример использования – Бомбардировка Лондона Пример. Задача о бомбардировках Лондона. Задача возникла
связи с бомбардировками Лондона во время Второй мировой войны. Для улучшения организации оборонительных мероприятий, необходимо было понять цель противника. Для этого территорию города условно разделили сеткой из 24-х горизонтальных и 24-х вертикальных линий на 576 равных участков. В течении некоторого времени в центре организации обороны города собиралась информация о количестве попаданий снарядов в каждый из участков. В итоге были получены следующие данные:

Слайд 12

Пример использования – Бомбардировка Лондона

Как видно из графика распределение сброшенных на Лондон

Пример использования – Бомбардировка Лондона Как видно из графика распределение сброшенных на
бомб далеко от равномерного закона, но является ли это свидетельством точного нацеливания?
Всего 537 бомб упали на 576 квадрата, что около одной бомбы на квадрат в среднем. Исследователи подставили эти числа в формулу Пуассона, чтобы узнать сколько скоплений ожидается получить случайным образом.

Визуализация количества бомб, сброшенных над различными частями города

Слайд 13

Гипотеза H0: стрельба случайна (нет "целевых" участков).
Закон редких событий (распределение Пуассона)
Тогда при

Гипотеза H0: стрельба случайна (нет "целевых" участков). Закон редких событий (распределение Пуассона)
уровне значимости 0.05 гипотеза H0 не выполняется
Объединим события (4,5,6,7) с малой частотой попаданий в одно (поправка Йетса), тогда имеем:
тогда при 0.05 гипотеза H0 всё-таки верна.

Пример использования – Бомбардировка Лондона

Слайд 14

Отсев грубых ошибок

Исходные данные, получаемые в результате экспериментов, в силу разных причин,

Отсев грубых ошибок Исходные данные, получаемые в результате экспериментов, в силу разных
могут содержать грубые ошибки или аномальные наблюдения, которые должны быть исключены из выборочной совокупности.
Наиболее простой метод отсева грубых ошибок при нормальном законе распределения – использование правила трех сигм, которое формулируется следующим образом: разброс случайных величин от их среднего значения не должен превышать трех среднеквадратичных отклонений.
Алгоритм отсева грубых ошибок состоит в следующем.
Рассчитываются выборочное среднее и среднеквадратичное отклонение.
Вычисляются значения Xmax и Xmin по формулам
Величины, находящиеся за пределами интервала (+ ; +) исключаются из выборочной совокупности как недостоверные или аномальные и обработка результатов эксперимента по определению точечных оценок производится повторно.

Слайд 15

Пример. Имеются данные потребления электроэнергии в жилой квартире в период с января

Пример. Имеются данные потребления электроэнергии в жилой квартире в период с января
по ноябрь. Необходимо установить не содержат данные показания грубых ошибок.

Пример использования – Аномальные значения в электропотреблении

Слайд 16

Пример использования – Достоверизация телеизмерений мощности

Имея выборку, состоящую из телеизмерений (ТИ) перетока

Пример использования – Достоверизация телеизмерений мощности Имея выборку, состоящую из телеизмерений (ТИ)
мощности по данным ОИК и АСКУЭ за некоторый интервал времени, для решения задачи достоверизации ТИ перетока мощности можно использовать метод Стьюдента, которые считается связанным с нормальным распределением, что соответствует закону распределения ошибок в ТИ.
Учитывая это, процедуру отсева грубых погрешностей измерений можно представить в виде примера, где выборка представляет из себя ретроспективные данные о перетоке мощности по межсистемной ВЛ-220 кВ.

Слайд 17

Пример использования – Достоверизация телеизмерений мощности

Выходная форма контроля достоверности измерений перетоков мощности.

Пример использования – Достоверизация телеизмерений мощности Выходная форма контроля достоверности измерений перетоков

Подобный метод достове-ризации ТИ мощности поз-воляет контролировать тех-ническое состояние систем сбора данных, эффективно выявлять грубые ошибки ТИ

Слайд 18

Регрессионный анализ

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными.

Регрессионный анализ Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными.
Различают два вида взаимосвязи: функциональную и статистическую.
В реальных ситуациях существует бесконечно функциональные связи являются математическими абстракциями. В реальности многие параметры следует считать случайными, что исключает проявление однозначного соответствия значений. Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости.
Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями.
Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения. Если же у взаимосвязанных величин вариацию имеет только одна переменная, а другая является детерминированной, то такую связь называют не корреляционной, а регрессионной.

Слайд 19

Регрессионный анализ

Термин "регрессия" был введён Фрэнсисом Гальтоном в конце 19-го века.

Регрессионный анализ Термин "регрессия" был введён Фрэнсисом Гальтоном в конце 19-го века.
Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности« (или регрессия к среднему). Он наглядно объяснил, что рост детей усредняется относительно роста родителей.
К примеру, независящие от человека ситуации также подвергаются регрессии. Механизм заключается в следующем: все пиковые ситуации, достигнув максимальной отметки, начинают откатываться к среднему состоянию.

Сэр Фрэнсис Гальтон,
английский исследователь, географ, антрополог и психолог.

Слайд 20

Регрессионный анализ

Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины

Регрессионный анализ Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины
от одной или нескольких других случайных величин (свободных переменных), т.е.
Регрессионным анализом называется поиск такой функции f, которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.
В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде
y = f (x1, x2, …, xm) + e
где f - заранее не известная функция, подлежащая определению;
e - ошибка аппроксимации данных.

Слайд 21

Регрессионный анализ

 

Регрессионный анализ

Слайд 22

Регрессионный анализ

Линейная регрессия

Нелинейная регрессия

Регрессионный анализ Линейная регрессия Нелинейная регрессия

Слайд 23

Регрессионный анализ

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:
предварительная обработка

Регрессионный анализ Решение задачи регрессионного анализа целесообразно разбить на несколько этапов: предварительная
данных;
выбор вида уравнений регрессии;
вычисление коэффициентов уравнения регрессии;
проверка адекватности построенной функции результатам наблюдений.
Регрессионный анализ проводится при следующих допущениях:
количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;
обрабатываемые данных содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;
матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Слайд 24

Регрессионный анализ

Уравнение регрессии в регрессионном анализе следует трактовать как векторное, ибо

Регрессионный анализ Уравнение регрессии в регрессионном анализе следует трактовать как векторное, ибо
речь идет о матрице данных.
При этом, полученную систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений.
Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка.

Слайд 25

Регрессионный анализ – метод наименьших квадратов

 

Регрессионный анализ – метод наименьших квадратов

Слайд 26

Регрессионный анализ – метод наименьших квадратов

В основе МНК лежат следующие положения:
значения

Регрессионный анализ – метод наименьших квадратов В основе МНК лежат следующие положения:
величин ошибок и факторов независимы, а значит, и некоррели-рованы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;
математическое ожидание ошибки должно быть равно нулю, иначе говоря, ошибка является центрированной вели-чиной;
выборочная оценка дисперсии ошибки должна быть минимальна.

Изображение отклонения уравнения регрессии от исходных данных

Слайд 27

Регрессионный анализ

Качество полученного уравнения регрессии оценивают по степени близости между результатами

Регрессионный анализ Качество полученного уравнения регрессии оценивают по степени близости между результатами
наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров.
Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии (выбрать другую степень полинома или вообще другой тип уравнения) и повторить расчеты по оценке параметров. Обычно применение в уравнениях регрессии полиномов степени выше второй нецелесообразно.
Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.

Слайд 28

Традиционный подход к предсказанию выработки мощности ВЭУ с использованием регрессионных моделей АРПСС

Традиционный подход к предсказанию выработки мощности ВЭУ с использованием регрессионных моделей АРПСС
заключается в прогнозировании следующего значения ряда, используя известные предыдущие значения ряда. Задача прогнозирования состоит в определении коэффициентов полиномов авторегрессии по данным выборки стационарного процесса выработки мощности ветротурбинами ветростанции, Р(t):


Краткосрочное прогнозирование выработки мощности и скорости ветра для ветроустановок для Апшеренского полуострова, Азербайджан

Пример использования – Прогнозирование выработки мощности ветроустановок на базе регриссионых моделей

Слайд 29

Пример использования – Моделирование распределение температуры оборудования от параметров работы электровозов при

Пример использования – Моделирование распределение температуры оборудования от параметров работы электровозов при
их движении

Тепловой нагрев электрооборудования, как правило, определяется большим числом одновременно и совокупно действующих факторов. В связи с этим возникает задача исследования зависимости температуры нагрева (зависимой переменной Y) от нескольких объясняющих переменных X1, X2,… (силы тока, скорости движения, температуры окружающей среды и т.д.). Эта задача решается с помощью множественного регрессионного анализа
Предложенная методика применена для оценки многофакторного влияния на температуру нагрева различных параметров. В качестве базовых деталей были выбраны силовые шины, поскольку они обладают средним значением теплофизических параметров контролируемых деталей и дают наибольшее число отказов, связанных с перегревом.

Слайд 30

Пример использования – Моделирование распределение температуры оборудования от параметров работы электровозов при

Пример использования – Моделирование распределение температуры оборудования от параметров работы электровозов при
их движении

Установлено, что максимальный нагрев деталей происходит при увеличении в положительную сторону крутизны профиля пути и маленькой скорости движения поезда, что связано с увеличением силы тока (см. рис.).
Выявлена зависимость возрастания температуры деталей при больших отрицательных значениях крутизны (рекуперация) и большой скорости, так как при увеличении скорости вращения двигателя в режиме генератора возрастает и сила тока, отдаваемая обратно в сеть.

Слайд 31

Корреляционный анализ

Для управления сложными системами, на которые воздействует множество факторов, необходимо

Корреляционный анализ Для управления сложными системами, на которые воздействует множество факторов, необходимо
иметь представление о факторах, влияющих на достижение желаемой от системы или процесса цели. Факторы, влияние которых на объект значительно, должны быть учтены при составлении модели для ее анализа и синтеза управляющей системы. Для принятия решения о включении или исключении какого-либо фактора широко применяется корреляционный анализ.
Корреляция - это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными.
Корреляционный анализ тесно связан с регрессионным анализом, с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям.

Слайд 32

Корреляционный анализ

Употребляется в науке с конца XYIII века. Его ввел французский

Корреляционный анализ Употребляется в науке с конца XYIII века. Его ввел французский
палеонтолог Жорж Кювье, основавший "закон корреляции", согласно которому череп с рогами обязательно принадлежал травоядному животному, обладавшему копытными конечностями; если же лапа имела когти, то животное было хищным, без рогов, но с крупными клыками.

Жорж Леопоольд Кювье,
барон, французский естествоиспытатель, натуралист.

Слайд 33

Корреляционный анализ

Корреляция - это статистическая зависимость между случайными величинами, не имеющая

Корреляционный анализ Корреляция - это статистическая зависимость между случайными величинами, не имеющая
строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие виды корреляции:
парная корреляция - связь между двумя признаками (результативным и факторным, или двумя факторными);
частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Слайд 34

Корреляционный анализ – основная идея

Идея сопоставления колебаний значений признака относительно друг

Корреляционный анализ – основная идея Идея сопоставления колебаний значений признака относительно друг
друга
Если численные значения одного признака изменяются одновременно со значением другого, то можно предположить, что между ними существует связь
Следовательно, метод позволяет приблизиться к пониманию причинно-следственных связей

Слайд 35

Корреляционный связь

Характеризует сложный механизм взаимодействия двух или нескольких признаков
При котором при изменении

Корреляционный связь Характеризует сложный механизм взаимодействия двух или нескольких признаков При котором
одного признака случайные варианты второго признака закономерно изменяются
И величина значений второго признака зависит от величины первого (например, связь между температурой и электрической нагрузкой; социальным статусом и воровством электроэнергии, напряжением и реактивной мощностью т.п.)

Слайд 36

Коэффициент корреляции Пирсона
Предполагает, что:
обе переменные распределены нормально
связь линейна
Коэффициент корреляции Пирсона основан на

Коэффициент корреляции Пирсона Предполагает, что: обе переменные распределены нормально связь линейна Коэффициент
расчете ковариации между двумя перемен-ными:

Слайд 37

Корреляционный анализ

при r > 0,85 (при этом варьирование признаков взаимосвязано приблизительно

Корреляционный анализ при r > 0,85 (при этом варьирование признаков взаимосвязано приблизительно
на 75% и более) - весьма тесная связь,
при 0,85 > r > 0,7 (при этом взаимосвязанная вариация признаков лежит в пределах 75-50%) - тесная связь,
если r≤0,7 (при этом варьирование одного признака менее чем на 50% связано с варьированием другого признака) - связь можно считать слабой.

Слайд 38

Коэффициент Спирмена

Не предполагает, что данные распределены каким-то особым образом
Вместо исходных значений использует

Коэффициент Спирмена Не предполагает, что данные распределены каким-то особым образом Вместо исходных
их ранги
(!) Интерпретация не настолько проста, как в случае с коэффициентом Пирсона (т.к. связь необязательно линейна)

Слайд 39

Оценка значимости корреляции

Оценка коэффициента корреляции, вычисленная по ограниченной выборке, практически всегда отличается

Оценка значимости корреляции Оценка коэффициента корреляции, вычисленная по ограниченной выборке, практически всегда
от нуля. Но из этого еще не следует, что коэффициент корреляции генеральной совокупности также отличен от нуля.
Требуется оценить значимость выборочной величины коэффициента или, в соответствии с постановкой задач проверки статистических гипотез, проверить гипотезу о равенстве нулю коэффициента корреляции.
Если гипотеза Н0 о равенстве нулю коэффициента корреляции будет отвергнута, то выборочный коэффициент значим, а соответствующие величины связаны линейным соотношением.

Слайд 40

Оценка значимости корреляции

Для проверки гипотезы о значимости коэффициента корреляции используется критерий Стьюдента

Оценка значимости корреляции Для проверки гипотезы о значимости коэффициента корреляции используется критерий
в виде:
В этом случае, распределение Стьюдента имеет степень свободы равную.
Проверяемый коэффициент корреляции считается значимым, если значение tнабл по модулю будет больше, чем величина tкр, определенная по таблицам t-распределения

Слайд 41

Расчёт коэффициента Пирсона в R

Пример. Даны выборки данных по техническим и коммерческим

Расчёт коэффициента Пирсона в R Пример. Даны выборки данных по техническим и
потерям электроэнергии в электрических сетях г. Братска за 2 года. Необходимо найти коэффициент корреляции между этими параметрами и проверить его статическую значимость.

Слайд 42

Расчёт коэффициента Пирсона в R

< loss <- read.csv ("loss.csv", sep = ";",

Расчёт коэффициента Пирсона в R #корреляционный анализ Pearson's product-moment correlation data: loss$techloss
header=TRUE)
#корреляционный анализ
< cor.test (loss$techloss, loss$steal)
Pearson's product-moment correlation
data: loss$techloss and loss$steal
t = 8.4983, df = 50, p-value = 2.848e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6274242 0.8609867
sample estimates:
cor
0.7687038

Слайд 43

Связь между потерями нелинейна (на исходной шкале)

Связь между потерями нелинейна (на исходной шкале)

Слайд 44

Ни одна из переменных не распределена нормально

Shapiro-Wilk normality test
data: loss$techloss
W =

Ни одна из переменных не распределена нормально Shapiro-Wilk normality test data: loss$techloss
0.95535, p-value = 0.04928

Shapiro-Wilk normality test
data: loss$steal
W = 0.94266, p-value = 0.01438