Анализ данных. Подготовка данных
Основные этапы подготовки данных Загрузка данных в хранилища Разделение данных Приведение данных к одинаковым единицам измерения Преобразование к унифицированной лексике Объединение данных из разных источников Соединение данных из разных источников Заполнение отсутствующих значений Очистка данных (устранение дубликатов, проверка шаблонов, контроль диапазонов) Анализ данных.Подготовка данных Кафедра информационно-аналитических систем Анализ данных. Подготовка данных
Загрузка данных в хранилища Кафедра информационно-аналитических систем Как правило, в системах хранения данных существуют специальные утилиты, ориентированные на загрузку данных из внешних источников. Однако, даже на этом, казалось бы простейшем, этапе исследователя могут ожидать многочисленные сюрпризы: например, нечитаемые символы, типы данных не соответствующие обещанным спецификациям и т.п. Рекомендации: Вычистить из исходных файлов все нечитаемые символы; Записать все исходные данные как текстовые поля (с типами разбираться потом после загрузки в хранилище). Саму загрузку (если данных действительно много) проводить непосредственно на сервере, где расположено хранилище.