На что тратит больше всего времени человек, специализирующийся на анализе данных? Наверняка любой, кто не является аналитиком данных, ответит, что его работа заключается в анализе данных и представлении результатов. В идеальном мире это было бы действительно так, и составление отчетов было бы легким и приятным занятием. Что же тогда не дает спать по ночам каждому аналитику? Можно ответить одним словом: подготовка данных.
- Анализ данных: задачи, стоящие перед аналитиком данных
- Узнайте 7 простых шагов о том, как правильно подготовить данные для эффективного анализа и визуализировать полученные результаты
- Анализ данных и его бизнес-цель — понять набор данных
- Оптимизируйте набор данных
- Правильно управляйте пробелами в данных
- Определение распределений переменных и выявление выбросов
- Взгляд на данные
- Выводы по беглому анализу данных
- Проверка взаимосвязей и корреляций между переменными в ходе анализа данных
Анализ данных: задачи, стоящие перед аналитиком данных
Самая большая проблема для любого специалиста, чьей основной деятельностью является анализ данных, — это обработка, преобразование и подготовка массива данных к анализу. К сожалению, данными, описывающими события в компании, всегда нужно правильно управлять — контролировать правильность заполнения, обрабатывать необычные события, внедрять новые информационные структуры. Масштаб этой задачи часто требует создания отдельной должности, отвечающей за инженерию данных — их подготовку, планирование структуры отчетности и технологической архитектуры, лежащей в основе всего процесса.
Однако независимо от масштаба предприятия, структуры аналитического отдела и качества данных, любой анализ данных должен начинаться с подготовки коллекции к анализу и ее визуализации. Именно здесь на помощь приходит эксплораторный анализ данных (Exploratory Data Analysis, EDA). Это процесс, выполняемый в начале работы аналитика, позволяющий ему ознакомиться с существующей структурой и разобраться с потенциальными проблемами. На этом этапе аналитик получает информацию о самой коллекции, начинает ее понимать, замечает необычные значения и ошибки в коллекции, которые требуют дополнительных действий. Из чего состоит процесс эксплораторного анализа данных?
Узнайте 7 простых шагов о том, как правильно подготовить данные для эффективного анализа и визуализировать полученные результаты
Анализ данных и его бизнес-цель — понять набор данных
Понятие анализ данных включает проверку и понимание того, с чем мы имеем дело. На этом этапе мы должны ответить на вопросы:
- Откуда берутся данные: кто, когда, как их заполняет?
- Что именно означает каждый столбец/переменная/таблица (например, «дата добавления сотрудника» — это дата его приема на работу, дата добавления в систему, дата начала работы)?
- Какие значения можно найти в каждом фрагменте коллекции (например, в столбце с датой приема сотрудника на работу могут быть только действительные даты или также числа и предложения)?
- Что я в конечном итоге хочу получить (подходит ли этот набор для успешного анализа данных)?

Оптимизируйте набор данных
На втором этапе мы должны сосредоточиться на технической оптимизации коллекции. Это означает ответ на два вопроса для каждого из исследуемых столбцов/переменных/таблиц:
- Полезен ли данный объект (например, таблица, столбец, переменная) для данного анализа (если нет, то следует ли его удалить)?
- Имеет ли объект правильный тип данных (например, являются ли числа определенно целыми/плоскими, а не строковыми)?
Правильно управляйте пробелами в данных
Следующим шагом в процессе подготовки данных является надлежащее управление отсутствующими данными в базе данных. В каждой производственной базе данных мы столкнемся с ситуацией, когда значение объекта будет пустым. Классическая ошибка в таком случае — присвоить этому значению ноль. Однако отсутствие данных в выделенных ячейках не означает, что там стоит нулевое значение — для такого действия нет оснований. Более того, что делать, если в столбце должна быть дата или описание товара, но нет числа? Здесь тем более нельзя заменить отсутствующее значение нулем.
В качестве первого шага следует определить тип возникающих недостатков по их происхождению. Таким образом, мы различаем:
- человеческую ошибку (данное значение должно было быть заполнено, но ответственное лицо этого не сделало);
- реальные недостачи (в силу специфики записи фактическое значение должно быть пустым, например, значение переменной «последний купленный товар» должно быть пустым в случае клиента, который еще не совершал покупку на нашей платформе).
Определение распределений переменных и выявление выбросов
После того как данные были должным образом очищены в соответствии с принципами, описанными в предыдущих шагах, настало время лучше понять их структуру. Например, мы знаем, что значения, соответствующие задержке оплаты счетов, представляют собой целые числа, соответствующие количеству дней просрочки. Но как эти значения распределяются по частоте/плотности появления? Чаще всего ли клиенты опаздывают максимум на неделю? В нашем случае эти значения равномерно распределены в течение года? Есть ли выбросы, т. е. заказчики обычно опаздывают максимум на неделю, но один подрядчик опаздывает на 600 дней?
Взгляд на данные
На этом этапе необходимо построить график плотности или гистограмму для каждого исследуемого объекта.
Выводы по беглому анализу данных
Хотя на этом этапе уже появляется типичная аналитическая работа, строятся графики и статистика, этот элемент не следует рассматривать как полноценный анализ данных. Этот этап призван лишь познакомить исследователя с характеристиками набора данных и позволить ему произвести возможные преобразования еще до начала собственно анализа.
Проверка взаимосвязей и корреляций между переменными в ходе анализа данных
Последним шагом в правильно проведенном эксплораторном анализе данных является проверка связей и корреляций, существующих между исследуемыми переменными. Этот шаг подразумевает проверку совместной встречаемости заданных категорий и значений отдельных переменных в нашем наборе данных.







