Описание:Настоящий курс представляет собой введение в практические инструменты разведочного анализа данных. Организация курса соответствует последовательности работы с новым набором данных. Бóльшая часть курса посвящена работе с библиотекой Pandas — наиболее популярной библиотекой для работы с данными. В первой части курса происходит знакомство с библиотекой, объектами Series и DataFrame, их основными свойствами и методами. Далее рассматриваются различные способы преобразования данных, добавление, удаление, агрегирование и объединение данных для анализа. Важная часть курса — чистка данных и работа с пропущенными значениями. В следующей части рассматриваются описательные статистики и процесс выработки и проверки гипотез о взаимосвязи данных в имеющемся наборе. Отдельно рассматриваются наборы данных, содержащих информацию о химических соединениях и способы кодирования такой информации для анализа. Параллельно закрепляются полученные в предыдущем курсе навыки визуализации данных для выработки и наглядного представления гипотез.