Общая цель - найти закономерности и определять пользователей, способных закончить успешно курс на сайте для предоставления определенных привилегий и скидок на другие образовательные программы (по результату анализа поведения юзера за перые 3 дня на сайте)
То есть надо добиться высокого показателя recall, считая positive классом людей, способных закончить курс.
- Первоначально проанализируем данные, чтобы определить тех, кто из пользователей вообще смог закончить курс. Определим требуемую метрику, по которой будем классифицировать как тех, кто смог закончить курс, а кто нет.
- Изучим поведение пользователей за первые 3 дня с момента начала курса. Создадим фичи, по которым будем обучать модель.
- Зададим разные модели и определим лучшую по параметру recall
Дополнительно изучим датасет, чтобы определить id создателя курса и номер задания, который больше всего доставил сложностей и лишил многих мотивации решать курс далее
📄 events_data.csv – Информация о событии на сайте для юзера в конкретный момент времени;
📄 submissions_data.csv – Информация о статусе решения задачи юзером.
Решение данного проекта представлено в формате документа ML_program.ipynb