Аннотация:В работе рассматриваются задачи классификации с категориальными признаками. Категориальный признак – это признак, значения которого обозначают принадлежность объекта к какой-то категории. Примеры таких признаков: национальность, гражданство, профессия, должность, идентификационный номер, номер группы студента, тарифный план, издательство, область науки и т.п. Сами значения признаков для алгоритмов анализа данных бесполезны: на практике разные категории кодируют разными целыми числами, но использовать на таких данных классические методы машинного обучения, ориентированные на вещественные признаки (и операции над ними), нельзя. Для категориальных признаков имеет смысл лишь операция сравнения (совпадают или нет категории). Категориальные признаки также называют «номинальными», среди прикладников больше распространён термин «факторные», поскольку так эти признаки называются в некоторых системах анализа данных (например, в R для их задания используется функция factor).
В прикладных задачах преобладают вещественные признаки. Если в задаче есть категориальные признаки, то их, как правило, немного, поэтому удаётся подобрать подходящую кодировку (ниже мы опишем один из способов кодирования) в признаки, над которыми уже можно выполнять различные арифметические операции. В последние годы появились задачи, в которых почти все или даже все признаки категориальные. Пример подобной задачи – простейшая коллаборативная фильтрация. Есть множество пользователей и услуг, дан перечень, какие пользователи какими услугами пользовались и их оценки «насколько эти услуги им понравились». Необходимо конкретному пользователю предложить новую услугу (т.е. ту, которой он, скорее всего, потом поставит высокую оценку). В такой простейшей постановке – только два категориальных признака: номер пользователя и номер услуги.
Есть задачи и с большим числом признаков. В данной работе при описании качества алгоритмов мы будем использовать данные задачи. В этой задаче работники компании просят доступ к ресурсам. Запрос представлен признаковым описанием: номером работника, номером его специальности, отдела, номером менеджера обрабатывающего запрос, номером ресурса и т.п. В этой задаче восемь категориальных признаков, целевой признак (девятый) – бинарный (получил ли работник доступ к ресурсу).