Задача классификации
Зада́ча классифика́ции, задача машинного обучения по разделению выборки объектов на дискретное (конечное) множество классов. Каждый объект требуется отнести к одному из заранее определённых классов.
Наряду с термином «классификация» в близких смыслах в литературе используются термины «группировка», «диагностика», «дискриминация», «типология», «таксономия» и др. Терминологическое многообразие связано прежде всего с различными традициями научных школ, к которым относятся авторы публикаций, а также с внутренним делением самой теории классификации. Ныне под задачей классификации обычно подразумевается именно задача машинного обучения.
Математическая постановка
В формальной постановке задачи классификации имеется множество объектов и множество ответов . Предполагается, что существует функциональная зависимость между объектами и ответами, но она неизвестна. Известна лишь совокупность пар вида (объект, ответ), называемая обучающей выборкой:
При этом множество ответов является конечным, а каждый ответ соответствует некоторому классу объектов.
Задача классификации заключается в вычислении для каждого объекта соответствующего ему класса. Качество алгоритма решения задачи классификации измеряют с помощью метрик на тестовой выборке, которая не использовалась для обучения.
История
В 1960-х гг. оформилась область прикладной статистики, посвящённая методам классификации. Алгоритмы классификации в машинном обучении развивались в несколько этапов.
В 1957 г. Ф. Розенблаттом разработан перцептрон – первый основанный на искусственной нейронной сети алгоритм классификации.
В 1988 г. Я. Лекун применил метод обратного распространения ошибки для обучения глубоких нейронных сетей. Такие алгоритмы требовали больших вычислительных мощностей. Известная задача классификации тех лет – классификация изображений символов MNIST.
Метод опорных векторов (англ. Support Vector Machine) разработан в компании AT&T группой учёных во главе с В. Н. Вапником в 1995 г. Метод оказался эффективен для простых задач классификации, но при использовании больших данных работал хуже.
В 1995 г. исследователь компании IBM Тин Кан Хо (Хо Тхинькхам) предложил объединять несколько алгоритмов «решающее дерево». Так началось развитие семейства алгоритмов под устоявшимся названием «случайный лес». Американский статистик Джером Фридман в 1999 г. создал т. н. градиентный бустинг – алгоритм, основанный на использовании «деревьев». Подобные алгоритмы востребованы в задаче классификации доныне.
С развитием технологий, улучшением камер смартфонов и удешевлением цифровых фотоаппаратов становилось доступно всё больше данных для обучения. Одновременно росли и вычислительные возможности: процессоры становились мощнее, в качестве вычислительного инструмента стали использоваться графические процессоры. Нейросетевые алгоритмы снова начали активно развиваться. В 2009 г. было опубликовано соревнование ImageNet, где одной из задач была классификация изображений. На тот момент в нём было представлено 3,2 млн изображений различных объектов. В течение многих лет исследователи обновляли рекорд по качеству классификации на ImageNet с помощью нейросетей. Ныне, в 2020-х гг., именно нейросети наиболее эффективно решают задачу классификации для изображений, текста и аудио.
Возможные применения
Примеры задач, которые могут быть поставлены как задача классификации, приведены в таблице.
Примеры задач классификации
Задача | Объекты | Возможные классы |
Кредитный скоринг | Заявки на кредит | Выдать кредит Не выдать кредит |
Предсказание ухода клиента из интернет-магазина | Данные о покупках клиента и данные о клиенте | Клиент уйдёт Клиент останется |
Анализ сентимента текста | Тексты | Положительный Отрицательный Нейтральный |
Определение пола человека по фотографии | Изображения человека | Мужской Женский |
Определение объекта на фотографии | Изображения объекта | Машина Поезд Стул Самолёт (зависит от предметной области) |
Антиспам в почте | Текст письма | Спам Нормальное письмо |