Что такое машинное обучение
Машинное обучение — это создание умных программ, которые ищут закономерности в данных, на которых учатся. Это помогает им решать различные, в том числе творческие задачи. Модели машинного обучения повторяют перцептивные функции человека, то есть способность воспринимать окружающий мир с помощью органов чувств.
Концепция машинного обучения в том, чтобы научить машины решать задачи, которые умеет решать человек. Базовая модель хорошо понимает смысл текста документа, есть модель, которая преобразует звук в текст. Ряд моделей определяет, что именно изображено на картинке.
ML требуется в тех случаях, когда:
-
Создать алгоритм , напрямую решающий задачу, тяжело
-
В данных много скрытых закономерностей
-
Содержащиеся закономерности нечеткие
Принципы Machine Learning
Machine Learning или ML строится на нескольких принципах работы, таких как:
-
Дерево принятия решений
-
Нативная байесовская классификация
-
Метод наименьших квадратов
-
Логистическая регрессия
-
Метод опорных векторов (SVM)
-
Метод ансамблей
-
Алгоритмы кластеризации
-
PCA — метод главных компонент
-
Сингулярное разложение
-
ICA — анализ независимых компонент
Рассмотрим основные принципы подробнее:
Дерево принятия решений — принцип строится на поддержке принятия решений. Применяется древовидная графа. Решения принимаются с учетом возможных последствий, эффективности и затрат ресурсов. Рассчитывается вероятность возникновения каких-либо событий. Итоговое решение основывается на логических выводах.
Метод наименьших квадратов — реализован как линейная регрессия. Он дает возможность решить задачи подгонки прямой, проходящей через множество точек. В ML применяют с целью
подбора данных. Метод сводит к нулю существующие погрешности с помощью создания метрики ошибок.
Логистическая регрессия — определяет связь между зависимыми и независимыми переменными. Используются логические функции в реализации. Логическая регрессия является методом предсказания событий.
Метод главных компонентов — операция по преобразованию, цель которой провести наблюдения за связанными друг с другом переменными в набор основных компонентов или некоррелированных линейно значений. Применяют, чтобы сжать, упростить, минимизировать информацию.
Какие инструменты необходимы
ML глобальная часть программирования и Data Science ,в частности. В обучении машин невозможно сделать что-либо без набора инструментов. Первоочередное, что используют специалисты — язык программирования для машинного обучения, то есть пайтон или python. Он наиболее распространен в этой области.
Также используют
-
PyCaret — скорлупа пайтона над фреймворками scikit-learn и XGBoost. Позволяет разработать модель для развертывания данных с помощью нескольких строк кода. Содержит набор модулей для решения распространенных задач
-
BigQuery ML — продукт, который предоставляет аналитику и быстрый доступ к объемным данным. Позволяет создавать модели для ML в облаке
-
Fastai — фреймворк для глубокого машинного обучения. Предлагает развитый интерфейс, позволяющий обучать нейросеть с помощью строк кода
-
PyTorch — библиотека, модули в которой со структурированными и с неструктурированными данными
Где используется на практике
Плоды ML активно используются во многих сферах нашей жизни, рассмотрим подробнее на реальных кейсах:
Банковский скоринг обрабатывает бесчисленные кредитные анкеты, необходимо наладить и ускорить процесс. Специалисты ML решили задачу так, что созданная модель автоматически рассчитывает рейтинг, платежеспособность потенциального заемщика, одобряет выплату или отказывают в ней.
Умная колонка предлагает пользователю персональный плейлист, а браузер демонстрирует рекламу, основанную на интересах. Все это заслуга машинного обучения, ставшего частью успешного маркетинга.
Машинное обучение дошло до того, что модели стали способны проводить анализ состава почвы, рассчитывать в точности до моля количество элементов, которые нужно в грунт добавить. Модели даже могут предсказать вероятный объем урожая.
Виды машинного обучения
Большинство видов ML основывается на обучении с или без учителя. Учителем называют факт вмешательства в процесс обработки информации:
-
Обучение с учителем подразумевает, что изначально есть исходные данные или же верные ответы для программы. Вычисляются регрессионные задачи
-
Обучение без учителя означает, что каких-либо ответов изначально нет. Инициируется кластеризация