Big Data: что это такое
Интересна работа с базами данных? В нашей статье мы вам расскажем всё, что надо знать о Big Data. Вы узнаете определение «биг даты», где они применяются и кто с ними работает. А в конце поговорим о том, как эта ниша развивается в России и по всему миру.
Big Data: что это такое
Big Data (в переводе на русский «большие данные») — это термин, имеющий несколько значений. Так называют обширный объем информации, который сложно проанализировать самостоятельно. Для этого существуют различные способы и инструменты, которые также относятся к определению «биг дата».
Главная задача «больших данных» — это глубокий анализ. Метод помогает выявить неочевидные закономерности, которые используются для оптимизации работы.
Однако, не все базы данных можно назвать большими, даже если по объему они далеко не маленькие.Чем характеризуется Big Data:
-
Цифровой вид. Книги, стопки документов и другие не электронные данные не подходят под определение
-
Разнородность. Данные должны поступать в разных форматах и охватывать более чем один запрос
-
Цикличность. Информация должна появляться на постоянной основе, быстро и в больших объемах
-
Достоверность. Только проверенные данные и факты
Также Big Data разделяется на три категории:
-
Структурированные данные
-
Полуструктурированные данные
-
Неструктурированные данные
Не имеет большого значения — насколько организованна информация, находящаяся в «больших данных». При большом объеме её в любом случае сложно проанализировать самостоятельно.
Кто этим занимается
Задачи в сфере «больших данных» можно поделить на три направления:
-
Анализ данных
-
Создание приложений для обработки информации
-
Разработка моделей машинного обучения на основе полученных данных
Если поступает заказ с более или менее сформулированной проблемой, к работе приступает дата-аналитик. Он готовит список ответов на следующие вопросы:
- Какие данные понадобятся для решения поставленной задачи?
- Каким образом получить доступ к этим данным?
- Являются ли эти данные консистентными?
- Какого результата нужно добиться?
- Есть ли у подобной реализации техническая возможность?
- Удовлетворит ли данное решение заказчика?
Для осуществления заказа аналитик использует:
-
Почту
-
Ручные запросы к базам данных
-
Общение
Дата-аналитик является связующим звеном между людьми, которые принимают решение и техническими исполнителями бизнес-идей.
Вместе с дата-аналитиком работает дата-инженер. Он же — разработчик больших данных. Это второе направление в сфере. Основные его задачи:
-
Осуществлять отчетность
-
Архивировать и загружать информацию для её последующего анализа
-
Структурировать данные технических логов в структурированную статистику
-
Оптимизировать, группировать и фильтровать данные
Дата-инженеры нужны для того, чтобы настроить интеграцию информации так, чтобы не создавались лишние проблемы, не терялись данные, всё выполнялось в срок и регулярно. Их работа состоит в написании специального приложения, которое должно работать без участия человека.
Также они помогают дата-аналитикам построить некую бизнес-логику. Те потом оформляют её в ТЗ и отправляют разработчику, вводя его в курс дела.
Последним направлением занимаются дата-сайентисты. Они отвечают за углубленное изучением информации, а также применяют машинное обучение в работе.
Дата-сайенисты, в отличие от инженеров, могут работать как в команде с аналитиками, так и самостоятельно. Во втором случае они сами отвечают за взаимодействие с бизнес-подразделением.
Помимо этого они могут работать и с дата-инженерами. Здесь сайенисты передают коллегам алгоритмы исследования данных, чтобы те смогли оптимизировать код для постановки машинного обучения на регулярный срок. Инженеры в свою очередь подготавливают данные для анализа.
Подводим итоги:
- Дата-аналитики находят нужные для бизнес-идеи данные и транслируют бизнес-потребность
- Дата-инженеры на основе полученного от аналитиков ТЗ создают приложения для обработки данных
- А дата-сайентисты применяют методы машинного обучения и статистики, чтобы исследовать данные и получить нужную информацию
Как работает эта технология
У данной технологии есть несколько этапов:
- Сбор и хранение информации
- Обработка (структурирование, агрегация, описание)
- Очистка
- Выявление связей и прогнозирование (анализ)
Поговорим о каждом по отдельности.
Первый этап
Всего у «биг даты» три источника:
-
Люди. Мы публикуем свои фото, делимся местоположением, отправляем сообщения. Всё это занимает много памяти
-
Машины. К ним относятся видеозаписи с камер наблюдения, данные с телефонов, метеоспутников и даже Bluetooth колонки
-
Деньги. Переводы, транзакции, покупки и тому подобное
Для сбора и хранения чаще всего используют:
-
NoSQL. Базы данных, в которых можно хранить данные без четкой схемы или структуры. Чем не могут похвастаться другие подобные инструменты. Эти базы данных имеют более высокую скорость и масштаб. К ним относятся: Apache CouchDB, MongoDB и Azure Cosmos DB
-
Apache Hadoop. Очень удобная платформа для хранения и обработки большого количества данных. Одна из первых на рынке. Подстраивается под нужды клиента, является экономичной и крайне гибкой
-
Хранилища и озера данных. И те и другие созданы для извлечения и хранения информации. Только в первом случае данные обязательно должны быть преобразованы по строгим схемам, вроде «снежинки» или «звезды». Вторые же хранят информацию в первозданном виде. Часто используются и хранилища и озера одновременно. Они дополняют друг друга. В итоге работа становится проще и организованнее
Обработать такое количество информации, которую поддерживает Big Data на одном устройстве было бы невозможно. Особенно учитывая с какой скоростью появляется новая информация. Чтобы распределить задачи между большим количеством компьютеров и других приборов используют горизонтальное масштабирование. А для того чтобы всю эту информацию собрать и загрузить в одно место, прибегают к помощи системы ETL (Extract, Transform and Load).
Второй этап
Что используется:
-
Инструменты для обработки данных в памяти. Намного быстрее традиционных, так как для данного метода используется ОЗУ, а не диск. Так что аналитику можно получить в режиме реального времени
-
Програмное обеспечение для интеграции данных. Они подключают различные платформы к единой системе (обычно к хранилищу данных). И уже там информация консолидируется. Благодаря этому каждый пользователь имеет доступ ко всем необходимым данным, чтобы начать анализ
Третий этап
Для того чтобы убрать все ошибки, пропущенные значения и дубликаты, используются средства для очистки данных. Они выстраивают информацию по единому стандарту и проверяют на ошибки. После этого данные готовы к анализу.
Четвертый этап
Что используется:
-
Инструменты для аналитики данных в реальном времени. Объединяют, хранят, обрабатывают и анализируют информацию
-
Инструменты для интеллектуального анализа данных. Извлекают полезные сведения, выявляют закономерности и взаимосвязи, а также распознают текущие тенденции. Работают как со структурированными, так и с неструктурированными данными
-
Инструменты для прогнозной аналитики. Создают аналитические модели, которые прогнозируют закономерности и поведения
Для успешного анализа больших данных нет единого средства. Нужно использовать набор технологий и объединять их. Он может состоять из разных инструментов. Выше были приведены самые распространенные из них.
Где применяется
Big Data используется не только в бизнесе или IT. Эта система распространена в науке, здравоохранении, перевозках, маркетинге, сельском хозяйстве и других сферах.
Медиа
Медиа используют «Биг Дату» для успешного продвижения контента. А именно — собирается информация о том, какие заголовки привлекают читателей, в какое время больше всего просмотров и что за темы больше всего интересны.
Благодаря Big Data американское интернет-издание Huffington Post выяснили, что чаще всего контент для родителей просматривается в будние дни, поздно вечером. В выходные же эта активность снижается. На основе полученной информации Huffington Post сделали выводы и начали публиковать статьи в пик просматриваемости.
Маркетинг
В маркетинге анализируют личную информацию пользователей: пол, возраст, просматриваемый контент. Многие против, чтобы за ними «следили» корпорации, поэтому вокруг такого сбора информации часто разгораются скандалы. К примеру, стриминговую платформу Netflix не раз обвиняли в расизме и национализме. Всё потому, что предлагаемые фильмы и шоу часто выбирались на основе цвета кожи и происхождения клиентов.
На самом же деле, маркетологи не интересуются конкретными людьми. Они рассматривают клиентов с точки зрения групп, которые можно охарактеризовать по интересам, полу, возрасту и другим совместным характеристикам, чтобы предложить определенные товары тем, ко может в них заинтересоваться.
Логистика
В логистке Big Data используется в двух направлениях:
-
Чтобы оптимизировать перевозки
-
И для анализа работы сотрудников
Перевозки всегда можно сделать дешевле и быстрее. К примеру, компания DHL заметила, что водителям приходится тратить много времени и топлива на поиск парковочного места у пункта назначения. То есть, они столкнулись с проблемой «последней мили», которая съедала около 28% от стоимости доставки. Чтобы это исправить сотрудники начали делать анализы с помощью данных о дорожной обстановке и GPS.
Что касается второго пункта, здесь можно проанализировать качество работы сотрудников, соблюдение ими сроков и правил.
Автомобилестроение
Пожалуй, одна из самых полезных областей использования биг даты.
Несколько лет назад, в 2022 году, компания Toyota столкнулась с серьезной задачей. Им нужно было понять как предотвратить большое количество аварий, связанных с тем, что водители путали педали газа и тормоза. Благодаря анализу оказалось, что люди по-разному нажимают на педаль в зависимости от того, хотят ли они затормозить или увеличить скорость. После этого в машины марки Toyota начали встраивать новый механизм. Он определял каким образом была нажата педаль. И, если водитель тормозил так, словно хотел набрать скорость, то машина подстраивалась под его желание. И наоборот.
Медицина
В Америке ученые решили определить распространение депрессии. Для этого они подключили специальный алгоритм в социальную сеть Twitter с геометками. Модель была направлена на определенные слова, которые могли быть связаны с болезнью. Позже результаты сравнили с официальными данными. Они совпали.
Рынок Big data в России
Российский рынок Big Data пока не настолько развит, как в других странах. Только в 2018-2019 годах началось активное внедрение этой системы. Тем не менее, прогнозы оптимистичные. В 2019 году Boston Consulting оценила объем Российского рынка Big Data в 45 миллиардов рублей, с темпом прироста на 12% за последние пять лет. Эксперты считают, что к 2024 году ожидается прирост до 300 миллиардов рублей.
Также, Hitachi Vantara вместе с International Data Corporation (IDC) провели опрос. В результате выяснилось, что более 55% организаций в России решили выделить бюджет на внедрение технологий «биг дата». Участие приняло более ста компаний.
Основными потребителями «больших данных» в России являются крупные ритейлеры, банки и телеком-операторы. Самая большая проблема заключается в нехватке профессионалов в этой области, что делает их еще более востребованными.
В 2018 году была основана Ассоциация больших данных (АБД). В нее входят самые крупные участники данного рынка в Российской Федерации:
- АО «Т-Банк»
- ПАО «ВымпелКом» (Билайн)
- АО «КИВИ Банк» (QIWI)
- ООО «Яндекс»
- ПАО «Мегафон»
- ООО «Мэйл.ру»
- ПАО «Ростелеком»
- АО «Газпромбанк»
- ПАО «Сбербанк России»
- ПАО «МТС»
- ПАО «Банк ВТБ»
- АО «Россельхозбанк»
- ООО «КЕХ еКоммерц» (Авито)
- ООО «В Контакте»
Перспективы развития
Востребованность в Big Data растёт с каждым годом. Не нужно использовать «большие данные», чтобы проанализировать это. Люди всё чаще используют электронные гаджеты. Получать и делиться информацией стало намного проще, чем раньше. Потребительский рынок растёт. А главное — компании давно поняли, что можно сэкономить большое количество денег, если пользоваться Big Data.
Один из наглядных примеров — это корпорация Caterpillar. Каждый год она упускала $9 до $18 миллиардов, потому что не использовала технологии Big Data. Когда на это обратили внимание, на их технику стали внедряться датчики. Они собирают информацию о поломках и степени износа ключевых деталей их продуктов. Благодаря этому доход Caterpillar вырос.
Вырос и спрос на специалистов по Big Data. Только на Российском рынке труда число вакансий по этой специальности выросло в несколько раз.