Меню
Каталог
Каталог
Все статьи
Программирование

Что такое базы данных и где применяются

Понятие «база данных» мы встречаем каждый день. Однако не только рядовые пользователи, но и представители IT-сообщества зачастую путают определения и варианты классификации баз данных. Ниже мы расскажем относительно простыми словами, что называется базой данных, какие БД существуют, как расшифровываются англоязычные термины баз данных SQL и OLAP. Вы узнаете, для чего нужна та или иная база данных в хозяйственной или научной деятельности.

Владислав Громов Владислав Громов SEO-специалист
Что такое базы данных и где применяются

Проблема определения

В монографиях и статьях по программированию и обработке информации существуют десятки не противоречащих друг другу определений того, что можно назвать базой данных. В каждом из которых заключено рациональное зерно. База данных это кратко – совокупность облеченных в цифровую форму материалов, систематизированных так, что их можно в любой момент найти и обработать с помощью ЭВМ.  

Согласно другому определению БД – это набор перманентно хранимой информации, которая обрабатывается прикладными программно-аппаратными средствами  какой-либо организации.

В данном случае акцент сделан на том, что у собранной БД есть заинтересованный владелец, бесхозных баз не бывает. Возможен лишь платный или условно бесплатный доступ посторонних к базам данных. Но подавляющее большинство БД являются приватными и предназначены для внутреннего использования частными и государственными организациями.

Свойства БД

Атрибутами любой базы данных служат:

  • Привязка к вычислительной системе. Бумажный архив или самая богатая библиотека с точки зрения айтишника базой данных не являются, хотя тоже хранят массив информации и имеют примитивные средства аналитики и управления

  • Наличие логической структуры, позволяющей создавать эффективные поисковые и аналитические запросы

  • Наличие у каждой БД схемы (метаданных), которые описывают алгоритм работы с содержимым 

Важно отметить, что специалисты понимают под базой данных не просто «склад» разложенной по полкам стеллажей информации, но и работающие механизмы ее поиска, анализа и видоизменения. Такие механизмы называются системой управления базами данных или сокращенно СУБД.

Задачи СУБД

Объединенные в единой целое информационная база и СУБД обеспечивают:

  • Ввод данных с обеспечением логического контроля. Под контролем понимается недопустимость ввода некорректных данных вроде дня рождения 29 февраля невисокосного года или 31 июня любого года

  • Корректировка ранее введенной информации

  • Удаление устаревших и неактуальных данных

  • Контроль непротиворечивости информации из разных частей базы

  • Защита от потери данных в результате аварийных ситуаций (сбой электропитания, поломка оборудования)

  • Восстановление нарушенных данных

  • Поиск данных по заданным критериям

  • Структурирование и сортировка информации

  • Обеспечение коллективного, избирательного или  иерархического доступа к данным

  • Защита от несанкционированного доступа

Создавая архитектуру БД, программист или инженер не забывает о создании удобного интерфейса для рядовых пользователей.

Когда появились БД

Первые хранилища данных на перфокартах появились в 1955 году. С тех пор теория и практика хранения, переработки и структурирования информации шагнула далеко вперед. Современные БД хранят петабайты (1 Пб = 1015 байт) информации, размещенные на виртуальных (облачных) серверах. 

Организации и частные лица, заинтересованные в безопасности конфиденциальной информации, вынуждены хранить ее на физических серверах (железе), что безопасно, но предполагает конечную емкость хранилища.

Где применяются

Сегодня проще найти сферу, где базы данных до сих пор не применяются. Без структурного хранения и обработки информации невозможны:

  • Фундаментальная и прикладная наука

  • Автоматизированное производство

  • Транспорт и логистика

  • Разведка, добыча и переработка полезных ископаемых

  • Оптовая и розничная торговля

  • Налоговый учет и работа фискальных органов

  • Правоохранительная и судебная деятельность

  • Телекоммуникация и СМИ

Где применяется

Львиная доля информации, собираемой в базах данных, так никогда и не будет востребована. Звоня в поликлинику или вызывая такси, мы слышим в динамике телефонной трубки: «Для улучшения качества обслуживания разговор записывается». 

Технически это несложно, разговор фиксируется не на магнитофон в регистратуре или в операторской такси, а на сервере компании, предоставляющей услуги связи. Там копятся терабайты спокойных и раздраженных голосовых коммуникаций. В положенные по регламенту месяцы или годы они удаляются. Но в случае конфликтной ситуации нужный аудиофайл из базы можно легко извлечь и дать делу нужный ход.

Структура базы данных

Единицей хранения в любой БД является запись. Это связанные между собой данные о конкретном объекте. Запись состоит из полей. Так, в запись о пользователе социальной сети или о пациенте поликлиники входят следующие поля:

  • ФИО

  • Адрес

  • Мобильный телефон

  • Электронная почта

  • Семейное положение и так далее

В записи всегда есть ключевые поля – идентификаторы, отличающие запись от всех остальных.

Типы баз данных

Существует несколько непротиворечивых вариантов классификации баз данных. По характеру связи между записями определяются три типа организации БД:

Типы базы данных

  • Иерархический

  • Сетевой

  • Реляционный

В иерархической базе данных записи располагаются в виде дерева. Между записями могут быть связи «одна к нескольким» или «одна к одной». Каждая запись может относиться только к одной «родительской» записи. 

Ни один  «потомок» существовать без «родителя» не может. Любой элемент дерева дедуктивно приводит к базовому прародителю, верхнему элементу. Пример иерархической структуры: Банк (верхний уровень) – Клиенты юридические лица и физические лица — Счета юридических лиц расчетные, ссудные, депозитные и так дальше по нисходящей.  

Сетевые базы

Отличие сетевой архитектуры в том, что у «потомка» может быть несколько «предков». Связи межу элементами устанавливаются без ограничений. Искомая запись при этом ищется по самому короткому маршруту, что повышает быстродействие обработки данных. 

Такая структура более жизненна: клиент банка может быть одновременно и заемщиком, и вкладчиком, и даже работником этого банка, а если повезет – то еще и его акционером.  Сетевые базы данных иногда называют графовыми.

Базы относительности

На практике, однако, подавляющее большинство баз данных имеют реляционную структуру, где записи хранятся не в виде деревьев или сеток, а в виде строчных таблиц. Столбцы таблиц играют роль полей-идентификаторов. В одну строку помещается единственная запись.

Самым доступным примером реляционной базы данных является программа MS Access

В профессиональном хранении и обработке данных используются более функциональные СУБД:

  •  Oracle

  • Microsoft SQL Server

  • PostgreSQL

  • MySQL

Все они создаются и администрируются с помощью специального программного средства SQL. Аббревиатура расшифровывается как Structured Query Language – язык структурированных запросов. Важно понимать, что SQL – это не язык программирования в традиционном смысле, а комплекс инженерных инструментов. Сами коды в среде SQL пишутся на языке Python (или аналогов), знание которого совместно со знанием SQL – обязательно для дата-инженера и дата-аналитика.

Альтернатива SQL

Существуют также NoSQL-базы, работающие на иных принципах. К ним относятся документоориентированные графовые базы данных и key-value хранилища.

К документоориентированным БД относятся:

  •  Amazon DocumentDB

  • CouchDB

  • MongoDB

В них записи хранятся не в виде строк, а виде виртуальных документов. Способ хранения актуален для изменчивых или составных структур данных. Подобная архитектура реализована в системе хранения данных пользователей социальных сетей.

В последние 10 лет наблюдается тенденция сближения баз SQL и документоориентированной архитектуры.

Примеры key-value хранилищ - Aerospike, DynamoDB, Redis. Здесь данные хранятся в виде хэш-архива. Применимость таких баз довольно ограничена. Они подходят для сайтов-рекомендателей, сервисов геопозиционирования.

Базы для мегаданных

Если проект требует хранения и обработки петабайтных массивов информации, не обойтись без структуры OLAP (online analytical processing). Если сравнивать с обычной реляционной базой, то это объемное и плоское изображение. В ОЛАП основное структурирование информации идет по вертикальным колонкам, дополнительное – по горизонтальным строкам.

Структура рабочих данных называется OLAP-куб. Куб создаётся из соединения таблиц с применением «схемы  снежинки». В центре схемы располагается таблица ключевых фактов, по которым выполняются запросы. 

Множественные таблицы присоединены к таблице фактов. Количество вариантов агрегации определяется числом способов, которыми первоначальные данные могут быть отображены. Такая схема обеспечивает скорость обработки информации, недоступную всем прочим СУБД.

Ответы на вопросы

Это структурированная информация, предназначенная для анализа и обработки с помощью электронно-вычислительной техники в пользу определенной организации или интернет-сообщества.

Сами по себе базы данных ничего не изучают и не анализируют. Аналитическая работа в них запускается с помощью запросов. Текст запроса пишет программист, затем он размещается в пользовательском интерфейсе в виде, понятном простым смертным.

В то же время трендом является машинное обучение компьютерных систем, в рамках которого базы данных самосовершенствуются без прямого вмешательства человека.

Реляционные базы представлены в виде строк, уложенных плоско одна на другую. Базы OLAP – это условный куб из перпендикулярных строк и столбцов. 

Графовые базы данных – сетка, узлы в которых содержат информацию, а по нитям происходит информационный обмен. Тенденция последних лет – объединение разных архитектур и аналитических механизмов.

Содержание
Информация была полезна?
13 оценок, среднее: 4.91 из 5