Хранилище данных — это разновидность системы управления данными, которая обеспечивает поддержку бизнес-аналитики. Хранилища данных предназначены только для выполнения запросов и анализа и обычно содержат большие объемы исторических данных. Данные обычно поступают в хранилище из самых различных источников, таких как журналы приложений и приложения транзакций.
Хранилище данных служит для централизации и консолидации больших объемов данных из различных источников. Аналитические инструменты дают возможность компаниям извлекать из собственных данных ценные для бизнеса сведения и повышать эффективность принятых решений. Со временем в хранилище накапливаются записи за прошедшие периоды, которые представляют большую ценность для специалистов по изучению данных и бизнес-аналитиков. Эти возможности делают хранилища данных единым источником проверенной информации компании.
Обычно хранилище данных включает в себя следующие компоненты:
Компании также могут выбрать решение, которое объединияет обработку транзакций, аналитику в режиме реального времени для хранилищ данных и озер данных, а также машинное обучение в одной службе баз данных MySQL без сложностей, задержек, затрат и риска, связанного с дублированием при извлечении, преобразовании и загрузке данных (ETL).
Хранилища данных обеспечивают для компаний обширные преимущества, так как дают возможность анализировать большие объемы разнообразных данных, извлекать из них значительную ценность, а также хранить записи за прошедшие периоды.
Эти уникальные преимущества доступны благодаря четырем отличительным особенностям хранилищ данных, которые описал специалист по вычислительным системам Уильям Инмон (William Inmon). Согласно данному им определению, хранилища данных имеют следующие характеристики.
Хорошо спроектированное хранилище данных обеспечивает быстрое выполнение запросов, эффективное прохождение больших объемов данных и достаточный уровень гибкости, чтобы конечные пользователи могли формировать продольные и поперечные срезы данных или уменьшать их объем для более подробного изучения, то есть обеспечивает соответствие самым различным потребностям в изучении данных как на высшем, так и на самом низовом уровне. Хранилища данных служат функциональной основой для промежуточных сред бизнес-аналитики, которые предоставляют конечным пользователям доступ к отчетам, панелям мониторинга и прочим элементам интерфейса.
Архитектура хранилища данных зависит от потребностей компании. Наиболее распространенными типами архитектур являются следующие.
Первые хранилища данных появились в конце 1980-х гг., и их задачей было обеспечить обмен данными между операционными БД (БД для поддержки бизнеса) и системами поддержки принятия решения (СППР). Первым хранилищам данных требовалось много копий. Большинство компаний использовали несколько СППР для различных потребностей. Хотя эти СППР обычно использовали одни и те же данные, процессы сбора, очистки и интеграции выполнялись для каждой из них по отдельности.
По мере того как эффективность хранилищ данных росла, они превратились из «складов информации» для поддержки традиционных платформ бизнес-аналитики в обширные аналитические инфраструктуры, которые сегодня обслуживают самые разнообразные потребности компаний, включая операционную аналитику и управление эффективностью.
Эволюция хранилищ данных сделала их важным инструментом для постепенного наращивания бизнес-ценности для предприятия в виде банка данных предприятия (EDW).
Шаг | Возможности | Бизнес-преимущество |
---|---|---|
1 | Транзакционная отчетность | Обеспечивает реляционные сведения для создания моментальных снимков бизнес-эффективности |
2 | Продольные и поперечные срезы данных, специальные запросы, инструменты бизнес-аналитики | Расширяет возможности для углубленного и более эффективного анализа |
3 | Прогнозирование эффективности в будущем (глубинный анализ данных) | Обеспечивает визуализации данных и бизнес-аналитические прогнозы |
4 | Тактический анализ (пространственный анализ, статистика) | Обеспечивает альтернативные сценарии для принятия решений на основе комплексного анализа |
5 | Хранит данные за несколько месяцев или лет | Хранит данные за несколько недель или месяцев |
На каждом из пяти этапов требуется увеличивать разнообразие наборов данных. На последних трех этапах максимально обширный диапазон данных и аналитических средств является обязательным требованием.
Сегодня технологии ИИ и машинное обучение применяются практически во всех инструментах для промышленности, сферы обслуживания и бизнеса. И хранилища данных не стали исключением. Широкое применение больших данных и внедрение новых цифровых технологий способствуют изменению требований к хранилищам данных и их функциональным возможностям.
Автономные хранилища данных представляют собой наиболее современное решение. Они дают возможность предприятиям извлекать еще больше ценных сведений из данных и в то же время обеспечивают более высокий уровень надежности и эффективности.
Подробнее об автономных хранилищах данных и о том, с чего начать работу с собственным автономным хранилищем.
Хранилища данных, витрины данных и хранилища операционных данных (ODS) выполняют схожие роли, однако имеют свои отличия. Витрины данных имеют те же функции, что и хранилища данных, однако, как правило, ограничены одним подразделением или направлением бизнеса. Такая особенность дает возможность создавать витрины легче, чем хранилища данных. Тем не менее использование нескольких витрин может вести к потере целостности данных, так как между ними сложно обеспечить управление данными и контроль.
ODS используются только для поддержки ежедневных операций, поэтому доступ к историческим данным в них весьма ограничен. Они эффективны в качестве источника актуальных сведений и часто используются в этом качестве хранилищами данных, но не поддерживают сложные запросы к историческим данным.
Облачное хранилище данных использует облако для получения и хранения данных из разрозненных источников.
Первоначально хранилища данных создавались на локальных серверах. У таких локальных хранилищ данных и сегодня много преимуществ. Во многих случаях они могут обеспечить более качественное управление, повышенную безопасность, суверенитет данных и более низкую задержку. Однако локальные хранилища данных не настолько гибкие и для них необходимо сложное прогнозирование, чтобы определить, как масштабировать такие хранилища данных для будущих потребностей. Управление такими хранилищами данных тоже может быть непростой задачей.
С другой стороны, облачные хранилища данных отличаются следующими преимуществами.
Лучшие облачные хранилища данных отличает полная управляемость и самоуправляемость, поэтому даже новички могут создавать и начать использовать хранилища данных всего в несколько кликов. Простой способ начать переход в облачное хранилище данных заключается в размещении своего облачного хранилища данных в локальной среде под защитой брандмауэра Вашего центра обработки данных, что соответствует требованиям в отношении суверенитета данных и безопасности.
Кроме того, в большинстве облачных хранилищ данных используется модель оплаты по мере использования, что обеспечивает дополнительную экономию средств для заказчиков.
Разные пользователи в компании, будь то ИТ-группы, инженеры по данным, бизнес-аналитики или специалисты по изучению данных, имеют разные потребности в хранилище данных.
Современная архитектура данных способна удовлетворять разные потребности, предоставляя возможность управления всеми типами данных, нагрузками и аналитикой. Она состоит из эталонных архитектур с необходимыми компонентами, интегрированными для совместной работы в соответствии с лучшими отраслевыми практическими рекомендациями. Современное хранилище данных включает следующее.
Современное хранилище данных может так эффективно оптимизировать рабочие процессы, как ни одно другое хранилище ранее. Это означает, что каждый сотрудник, от аналитика и инженера по обработке данных до специалиста по изучению данных и ИТ-экспертов, может выполнять свою работу более эффективно и заниматься инновациями, помогая компании двигаться вперед без постоянных задержек и излишней сложности.
Проектирование хранилища данных для компании следует начать с определения конкретных бизнес-потребностей, согласования сферы применения и разработки концепции проекта. После этого можно приступать к разработке логической и физической модели хранилища данных. Логическая модель включает в себя взаимосвязи между объектами, в то время как физическая служит для определения оптимального способа хранения и извлечения объектов. Кроме того, она также включает в себя процессы передачи, резервного копирования и восстановления.
При проектировании хранилища данных обязательно нужно учитывать следующие факторы.
Наиболее важным фактором при проектировании является потребность конечных пользователей. Обычно пользователи используют хранилище для анализа, и им нужны данные в обобщенном виде, а не в виде отдельных транзакций. Тем не менее нередко конечные пользователи не знают, какие возможности им нужны до возникновения потребности в них. Таким образом, в процессе планирования необходимо предусмотреть резервные ресурсы для добавления новых возможностей. И наконец, при проектировании хранилища данных необходимо учитывать потребность в расширении по мере развития потребностей конечных пользователей.
Облачные хранилища данных имеют те же свойства и возможности, что и локальные, а также обеспечивают преимущества облачных вычислений, таких как гибкость, масштабируемость, маневренность, безопасность и экономичность. Использование облачных хранилищ данных дает возможность компаниям полностью сфокусироваться на извлечении полезных сведений из собственных данных вместо того, чтобы заниматься созданием и обслуживанием аппаратной и программной инфраструктуры, необходимой для поддержки хранилища данных.
Компании используют озера и хранилища данных для хранения больших объемов данных, полученных из разных источников. Выбор способа хранения зависит от того, как эта компания намеревается использовать данные. Ниже описаны рекомендуемые способы применения каждого из типов хранилищ.
Хранилища данных представляют собой реляционные среды, которые используют для анализа данных, прежде всего за прошедшие периоды. Компании используют хранилища данных для обнаружения вырабатывающихся со временем закономерностей и взаимосвязей в данных.
В отличие от них транзакционные среды применяются для непрерывной обработки транзакций, то есть ввода заказов и совершения финансовых и розничных операций. В них не используются исторические данные. Более того, в средах OLTP данные за прошедшие периоды обычно архивируют или даже удаляют, чтобы улучшить эффективность.
Хранилища данных и OLTP-системы значительно отличаются друг от друга.
Хранилище данных | OLTP-система | |
---|---|---|
Рабочая нагрузка | Поддерживает специализированные запросы и анализ данных | Поддерживает только предварительно заданные операции |
Изменения данных | Регулярно выполняются автоматические обновления | Обновления выполняют конечные пользователи с помощью специальных команд |
Дизайн схемы | Использует частично денормализованные схемы для улучшения эффективности | Использует полностью нормализованные схемы для обеспечения целостности данных |
Сканирование данных | Включает от нескольких тысяч до миллионов строк | Обеспечивает одновременный доступ только к нескольким записям |
Исторические данные | Хранит данные за несколько месяцев или лет | Хранит данные за несколько недель или месяцев |
Наиболее современной разновидностью хранилищ данных являются автономные хранилища. В них применяются технологии на основе ИИ и машинного обучения. Это дает возможность устранить потребность в ручном выполнении задач по установке, развертыванию и управлению. Автономные хранилища данных предоставляются в виде облачных сервисов и не требуют вмешательства пользователя для администрирования, настройки аппаратного обеспечения или установки ПО.
Создание хранилища данных, резервное копирование, исправления и обновления, а также увеличение и уменьшение размера базы данных выполняются автоматически, что обеспечивает высокие показатели гибкости, масштабируемости, маневренности, безопасности и экономичности, столь популярные в облачных решениях. Использование автономного хранилища данных дает возможность упростить обслуживание, ускорить развертывание и высвободить ресурсы. Так компании могут больше уделять времени на увеличение прибыли.
Oracle Autonomous Data Warehouse — простое в использовании, полностью автоматизированное хранилище данных, которое обеспечивает эластичную масштабируемость, быстрое выполнение запросов и не требует администрирования. Настройка Oracle Autonomous Data Warehouse не требует много времени и усилий.