Um data warehouse é um tipo de sistema de gerenciamento de dados projetado para ativar e fornecer suporte às atividades de business intelligence (BI), especialmente a análise avançada. Os data warehouses destinam-se exclusivamente a realizar consultas e análises avançadas e geralmente contêm grandes quantidades de dados históricos. Os dados em um data warehouse geralmente são derivados de uma ampla variedade de fontes, como arquivos de log de aplicativos e aplicativos de transações.
Um data warehouse centraliza e consolida grandes quantidades de dados de várias fontes. Seus recursos analíticos permitem que as organizações obtenham informações de negócios úteis de seus dados para melhorar a tomada de decisões. Com o tempo, cria-se um registro histórico que pode ser inestimável para cientistas de dados e analistas de negócios. Devido a esses recursos, um data warehouse pode ser considerado como a “única fonte confiável” de uma organização.
Um data warehouse típico geralmente inclui os seguintes elementos:
As organizações também podem selecionar uma solução que combine processamento de transações, análise em tempo real em data warehouses e data lakes e machine learning em um serviço de banco de dados MySQL, sem a complexidade, a latência, o custo e os riscos da duplicação de extração, transformação e carregamento (ETL).
Os data warehouses oferecem o benefício único e abrangente de permitir que as organizações analisem grandes quantidades de dados variantes e extraiam um valor significativo, além de manter um registro histórico.
Quatro características únicas (descritas pelo cientista da computação William Inmon, que é considerado o pai do data warehouse) permitem que os data warehouses forneçam esse benefício abrangente. De acordo com essa definição, os data warehouses são
Um data warehouse bem projetado realizará consultas muito rapidamente, fornecerá alta taxa de transferência de dados e dará flexibilidade suficiente para os usuários finais dividirem e organizarem ou reduzirem o volume de dados para um exame mais detalhado a fim de atender a uma variedade de demandas, seja em um nível alto ou em um nível muito bom e detalhado. O data warehouse serve como a base funcional para ambientes de BI de middleware que fornecem aos usuários finais relatórios, painéis e outras interfaces.
A arquitetura de um data warehouse é determinada pelas necessidades específicas da organização. Arquiteturas comuns incluem
Quando os data warehouses entraram em cena pela primeira vez no final dos anos 1980, o objetivo era ajudar o fluxo de dados dos sistemas operacionais em sistemas de suporte à decisão (DSSs). Esses data warehouses iniciais exigiam uma quantidade enorme de redundância. A maioria das organizações tinha vários ambientes DSS que atendiam a seus vários usuários. Embora os ambientes de DSS usassem muitos dos mesmos dados, a coleta, a limpeza e a integração dos dados eram frequentemente replicadas em cada ambiente.
À medida que os data warehouses se tornaram mais eficientes, eles evoluíram do armazenamentos de informações que forneciam suporte a plataformas tradicionais de BI a amplas infraestruturas analíticas compatíveis com uma grande variedade de aplicativos, como análise avançada operacional e gerenciamento de desempenho.
As iterações de data warehouse progrediram ao longo do tempo para fornecer valor incremental à empresa com o enterprise data warehouse (EDW).
Etapa | Capacidade | Valor do Negócio |
---|---|---|
1 | Relatório transacional | Fornece informações relacionais para criar instantâneos de desempenho de negócios |
2 | Divisão e organização, consulta ad hoc, ferramentas de BI | Expande recursos para informações mais detalhadas e análises mais robustas |
3 | Previsão do desempenho no futuro (mineração de dados) | Desenvolve visualizações e business intelligence voltado para o futuro |
4 | Análise tática (espacial, estatística) | Oferece cenários hipotéticos para fundamentar decisões práticas baseadas em análises mais abrangentes |
5 | Armazena muitos meses ou anos de dados | Armazena dados por apenas semanas ou meses |
O suporte a cada uma dessas cinco etapas exigiu uma variedade crescente de conjuntos de dados. As três últimas etapas em particular criam o imperativo para uma gama ainda maior de recursos de dados e análise avançada.
Hoje, a IA e o machine learning estão transformando quase todos os setores, serviços e ativos corporativos, e os data warehouses não são exceção. A expansão do big data e a aplicação de novas tecnologias digitais estão impulsionando a mudança nos requisitos e recursos de data warehouse.
O data warehouse de dados autônomo é a etapa mais recente nessa evolução, oferecendo às empresas a capacidade de extrair ainda mais valor de seus dados enquanto reduzem os custos e melhoram a confiabilidade e o desempenho do data warehouse.
Saiba mais sobre data warehouses autônomos e, em seguida, comece com seu próprio data warehouse autônomo.
Embora desempenhem funções semelhantes, os data warehouses são diferentes dos data marts e dos armazenamentos de dados de operação (ODSs). Um data mart realiza as mesmas funções que um data warehouse, mas dentro de um escopo muito mais limitado, geralmente um único departamento ou linha de negócios. Isso torna os data marts mais fáceis de estabelecer do que os data warehouses. No entanto, eles tendem a introduzir inconsistência porque pode ser difícil gerenciar de modo uniforme e controlar os dados em vários data marts.
ODSs fornecem suporte somente a operações diárias; portanto, a visão dos dados históricos é muito limitada. Embora funcionem muito bem como fontes de dados atuais e sejam frequentemente usados como tal pelos data warehouses, não fornecem suporte a consultas historicamente detalhadas.
Um data warehouse em nuvem usa a nuvem para ingerir e armazenar dados de fontes de dados distintas.
Os data warehouses originais foram criados em servidores on-premises. Esses data warehouses on-premises continuam tendo muitas vantagens hoje. Em muitos casos, eles podem oferecer melhor governança, segurança, soberania de dados e melhor latência. No entanto, os data warehouses on-premises não são tão elásticos e exigem uma previsão complexa para determinar como escalonar o data warehouse para necessidades futuras. O gerenciamento desses data warehouses também pode ser muito complexo.
Por outro lado, entre algumas das vantagens dos data warehouses em nuvem estão:
Os melhores data warehouses em nuvem são totalmente gerenciados e autônomos, garantindo que até mesmo os iniciantes possam criar e usar um data warehouse com apenas alguns cliques. Uma maneira fácil de iniciar a migração para um data warehouse em nuvem é executar o data warehouse em nuvem on-premises, por trás do firewall do data center que atende aos requisitos de segurança e soberania de dados.
Além disso, a maioria dos data warehouses em nuvem segue um modelo sem assinatura (Pay as You Go), o que traz economia de custos adicionais aos clientes.
Sejam eles parte de equipes de TI, engenharia de dados, análise de negócios ou ciência de dados, diferentes usuários em toda a organização têm necessidades diferentes de um data warehouse.
Uma arquitetura de dados moderna atende a essas necessidades diferentes, oferecendo uma maneira de gerenciar todos os tipos de dados, cargas de trabalho e análises. Ela consiste em padrões de arquitetura com componentes necessários integrados para trabalhar juntos no alinhamento com as boas práticas do setor. O data warehouse moderno inclui:
Um data warehouse moderno pode aprimorar com eficiência os fluxos de trabalho de dados de maneira que outros warehouses não conseguem. Isso significa que todos, de analistas e engenheiros de dados a cientistas de dados e equipes de TI, podem realizar os trabalhos de maneira mais efetiva e buscar o trabalho inovador que impulsiona a organização, sem incontáveis atrasos e complexidade.
Quando uma organização se propõe a projetar um data warehouse, ela deve começar definindo seus requisitos de negócios específicos, concordando com o escopo e elaborando um projeto conceitual. A organização pode então criar o design lógico e físico para o data warehouse. O design lógico envolve as relações entre os objetos e o design físico envolve a melhor maneira de armazenar e recuperar os objetos. O design físico também incorpora os processos de transporte, backup e recuperação.
Todo design de data warehouse de dados deve abordar o seguinte:
Um fator primário no design são as necessidades dos usuários finais. A maioria dos usuários finais está interessada em realizar análises e analisar dados agregados, em vez de transações individuais. No entanto, muitas vezes os usuários finais realmente não sabem o que querem até que surja uma necessidade específica. Assim, o processo de planejamento deve incluir exploração suficiente para antecipar as necessidades. Finalmente, o design do data warehouse deve permitir espaço para expansão e evolução para acompanhar as necessidades em evolução dos usuários finais.
Os data warehouses na nuvem oferecem as mesmas características e os benefícios dos data warehouses on-premise, mas com os benefícios adicionais da computação em nuvem, como flexibilidade, escalabilidade, agilidade, segurança e custos reduzidos. Os data warehouses em nuvem permitem que as empresas se concentrem unicamente na extração de valor de seus dados, em vez de precisarem construir e gerenciar a infraestrutura de hardware e software para fornecer suporte ao data warehouse.
As organizações usam data lakes e data warehouses para grandes volumes de dados de várias fontes. A escolha de quando usar um ou outro depende do que a organização pretende fazer com os dados. Veja a seguir como cada um é melhor usado:
Os data warehouses são ambientes relacionais usados para análise de dados, particularmente de dados históricos. As organizações usam data warehouses para descobrir padrões e relacionamentos em seus dados que se desenvolvem com o tempo.
Em contraste, os ambientes transacionais são usados para processar transações de forma contínua e são comumente usados para entrada de pedidos e transações financeiras e de varejo. Não se baseiam em dados históricos; na verdade, em ambientes OLTP, os dados históricos geralmente são arquivados ou simplesmente excluídos para melhorar o desempenho.
Os data warehouses e os sistemas de OLTP diferem significativamente.
Data Warehouse | Sistemas OLTP | |
---|---|---|
Carga de trabalho | Acomoda consultas ad hoc e análise avançada de dados | Fornece suporte somente a operações predefinidas |
Modificações de dados | Atualiza de forma automática regularmente | Atualizações por usuários finais que emitem declarações individuais |
Projeto de esquema | Utiliza esquemas parcialmente desnormalizados para otimizar o desempenho | Utiliza esquemas totalmente normalizados para garantir a consistência dos dados |
Digitalização de dados | Abrange milhares a milhões de linhas | Acessa apenas um grupo de registros de cada vez |
Dados históricos | Armazena muitos meses ou anos de dados | Armazena dados por apenas semanas ou meses |
A iteração mais recente do data warehouse é o data warehouse autônomo, que se baseia em IA e machine learning para eliminar tarefas manuais e simplificar a configuração, a implementação e o gerenciamento de dados. Um data warehouse como serviço autônomo na nuvem requer administração de banco de dados executada por humanos, configuração ou gerenciamento de hardware ou instalação de software.
A criação de data warehouse, o backup, a correção e a atualização do banco de dados, além da expansão ou redução do banco de dados são todos executados automaticamente, com a mesma flexibilidade, dimensionamento, agilidade e redução de custos oferecidos pelas plataformas de nuvem. O data warehouse autônomo elimina a complexidade, acelera a implementação e libera recursos para que as organizações possam se concentrar em atividades que agreguem valor aos negócios.
O Oracle Autonomous Data Warehouse é um data warehouse autônomo totalmente autônomo, fácil de usar e dimensionável elasticamente que oferece desempenho de consulta rápida e não requer administração de banco de dados. A configuração do Oracle Autonomous Data Warehouse é muito simples e rápida.