Esta é uma definição simples: um data lake é um lugar para armazenar seus dados estruturados e não estruturados, bem como um método para organizar grandes volumes de dados altamente diversificados de diversas fontes.
Os data lakes estão se tornando cada vez mais importantes à medida que as pessoas, especialmente em negócios e tecnologia, desejam executar exploração e descoberta de dados amplos. Reunir dados em um único local ou a maior parte deles em um único local torna isso mais simples.
Dependendo da sua plataforma, o data lake pode tornar isso muito mais fácil. Ele pode lidar com muitas estruturas de dados, como dados não estruturados e multiestruturados, e pode ajudá-lo a obter valor de seus dados.
A principal diferença entre um data lake e um data warehouse é que o data lake tende a ingerir dados muito rapidamente e prepará-los mais tarde à medida que as pessoas o acessam. Com um data warehouse, por outro lado, você prepara os dados com muito cuidado antes de deixá-los no data warehouse.
Os usuários tendem a querer ingerir dados no data lake o mais rápido possível, de modo que empresas com casos de uso operacional, principalmente em torno de relatórios operacionais, análises e monitoramento de negócios, tenham os dados mais recentes. Isso permite que eles tenham acesso aos dados mais recentes e vejam as informações mais atualizadas.
Com o data lake, os usuários geralmente ingerem dados na forma original sem alterá-los. Isso pode ser por razões de velocidade, mas também pode ser por outros motivos, incluindo o desejo de executar análises avançadas que podem depender de dados de origem detalhados. Isso seria uma análise baseada em qualquer tipo de mineração, seja:
Para oferecer todas as vantagens que os data lakes podem oferecer, uma solução adequada deve ser capaz de oferecer melhores maneiras de:
Um data lake é mais útil quando faz parte de uma plataforma de gerenciamento de dados maior, e deve se integrar bem aos dados e ferramentas existentes para um data lake mais avançado.
Usar o data lake para estender o data warehouse é algo frequentemente visto no marketing omnicanal, às vezes chamado de marketing multicanal. A maneira de pensar sobre o ecossistema de dados em marketing é que cada canal pode ser seu próprio banco de dados e cada ponto de contato também pode ser. E muitos profissionais de marketing também compram dados de terceiros.
Por exemplo, um profissional de marketing pode querer comprar dados que tenham informações demográficas e de preferência do consumidor adicionais sobre clientes e clientes potenciais, e isso ajuda o profissional de marketing a preencher essa visão completa de cada cliente, o que, por sua vez, ajuda a criar campanhas de marketing mais personalizadas e direcionadas.
Esse é um ecossistema de dados complexo, e está ficando maior no volume e na complexidade o tempo todo. O data lake é trazido muitas vezes para capturar dados que vêm de vários canais e pontos de contato. E alguns deles, na verdade, estão transmitindo dados.
As empresas que oferecem uma aplicação para smartphone aos seus clientes podem estar recebendo esses dados em tempo real ou perto dele, conforme os clientes usam essa aplicação. Muitas vezes, a empresa não precisa realmente de tempo real. Pode ser uma hora ou duas. Mas permite que o departamento de marketing faça um monitoramento muito granular do negócio e crie especialidades, incentivos, descontos e microcampanhas.
A cadeia de suprimentos digital é um ambiente de dados igualmente diversificado e o data lake pode ajudar com isso, especialmente quando o data lake está no Hadoop. O Hadoop é em grande parte um sistema baseado em arquivos porque foi originalmente projetado para arquivos de log muito grandes e altamente numerosos provenientes de servidores web. Na cadeia de suprimentos, geralmente, há uma grande quantidade de dados baseados em arquivo. Pense em dados baseados em arquivos e em documentos de sistemas EDI, XML e, claro, atualmente, JSONs muito fortes na cadeia de suprimentos digital. Essa é uma informação muito diversa.
Há também informações internas a serem consideradas. Os fabricantes muitas vezes têm dados do chão de fábrica, bem como do envio e faturamento, que são altamente relevantes para a cadeia de suprimentos. O lago pode ajudar os fabricantes a reunir esses dados e gerenciá-los de uma maneira baseada em arquivos.
A Internet das Coisas está criando novas fontes de dados quase diariamente em algumas empresas. E à medida que essas fontes se diversificam, elas criam ainda mais dados. Cada vez mais, há mais sensores em mais máquinas. Por exemplo, todo veículo ferroviário de carga ou caminhão de carga como esse possui uma enorme lista de sensores para que a empresa possa rastrear esse veículo no espaço e no tempo, além de como ele é operado. É operado com segurança? É operado de maneira ideal em relação ao consumo de combustível? Grandes quantidades de informações estão vindo desses lugares, e o data lake é muito popular porque fornece um repositório para todos esses dados.
Agora, esses são exemplos de usos bastante direcionados do data lake em determinados departamentos ou programas de TI, mas uma abordagem diferente é a TI centralizada fornecer um único grande data lake multilocatário. Ela pode ser usada por vários departamentos, unidades de negócios e programas de tecnologia diferentes. À medida que as pessoas se acostumam com o lago, elas descobrem como otimizá-lo para diversos usos e operações, análises e até mesmo conformidade.
O data lake pode ser usado de muitas maneiras, e também tem muitas plataformas que podem estar sob ele. O Hadoop é a plataforma mais comum, mas não a única.
O Hadoop é atraente. Ele provou ter escalabilidade linear. É um custo baixo para a escalabilidade, por exemplo, em comparação com um banco de dados relacional. Mas o Hadoop não é apenas armazenamento barato. Também é uma plataforma de processamento avançada. E para aqueles que tentam fazer análises algorítmicas, o Hadoop pode ser muito útil.
O sistema de gerenciamento de banco de dados relacional também pode ser uma plataforma para o data lake, pois algumas pessoas têm grandes quantidades de dados que desejam colocar no lago estruturado e também relacional. Portanto, se seus dados forem inerentemente relacionais, uma abordagem DBMS para o data lake faria sentido perfeito. Além disso, se você tiver casos de uso em que deseja fazer funcionalidade relacional, como SQL ou junções de tabelas complexas, o RDBMS faz todo o sentido.
Mas a tendência é para sistemas baseados em nuvem e especialmente armazenamento baseado em nuvem. O grande benefício das nuvens é a escalabilidade elástica. Eles podem empacotar recursos de servidor e outros recursos à medida que as cargas de trabalho aumentam. E em comparação com muitos sistemas on-premises, a nuvem pode ser de baixo custo. Parte disso é porque não há integração de sistema.
Se quiser fazer algo on-premises, você ou outra pessoa precisa fazer uma integração de sistema de vários meses, enquanto que para muitos sistemas existe um provedor de nuvem que já tem essa integração. Você basicamente compra uma licença e pode começar a funcionar em poucas horas, em vez de meses. Além disso, a abordagem de armazenamento de objetos na nuvem, que mencionamos em uma postagem anterior sobre boas práticas de data lake, tem muitos benefícios.
E, claro, você pode ter uma mistura híbrida de plataformas com um data lake. Se você estiver familiarizado com o que chamamos de data warehouse lógico, também pode ter uma coisa semelhante a um data warehouse lógico, e isso é um data lake lógico. Nele, os dados são distribuídos fisicamente em várias plataformas. E há alguns desafios para isso, como a necessidade de ferramentas especiais que sejam boas com consultas federadas ou virtualização de dados para consultas analíticas de grande alcance.
Mas essa tecnologia está disponível no nível da ferramenta, e muitas pessoas estão usando-a.
Em sua busca de extrair mais valor de seus dados, as empresas estão sempre colocando os limites. Ativada por computação baseada em nuvem, agora elas estão combinando tecnologias e data lake em uma única arquitetura chamada "data lakehouse". Os benefícios de um data lakehouse incluem melhor integração, menos movimentação de dados, melhor governança de dados e suporte para mais casos de uso.
O data lake é sua resposta à organização de todos esses grandes volumes de diversos dados de diversas fontes. E se você estiver pronto para começar a jogar em torno de um data lake, podemos oferecer a você o Oracle - Modo Gratuito (Free Tier) para começar.