O data lakehouse como uma plataforma de dados
Antes de examinarmos de perto o que constitui uma plataforma de dados (gerenciamento), é fundamental entender que os detalhes específicos variam de uma organização para outra. No entanto, em termos gerais, podemos identificar cinco camadas essenciais que a compõem:
- Fontes de dados: são fontes internas ou externas de informações que não fazem parte da plataforma de dados;
- Camada de ingestão: aqui os dados brutos são ingeridos e “desbloqueados” na plataforma de dados. Isso pode ocorrer de três maneiras: em lotes (pull), via streaming (push) ou via replicação;
- Camada de dados brutos: uma cópia dos dados brutos é então armazenada em um data lake ou data warehouse;
- Dados processados centralmente: dentro do data warehouse ou data lake, os dados são processados e preparados para uso posterior. Enquanto um data warehouse geralmente contém dados estruturados (principalmente para fins de relatórios), um data lake é mais adequado para dados não estruturados e volumosos (por exemplo, para fins de ciência de dados);
- Servir e consumir: nessa camada, os dados processados são analisados, relatados e/ou distribuídos.
Combinando o melhor dos dois mundos
Imagine um depósito cheio de componentes bem organizados em fileiras e pilhas organizadas. Agora pense em um lago cheio de água, peixes e outros objetos, todos misturados sem nenhuma ordem imediata. Encontrar e acessar um objeto específico em um depósito é relativamente simples, ao passo que são necessários processos diferentes para identificar e extrair conteúdo específico de um lago.
Assim como seus homônimos, os data lakes e os data warehouses diferem profundamente na forma como armazenam e processam o que os preenche: informações.
- Um data warehouse lida melhor com quantidades moderadas de dados estruturados, sendo usados principalmente em relatórios e prestação de serviços;
- Um data lakehouse é melhor para gerenciar grandes quantidades de dados brutos e não estruturados, que são usados principalmente em ciência de dados, mineração de aprendizado de máquina e aplicativos semelhantes.
O principal problema com essa abordagem? As empresas de hoje precisam ser capazes de gerenciar todos os tipos de dados e usá-los em todos os tipos de cenários. Em outras palavras, ter que escolher entre um data lake ou um warehouse quase sempre se resume a escolher o mal menor. É por isso que muitas organizações agora usam os dois em conjunto, o que resulta em níveis mais altos de complexidade e dados duplicados.
Entre no data lakehouse: uma arquitetura aberta que combina os melhores recursos de - você adivinhou - data lakes e data warehouses, com maior eficiência e flexibilidade. Viabilizados pela tendência crescente de design de sistemas abertos e padronizados, os data lakehouses podem aplicar a abordagem estruturada de um armazém à riqueza de dados contida em um data lake.
As principais características de um data lakehouse
- Processar diferentes tipos de dados: estruturados, não estruturados e semiestruturados;
- Beneficiar-se da governança de dados simplificada e impor a qualidade dos dados em todos os níveis;
- Beneficiar-se do suporte de BI diretamente nos dados de origem, o que significa que os usuários de BI e os cientistas de dados trabalham no mesmo repositório;
- Beneficie-se de uma maior escalabilidade em termos de usuários e tamanhos de dados;
- Obtenha suporte para ciência de dados, aprendizado de máquina, SQL e análise, tudo em um só lugar.
CIO, dê ao seu departamento de TI a capacidade de responder às demandas do futuro e de lidar com as incertezas.Márcio Games, digital transformation Service Line Lead | Senior Manager na delaware Brasil
Desencadeando a inovação
Ao simplificar a infraestrutura de dados corporativos, preservar a qualidade dos dados e aumentar as oportunidades para a ciência exploratória de dados, o data lakehouse é a chave para a inovação futura de muitas empresas. Os fornecedores de software parecem concordar: aqueles que têm raízes em data warehouses ou data lakes estão trabalhando arduamente para criar suas próprias soluções híbridas de data lakehouse. Dessa forma, você não precisa necessariamente investir em duas tecnologias diferentes para obter um data lakehouse.
Embora muitas partes reivindiquem o termo "data lakehouse", é importante ter em mente seu histórico ao tomar decisões. A chave é ter em mente o panorama geral e encontrar uma solução que funcione em seus termos e leve em conta suas regras de qualidade e governança de dados. Na delaware, combinamos o conhecimento profundo de cada plataforma disponível com a experiência comercial em muitos setores, o que nos torna bem qualificados para ajudá-lo a escolher a solução que melhor atenda às suas necessidades.