Toshyro – Parceria, Tecnologia e Inovação

blog

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

Data Lake ou Data Warehouse: qual o melhor para estrutura de dados

Data Warehouse (DW) não é nenhuma novidade para profissionais de TI, pois é um tipo de repositório utilizado há anos por empresas dos mais diferentes mercados. Já o conceito de Data Lake (DL) começou a ser disseminado no Brasil apenas poucos anos atrás. Atualmente, com ambas as opções em pleno desenvolvimento no país, uma das dúvidas que os responsáveis pelas estruturas têm é se devem utilizar Data Lake ou Data Warehouse.

Se na sua empresa há um projeto de reestruturação de dados ou melhoria da infraestrutura de TI, é interessante tirar as dúvidas a respeito do assunto para tomar a melhor decisão e entregar o melhor serviço aos superiores e aos usuários.

Então, leia sobre os conceitos dos repositórios, suas diferenças e em quais ambientes se adequam melhor.

Como funciona o Data Lake

Em um Data Lake os dados são armazenados na totalidade, contendo tudo o que foi gerado de informação para a empresa e por ela. Assim, o armazenamento é feito em estado bruto, sem qualquer tipo de limpeza, organização ou seleção do conjunto de informações.

A generalização natural desse tipo de repositório se estende à possibilidade de necessidade ou não dos dados armazenados. Todos os tipos de arquivos são colocados nele mesmo que posteriormente não sejam utilizados em qualquer consulta, integração ou chamado de API.

Em suma, o objetivo do lago de dados é possibilitar ao negócio o uso do Big Data — capacidade de armazenamento e acesso a um volume imenso de dados.

Como funciona o Data Warehouse

Diferentemente do Data Lake, o DW é focado na disponibilização da informação aos usuários e em suas tomadas de decisões. Por isso, é um repositório dentro do qual os dados são armazenados já tratados e padronizados para as mais diversas utilizações específicas da organização.

Ou seja, esse armazém de dados é mais voltado ao processo de Data Analytics e tem muito valor para os profissionais responsáveis pelos procedimentos de Business Intelligence (BI) do negócio. Justamente por isso a modelagem e a arquitetura da estrutura são desenvolvidas com grande foco em consistência e confiabilidade, para que a informação vinda de diferentes fontes, internas ou externas, sejam unificadas e organizadas.

Quais são as principais diferenças entre Data Lake e Data Warehouse

Estruturação dos dados

Enquanto Data Warehouses trabalham somente com dados e estruturados e processados, Data Lakes também armazenam dados semi-estruturados e não estruturados.

Processamento e carregamento de dados

DLs carregam os dados em estado bruto, que somente são modelados, estruturados e colocados em determinado formato no momento que forem utilizados — o esquema on-read. Já DWs carregam dados em esquema on-write: os dados devem receber modelo, formato e estrutura antes do carregamento.

Agilidade e usabilidade

Warehouses são menos ágeis e contam com configuração fixa, que entrega respostas direcionadas à tomada de decisão. Logo, os usuários normalmente são os profissionais de negócios e decisores, que precisam visualizar a informação organizada, cruzada e facilmente acessada.

Por outro lado, Lakes são mais ágeis e não contam com configuração fixa, exigindo configurações e reconfigurações para uso da informação. Portanto, são repositórios melhor utilizados por cientistas de dados e profissionais de TI, que sabem como lidar com as tarefas técnicas exigidas.

Investimento

Para investir em um DW é preciso normalmente gastar mais tempo e dinheiro por conta do tipo de estruturação exigido nesse repositório, que precisa de um prazo curto ou médio para começar a demonstrar seus resultados.

Já um DL é desenvolvido mais rapidamente, ainda que possa exigir bastante investimento financeiro para construção dependendo do tamanho necessário. Por isso e por armazenar volumes maiores, é uma forma de armazenamento de custo mais baixo.

Quando utilizar Data Lake ou Data Warehouse

A decisão depende muito, além das características de cada repositório, das necessidades da empresa e dos objetivos dela em relação à tecnologia. Por exemplo, para uma indústria de médio ou grande porte provavelmente o Data Warehouse é o mais indicado pelos seguintes motivos:

  • a organização precisa integrar dados de vários setores muito diferentes uns dos outros;
  • a consistência da informação e a confiabilidade de fatos e números são fundamentais;
  • o uso é feito para tomadas de decisões e andamento de tarefas operacionais;
  • os usuários na maioria não são profissionais de tecnologia ou cientistas de dados, mas sim equipes de operação e gestores;
  • a utilização de BI para aumento de competitividade e tomadas de decisões estratégicas é muito importante nesse ambiente.

É claro que esse tipo de negócio também conta com equipe e estrutura de tecnologia internas, mas os profissionais envolvidos na área não são os usuários finais. Eles atuam, nesse caso, dando suporte à empresa para funcionamento correto do DW, como fazendo as configurações e reconfigurações necessárias para o correto carregamento de dados estruturados e organizados em aplicativos e interfaces.

Quanto ao Data Lake, apesar de exigir menos investimentos para construção, requer envolvimento maior de pessoas na sua implementação, como gestores de todas as áreas e usuários, para que a estrutura por trás dele seja entendida. Ou seja, como repositório central ou único pode ser uma boa escolha para uma organização baseada somente em tecnologia e ciência de dados, mas não tão adequada para uma indústria pelos motivos citados acima.

No caso de uma empresa que tem processos produtivos e setores como financeiro, contábil, logístico de almoxarifado e outros, o Data Lake pode servir como um complemento a sistemas e estrutura atuais, visando potencializar os resultados obtidos com um ERP robusto e a estratégia de Business Intelligence.

Conclusivamente, a decisão entre Data Lake ou Data Warehouse não pode ser tomada baseada apenas na análise das possibilidades, mas também no que a empresa e os usuários precisam. Dessa forma, cria-se um projeto com base na avaliação macro de como as características dos repositórios se encaixam no ambiente e nas tecnologias da empresa.

Agora, siga nossos perfis nas redes sociais para acompanhar as atualizações do nosso conteúdo. Estamos presentes em TwitterInstagramFacebook e LinkedIn.