fbpx
Dicas

Data Lake: como funciona e como se relaciona com o Big Data?

Com a empresa tendo que lidar diariamente com volume cada vez maior de dados, cresce a demanda por novas ferramentas e conceitos de armazenamento que consigam dar conta dessas informações. Armazenar, centralizar e processar um volume tão grande exige um modelo de arquitetura de sistema robusto, que tenha um bom desempenho, sem ser muito custoso.

Um conceito que vem ganhando bastante espaço nos últimos anos é o Data Lake, que visa otimizar o armazenamento e processamento de dados, com foco em volume e não necessariamente em estruturação. Neste post, vamos entender melhor o que é Data Lake, a sua relação com outros conceitos, como o Big Data e os benefícios práticos que pode trazer para as corporações. Confira!

O que é Data Lake?

A tradução de Data Lake, Lago de Dados, diz bem o foco desse conceito, que é o armazenamento de grande volume de dados, em vários formatos, em um único repositório. Nesse repositório, todos os dados corporativos, estruturados ou não, são integrados, sem limite de escala ou formato.

O surgimento do Data Lake, há mais de uma década, veio para suprir uma demanda crescente causada pela dispersão de dados dentro das empresas. Com dependência cada vez maior dos ativos de TI, a produção de dados explodiu, só que de maneira desordenada, causando uma enorme dificuldade de integração.

Foi necessário a criação de uma estratégia que conseguisse unir todos os dados em um único repositório, que fosse escalável, mas de baixo custo. Era necessário que esse repositório tivesse a capacidade de armazenar, de forma simplificada, todo os tipos de dados produzidos e capturados pela corporação, mesmo em estado bruto, para que depois ele pudesse ser manipulado e ter uma finalidade específica.

Ele recebe dados provenientes de aplicações empresariais, Internet das coisas, redes sociais, sites, e demais dados relacionais e não relacionais. No repositório, esses dados ficam preservados em seu formato original e só serão processados quando houver demanda — o que contribui para a redução de recursos computacionais, visto que o processamento só ocorrerá quando os dados efetivamente entregar vantagens competitivas para o negócio.

Existe relação entre Big data e data lake?

Quando o assunto é volume de dados, armazenamento e análise das informações para transformar em insights, somos bombardeados com uma série de termos que se entrelaçam. Alguns dos mais destacados são: Business Intelligence (BI), Data Mining, Data Lake e Big Data. Apesar de todos esses termos estarem de fato ligados ao uso de dados, ele se refere a maneiras diferentes de fazer isso.

Por exemplo, quando falamos de BI, estamos em busca de melhorar a tomada de decisão da empresa, com base em dados históricos e seus padrões. Já o data mining está intimamente ligado à boa mineração de dados para que as análises comparativas se tornem cada vez mais precisas.

O Big data, que é centro de nossa questão, se refere ao trabalho com grande volume de dados e tem como base os 5 Vs:

  • Volume — referente a quantidade de dados;
  • Velocidade — referente a rapidez com que os dados são produzidos;
  • Variedade — os múltiplos formatos e padrões em que os dados assumem;
  • Veracidade — se os dados são ou não confiáveis;
  • Valor — o que o grande volume de dados produzidos pode gerar de valor para a empresa.

O Data Lake, como vimos, está diretamente relacionado a um tipo de repositório e que esses dados produzidos em grandes volumes e velocidade serão armazenados, de forma centralizada, a fim de gerar valor para a empresa. Isso significa que o data lake pode servir de base para a integração de todas essas tendências tecnológicas.

Quais são as vantagens do data lake?

Agora que já entendemos o conceito de Data Lake a como ele se relaciona com as demais tendências tecnologias relacionadas ao grande volume de dados, vamos entender quais são os benefícios que uma empresa tem quando passa a trabalhar com esse modelo de armazenamento. Acompanhe!

Mais velocidade na captação

Como o objetivo de um Data Lake é unificar o repositório de dados brutos, a empresa passa a ganhar velocidade no acúmulo de informações, criando uma base dinâmica, que será utilizada em diversas estratégias posteriormente.

Maior flexibilidade

Além de serem captados em múltiplas fontes, os dados armazenados Data Lake não são padronizados e não respondem a um determinado conjunto de questões. Isso significa que eles estão livres para serem utilizados de acordo com as necessidades da empresa, a fim de responderem problemas que levem a uma visão mais estratégica. Basicamente, podemos dizer que os dados não estão “engessados”, estão livres para a utilização.

Ganhe em acessibilidade

Quando a empresa utiliza o padrão de Data Warehouse, a tendência é o acesso se tornar restrito a um grupo de profissionais autorizados. Evidentemente que sempre há necessidade de proteção, pois estamos falando de informações estratégicas, que necessitam de segurança. Porém o excesso de restrição pode fazer com que haja uma redução no potencial da utilização das informações de forma estratégica.

Os Data Lakes são muitos mais acessíveis e possibilitam o compartilhamento de dados entre os usuários, sem necessidade de interferências de membros da equipe de TI. Como os dados estão soltos no “lago”, eles podem ser agrupados da maneira que os usuários acharem melhor, com o critério que seja útil no momento.

Qual é a diferença entre Data Lake e Data Warehouse?

Data Warehouse é um modelo de armazenamento que muitas das vezes é confundido com o Data Lake. Mas a verdade é que há algumas diferenças entre os dois. Podemos começar pela diferença principal, que é o tipo de dados que são armazenados em cada um.

Como vimos no início deste post, o Data Lake não faz distinção de dados, ele aceita todos os tipos, incluindo logs, arquivos, imagens, dados recebidos via sensores, entre outros. Já o Data Warehouse trabalha prioritariamente com dados estruturados.

Isso significa que, diferentemente do Data Lake, para que seja criado um

Data Warehouse, é importante primeiro definir os tipos de dados e como eles serão armazenados.

Para isso, é importante que seja realizada modelagem dos dados, com a definição de tabelas, colinas e o formato dos dados, ou seja, uma estrutura que não oferece a liberdade do Data Lake, mas que também tem o seu valor estratégico

Como vimos, o Data Lake é um modelo de armazenamento livre que tem como foco principal a integração e centralização de dados — que serão depois utilizados nas mais distintas atividades dentro da empresa. Escolher um modelo de armazenamento é uma tarefa essencial dos gestores que buscam uma gestão baseada em dados sólidos e insights que balizam a tomada de decisão.

Gostou do post? Diga para a gente que nós comentamos como a sua empresa lida com a produção, armazenamento e processador de grande volume de dados.