Há exatos 11 anos, o conceito de data lake (DL) vinha à tona em um texto do empresário e especialista em business intelligence (BI) James Dixon, postado originalmente em seu site, o James Dixon’s Blog.

Desde então, a ideia de data lake vem sendo cada vez mais disseminada e aplicada nos processos de big data de empresas ao redor do mundo.

Neste artigo, você vai entender:

  • como surgiu a necessidade de criar um data lake inicialmente;
  • a repercussão do conceito criado por Dixon;
  • o impacto do data lake no mundo dos dados;
  • e como saber se sua empresa precisa de um data lake.

Tenha uma boa leitura! 😉

Surge a necessidade de um data lake

Em meados de 2010, James Dixon e sua equipe de pesquisa da Pentaho levantaram informações importantes sobre as dificuldades cotidianas de empresas que lidavam com um grande número de dados em seus processos.

Através da pesquisa, a equipe notou que:

  • 80%-90% das empresas trabalhavam com dados estruturados ou semiestruturados;
  • a fonte dessas informações era geralmente um único aplicativo ou sistema;
  • os dados eram normalmente subtransacionais ou não transacionais;
  • o volume diário de dados não cabia técnica ou economicamente em um sistema de gerenciamento de banco de dados.

Os processos de análise e relatório de dados da época preocupavam-se em focar nos atributos mais interessantes, fazendo com que as informações fossem agregadas em um data mart e impossibilitando uma investigação mais profunda.

Photo by Lagos Techie / Unsplash

Ao se deparar com essas questões, Dixon e sua equipe de pesquisa da Pentaho perceberam a necessidade de uma arquitetura que fosse capaz de abrigar cada vez mais dados de diferentes estados e fontes.

Com base nos resultados da pesquisa, criamos um conceito chamado data lake para descrever uma solução ideal”  (Dixon, 2010).

Como a ideia de um data lake foi recebida?

Em julho de 2011, Dan Woods escreveu para a Forbes uma análise bastante positiva sobre o conceito de DL recém-criado por James Dixon.

No texto, o CTO e consultor de tecnologia explica por que os processos de big data exigem arquiteturas de armazenamento maiores, e como o data lake pode resolver essa questão.

Esse novo conceito permitiu que analistas pudessem responder perguntas ainda mais específicas para seus clientes devido ao grande volume de informações que passaram a ficar disponíveis.

Photo by Campaign Creators / Unsplash

Mas como nem tudo são flores, houve na época análises nem tão positivas quanto ao DL. Nesse sentido, o texto da TechTarget ficou, digamos, famoso levando o próprio Dixon responder todas as perguntas e dúvidas levantadas ali neste artigo publicado em 2014 em seu blog, onde ele revisita a história do data lake e desmistifica problemáticas do termo.

O impacto do data lake na análise de dados

Antes do data lake, o armazenamento de dados era ainda mais limitado, o que também limitava as análises e relatórios consequentemente. Com a sua chegada, um mundo de possibilidades foi aberto.

O DL possibilita a realização de processos ágeis e flexíveis, além de auxiliar em situações imprevisíveis. Desse modo, torna-se um recurso fundamental e necessário para empresas que lidam com dados.

Por exemplo, sua arquitetura agrega na geração de insights relevantes por conta do volume de informações. Da mesma maneira, permite a coleta, o armazenamento, a organização e a interpretação de dados complexos em larga escala.

Crunching the numbers
Photo by Firmbee.com / Unsplash

O data lake revolucionou os processos de dados por conta da sua capacidade de oferecer análises bastante versáteis devido ao número de informações disponíveis.

A sua empresa precisa de um data lake?

Caso se trate de um projeto de negócio, não de TI, com o objetivo de gerar resultados reais para a sua empresa, então sim.

Isso porque o data lake, nesse caso, fará parte de uma plataforma de dados moderna e completa, arquitetada para suprir as necessidades da empresa dentro da Jornada Data Driven.

Entre em contato agora mesmo clicando aqui e conte com a nossa equipe especializada para saber por onde e como começar a implementação de um data lake no seu negócio.