11 anos de data lake e seu impacto no mundo dos dados
Há exatos 11 anos, o conceito de data lake (DL) vinha à tona em um texto do empresário e especialista em business intelligence (BI) James Dixon, postado originalmente em seu site, o James Dixon’s Blog.
Desde então, a ideia de data lake vem sendo cada vez mais disseminada e aplicada nos processos de big data de empresas ao redor do mundo.
Neste artigo, você vai entender:
- como surgiu a necessidade de criar um data lake inicialmente;
- a repercussão do conceito criado por Dixon;
- o impacto do data lake no mundo dos dados;
- e como saber se sua empresa precisa de um data lake.
Tenha uma boa leitura! 😉
Surge a necessidade de um data lake
Em meados de 2010, James Dixon e sua equipe de pesquisa da Pentaho levantaram informações importantes sobre as dificuldades cotidianas de empresas que lidavam com um grande número de dados em seus processos.
Através da pesquisa, a equipe notou que:
- 80%-90% das empresas trabalhavam com dados estruturados ou semiestruturados;
- a fonte dessas informações era geralmente um único aplicativo ou sistema;
- os dados eram normalmente subtransacionais ou não transacionais;
- o volume diário de dados não cabia técnica ou economicamente em um sistema de gerenciamento de banco de dados.
Os processos de análise e relatório de dados da época preocupavam-se em focar nos atributos mais interessantes, fazendo com que as informações fossem agregadas em um data mart e impossibilitando uma investigação mais profunda.
Ao se deparar com essas questões, Dixon e sua equipe de pesquisa da Pentaho perceberam a necessidade de uma arquitetura que fosse capaz de abrigar cada vez mais dados de diferentes estados e fontes.
“Com base nos resultados da pesquisa, criamos um conceito chamado data lake para descrever uma solução ideal” (Dixon, 2010).
Como a ideia de um data lake foi recebida?
Em julho de 2011, Dan Woods escreveu para a Forbes uma análise bastante positiva sobre o conceito de DL recém-criado por James Dixon.
No texto, o CTO e consultor de tecnologia explica por que os processos de big data exigem arquiteturas de armazenamento maiores, e como o data lake pode resolver essa questão.
Esse novo conceito permitiu que analistas pudessem responder perguntas ainda mais específicas para seus clientes devido ao grande volume de informações que passaram a ficar disponíveis.
Mas como nem tudo são flores, houve na época análises nem tão positivas quanto ao DL. Nesse sentido, o texto da TechTarget ficou, digamos, famoso levando o próprio Dixon responder todas as perguntas e dúvidas levantadas ali neste artigo publicado em 2014 em seu blog, onde ele revisita a história do data lake e desmistifica problemáticas do termo.
O impacto do data lake na análise de dados
Antes do data lake, o armazenamento de dados era ainda mais limitado, o que também limitava as análises e relatórios consequentemente. Com a sua chegada, um mundo de possibilidades foi aberto.
O DL possibilita a realização de processos ágeis e flexíveis, além de auxiliar em situações imprevisíveis. Desse modo, torna-se um recurso fundamental e necessário para empresas que lidam com dados.
Por exemplo, sua arquitetura agrega na geração de insights relevantes por conta do volume de informações. Da mesma maneira, permite a coleta, o armazenamento, a organização e a interpretação de dados complexos em larga escala.
O data lake revolucionou os processos de dados por conta da sua capacidade de oferecer análises bastante versáteis devido ao número de informações disponíveis.
A sua empresa precisa de um data lake?
Caso se trate de um projeto de negócio, não de TI, com o objetivo de gerar resultados reais para a sua empresa, então sim.
Isso porque o data lake, nesse caso, fará parte de uma plataforma de dados moderna e completa, arquitetada para suprir as necessidades da empresa dentro da Jornada Data Driven.
Entre em contato agora mesmo clicando aqui e conte com a nossa equipe especializada para saber por onde e como começar a implementação de um data lake no seu negócio.