Modern data stack: uma abordagem moderna de dados

Tempo de Leitura:
6
min
Criado em:
August 4, 2020
Atualizado em:
3/18/2024

Empresas de todos os portes já entendem a existência do poder dos dados, reconhecem a importância do seu uso nos negócios, mas não sabem como superar os desafios quanto à organização, integração e gerenciamento das informações que surgem.

Nesse sentido, surge a Modern Data Stack (MDS), ou abordagem moderna de dados. Um conceito que chegou para revolucionar e modernizar a infraestrutura de dados das empresas.

Organizações que desejam crescer e manter-se competitivas precisam investir em uma infraestrutura de dados robusta, capaz de gerenciar grandes volumes de informação. Isso pode ser feito com a Modern Data Stack.

Neste post, você vai ler uma clara e resumida explicação sobre essa abordagem que usamos aqui na Indicium.

Modern Data Stack

A nova combinação de boas práticas e ferramentas para criação de infraestruturas de dados é conhecida como abordagem moderna de dados, do inglês Modern Data Stack (MDS).

Uma de suas características mais marcantes é a junção de diversas de ferramentas open-source para responder demandas de uma infraestrutura de dados complexa, de forma altamente eficiente.

O que isso quer dizer na prática?

Com uma Modern Data Stack, é possível combinar ferramentas que executam funções distintas, como integrar, armazenar ou visualizar dados, para montar uma estrutura de dados moderna, mutável e mais independente.

Por exemplo, considere uma empresa que aumentou drasticamente a sua base de clientes e necessita expandir sua solução de armazenamento de dados.

Caso ela utilize a abordagem moderna de dados, terá duas opções:

  1. adequar sua solução atual às novas demandas.
  2. substituí-la por outra ferramenta que atenda às suas necessidades, sem precisar reformular sua infraestrutura de dados por completo.

Ou seja, com MDS, as organizações têm mais flexibilidade para fazer ajustes pontuais e reinventar sua estrutura sem precisar transformá-la por completo. O resultado?

Menos custos, mais escalabilidade e autonomia.

Hoje, graças às novas tecnologias e ferramentas acessíveis, está muito mais fácil adotar a abordagem moderna de dados.

No entanto, para obter sucesso na implementação dessas práticas, é necessário entender como todas as peças se encaixam.

Construindo uma Modern Data Stack

Uma estrutura de dados eficiente combina diversos serviços em um data stack, que é uma pilha de dados.

No geral, uma pilha de dados tem três funções fundamentais:

  1. coletar e integrar dados em um data warehouse (uma “casa” para os dados).
  2. limpá-los e transformá-los em informações.
  3. agregar valor à tomada de decisão através de visualizações intuitivas, como os dashboards de BI.

Todas estas funções são processos de um pipeline de dados (um fluxo por onde os dados entram, são processados e saem transformados).

As ferramentas usadas para cada um desses processos formam o data stack. E, ainda que a arquitetura de um pipeline varie de acordo com cada empresa, todos os pipelines de dados têm esses processos incorporados.

Uma abordagem moderna de dados (MDS).

Para esclarecer mais ainda a abordagem moderna de dados (MDS) para você, a seguir apresentamos, de acordo com o respectivo processo, as principais ferramentas disponíveis no mercado que são sucesso em milhares de projetos de dados de todos os portes no Brasil e no exterior.

1) Coleta e integração de dados

A disponibilização de dados de diversas fontes isoladas para análise é um dos principais desafios dos projetos de dados. Para superar isso, é preciso investir na coleta e integração dos dados.

Ferramentas como o Fivetran e Stitchdata são as líderes na integração de dados na nuvem. Elas permitem mover dados de centenas de fontes, como ERPs, CRMs, bancos de dados, REST APIs etc., diretamente para um data warehouse (na nuvem ou on-premises). Além disso, podem ser combinadas.

Com isso, não há necessidade de grandes investimentos em licenças de software ou horas de implementação.

Além disso, empresas que buscam coletar dados com maior precisão online e offline também podem utilizar Segment ou Snowplow para ter uma visão completa de seus clientes.

2) Data warehousing

Outra etapa fundamental da abordagem moderna de dados é a transformação dos dados brutos em dados modelados, o que ocorre dentro de um data warehouse (DW).

Ao centralizar as transformações dos dados no DW, há enormes ganhos de eficiência no projeto, especialmente através de abordagem ELT, que aumenta a flexibilidade no pipeline e garante autonomia aos analistas de negócio para definir as regras do negócio no DW, acelerando o projeto em meses.

No data warehouse, as duas principais ferramentas da Modern Data Stack usadas para a transformação de dados são o dbt e o Dataform.

Outra inovação recente e essencial nessa abordagem são os DWs em nuvem, como o Amazon Redshift e Google Big Query, que permitem armazenar e consultar volumes enormes de dados de forma rápida através de sua arquitetura escalável.

3) Business intelligence (BI)

Inteligência analítica é prioridade na Modern Data Stack.

Com uma infraestrutura de dados moderna estabelecida, é possível utilizar diferentes ferramentas de business intelligence para visualizar, analisar e gerar insights a partir dos dados.

Há diversas alternativas open-source robustas para isso, como o Metabase e as plataformas SaaS, como Microsoft PowerBI, Looker, Tableau entre outras.

Importante: o essencial para a abordagem moderna é que o BI não tenha um fim em si mesmo, mas gere valor rapidamente para a empresa.

4) Machine learning

Machine learning, inteligência artificial e modelagem são técnicas avançadas de analytics aplicadas para análises mais complexas dentro do data stack.

Para isso, além das diversas bibliotecas nas linguagens R e Python, ferramentas como MLFlow e Kedro auxiliam na execução de modelos preditivos e prescritivos, e otimizam o processo de desenvolvimento, reduzindo o tempo entre a modelagem e a utilização dos dados, o calcanhar de aquiles de qualquer projeto de analytics avançado.

5) Deployment

Ferramentas como Docker e o Kubernetes são muito utilizadas para realizar o deploy em conjunto com orquestradores, como o Airflow e Prefect.

O diferencial dessas tecnologias é fazer com que todas as “peças do Lego” conversem de forma harmônica entre si, garantindo que os dados fluam em sintonia ao longo da estrutura de dados.

Modern Data Stack para todos

A Modern Data Stack (MDS) é a ligação entre dados brutos com a inteligência de negócios, ou seja, é um sistema integrado de aplicativos que coleta, combina, analisa e realiza o valor dos dados para empresas.

Inserir MDS é fundamental para empresas modernas que desejam obter sucesso na era dos dados.

Felizmente, os componentes da data stack estão muito mais baratos, simples de configurar e manusear. Assim, empresas de todos os portes podem utilizá-lo para obter vantagem competitiva e desenvolver maturidade analítica.

Quer implementar a Modern Data Stack na sua empresa?

Temos uma equipe altamente capacitada para ajudar você.

Entre em contato hoje mesmo por aqui.

Tags:
Modern Data Stack

Daniel Avancini

Chief Data Officer

Isabela Blasi

CBDO and co-founder at Indicium

Fique por dentro do que acontece na Indicium, siga nossas redes:

Abra caminho para que sua organização lidere o mercado por décadas. Entre em contato!

Clique no botão, preencha o formulário e nossa equipe entrará em contato com você em breve. Estamos prontos para ajudar e colaborar em suas iniciativas de dados.