A Hierarquia de Necessidades da Ciência de Dados

O termo “Hierarquia de Necessidades” foi cunhado por Abraham Maslow para explicar sua teoria na qual ele estudou as necessidades humanas e como os indivíduos priorizam a satisfação delas. Segundo Maslow, um indivíduo só sente o desejo de satisfazer a necessidade de um próximo estágio se a do nível anterior estiver sanada, portanto, a motivação para realizar estes desejos vem de forma gradual.

A teoria de Maslow é tão interessante que acabou sendo adaptada para outros contextos para explicitar a cadeia de dependências entre necessidades. Neste artigo Monica Rogati apresenta um diagrama de hierarquia de necessidades adaptado para o campo profissional da Inteligência Artifical. Segue o diagrama:

Monica conta que utiliza o diagrama de necessidades em suas consultorias para explicar como as organizações devem criar suas estratégias corporativas rumo ao uso de Inteligência Artificial, ao mesmo tempo em que diagnostica as causas de estratégias mal sucedidas. Segue uma tradução livre de um trecho do artigo:

Mais comum do que parece, as empresas não estão prontas para a IA. Talvez tenham contratado seu primeiro cientista de dados para produtos inadequados, ou talvez a alfabetização em dados não seja parte da cultura. Mas o cenário mais comum é o fato destas corporações ainda não terem construído a infraestrutura para implementar os algoritmos e operações mais básicos da ciência de dados, muito menos para a Aprendizagem de Máquina.

A lógica nesta hierarquia de necessidades é similar à original proposta por Maslow. Uma camada de necessidades só pode ser atendida se as necessidades da camada abaixo tiverem sido atendidas. A partir disso é possível se desenhar uma estratégia de crescimento em estágios de maturidade e de infraestrutura tecnológica.

Para sintetizar essa reflexão segue abaixo em ordem de prioridade os 5 grupos de necessidades proposto por Matthew Renzo em seu artigo, que foi inspirado no mesmo texto da Monica Rogati:

1. Coletar

A necessidade mais básica de uma organização orientada a dados é a necessidade de coletar dados. Isso começa com atividades básicas como registrar transações, registrar erros e digitalizar dados analógicos.

Dessa forma, à medida que a empresa evolui, geralmente esse processo evolui para formas mais avançadas de coleta de dados. A empresa pode começar a reunir dados de telemetria de aplicativos, realizar experimentos para criar novos dados e obter dados de fontes externas.

2. Organizar

Em seguida, precisamos organizar nossos dados. Precisamos obter os dados em um formato adequado para análises. Isso começa com tarefas básicas de organização de dados, como transformar, limpar e armazenar dados.

Assim, à medida que a empresa amadurece, isso pode levar ao desenvolvimento de soluções mais robustas. A empresa pode criar um pipeline ETL de dados, um data warehouse ou um data lake.

3. Analisar

Em terceiro lugar, é preciso analisar os dados. Precisamos utilizar os dados para explicar o que está acontecendo em nossa organização e por que isso está acontecendo. Geralmente inicia-se com ferramentas básicas de análise de dados, como relatórios, painéis e KPIs.

Dessa maneira, à medida que a empresa amadurece, isso pode convergir para formas mais poderosas de análise de dados. Pode-se começar a incorporar mineração de dados, análise descritiva e análise de diagnóstico em seu pipeline de ciência de dados.

4. Predição

Em quarto lugar, surge a necessidade de serem feitas previsões. Queremos saber o que provavelmente acontecerá no futuro e como devemos responder a esses possíveis cenários, caso eles ocorram. Isso geralmente envolve tipos mais avançados de análise de dados. Por exemplo, a organização pode começar a incorporar a análise preditiva, a análise prescritiva e o aprendizado de máquina em seu pipeline de ciência de dados.

5. Automatizar

Finalmente, temos a necessidade de automatizar nossos processos de ciência de dados. É aqui que fechamos o ciclo da ciência de dados e removemos o humano do processo. Isso envolve tecnologias avançadas, como inteligência artificial, deep learning e aprendizado por reforço.

A automação de processos de ciência de dados, na forma de IA baseada em dados, é o objetivo das organizações orientadas a dados. Quando aplicada corretamente, a IA orientada a dados pode minimizar nossos custos e maximizar nossa receita. Este tipo de IA é o que diferencia os líderes da indústria de todos os demais.

4 Curtidas

Alguém precisa apresentar isso aos nossos gestores, urgente!

2 Curtidas

O que tenho percebido é que nossos projetos têm direcionado esforços principalmente para as necessidades de Análise [3] (painéis, relatórios, KPIs, etc), e realizado as necessidades de Organização [2] (ETL, DW, limpezas armazenamentos, etc) de forma minimalista e ad-hoc orientadas as demandas que surgem, e geralmente limitando-se aos dados que já são Coletados [1] por princípio.

Se pretendemos galgar o desenvolvimento de soluções de Predição [4], ou até mesmo melhores Análises [3] e com mais agilidade, é fundamental sofisticarmos nossos processos de Coleta [1] e Organização [2], trazendo dinamismo para nossos dados.

Nessa perspectiva constato que temos uma dívida técnica bem grande em virtude dos vários produtos (painéis em geral) que foram desenvolvidos nos últimos tempos e que agora carecem de alicerces melhores para que tenham mais valor agregado e longevidade, e não dependam de suportes manualizados.

2 Curtidas

Olá td bom? Concordo com vc, por esses dias consegui acesso a um desses painéis por meio de um arquivo em QVD no entanto ocorreu exatamente o que disse. A carga e tratamento desses dados estão no front-end da aplicação além de não respeitar alguns princípios da modelagem dimensional. Em termos práticos, a APP do Qlik ocupou todo o Cache da máquina e impossibilitou extrair os dados que precisava.

1 Curtida

Falou e falou bonito!

E digo mais: o concreto pra construir a fundação do [1] Coletar e [2] Organizar chama Apache Airflow.

1 Curtida