Precisamos realmente de tantos Cientistas de Dados?

As tendências tecnológicas que permeiam os ambientes corporativos, não apenas no setor público mas também no setor privado, geralmente surgem como grandes ondas que prometem revoluções disruptivas. De início é bem difícil distinguir o joio do trigo, e quase sempre só o tempo é capaz de clarear a vista em busca de terra firme. Foi assim com Big Data, com Blockchain e está sendo com a Ciência de Dados. Cada uma dessas tendências abre uma miríade de novas possibilidades que influenciam as estratégias corporativas na busca pela antecipação da inovação. Como tudo nesse campo digital acelerado, o conceito do que é um Cientista de Dados já foi revisto várias vezes, e agora divide espaço com outras profissões especializadas em dados.

Este tópico resume algumas compreensões sobre as profissões que surgiram nos últimos anos pela crescente demanda por soluções de análise de dados. Neste texto me inspirei neste artigo de Jesse Andersen e aqui dou continuidade às reflexões do tópico A Hierarquia de Necessidades da Ciência de Dados.

O título provocativo deste tópico é intencional e a resposta automática é “sim”, precisamos de muitos cientistas de dados. Porém, com o amadurecimento deste campo nos últimos anos, surgiram outras profissões complementares, como a de Engenheiro de Dados. Mas qual é a diferença entre um Cientista de Dados e um Engenheiro de Dados?

Engenheiro de Dados x Cientista de Dados

O que melhor diferencia esses dois papéis são os conhecimentos avançados que cada um deles detêm, e que geralmente são determinados pela trajetória profissional. Um(a) Cientista de dados é geralmente uma pessoa com habilidades em matemática, estatística, ou até em física, e que utiliza conhecimentos em programação para potencializar suas habilidades matemáticas para analisar dados e construir modelos matemáticos aplicados. Para isso também precisa compreender o domínio de negócio e interagir com os não especialistas para comunicar seus achados.

O(a) Engenheiro(a) de dados, por outro lado, é geralmente uma pessoa que tem conhecimentos avançados em programação e em desenvolvimento de sistemas. E para aplicar essa experiência necessitam de especialização em Big Data e Sistemas Distribuídos. Dentro de um time de dados essas pessoas são responsáveis pelo desenvolvimento e manutenção dos Pipelines de Dados. Para isso necessitam muitas vezes utilizar dezenas de ferramentas que trabalham de forma orquestrada.

Ambos os papeis são fundamentais em um time, e apesar de cada um possuir especializações próprias algumas habilidades são comuns a ambos, como programação e análise. A figura abaixo ilustra essa sobreposição.

Uma informação interessante do artigo do Jesse Andersen é a proporção entre Cientistas de Dados e Engenheiros de Dados nas corporações. Ele constata que um ponto de partida é contratar 2 a 3 engenheiro de dados para cada cientista de dados. Para algumas corporações com pipelines mais complexos esse número sobe para 4 ou 5 engenheiro de dados para cada cientista de dados. A prática mostra que construir o pipeline de dados consome mais tempo e esforço do que para criar os modelos de IA e ML.

Aqui na SEGES/Ministério da Economia estamos dedicando bons recursos para aprimorarmos nossas habilidades com Engenharia de Dados. Nesse sentido é que estudamos e usamos o Apache Airflow, a ferramenta que está se tornando o coração dos nosso Pipeline de Dados.

7 Curtidas

Bacana! Cabe acrescentar ainda a visão da carreira de “dados” baseada em 3 papéis: Engenheiro de Dados, Cientista de Dados e Analista de Dados/Negócio. Ou seja, daria para expandir a reflexão dos quantitativos necessários considerando ainda o papel do Analista.

3 Curtidas

Entendo que, de fato, há nomeclaturas novas e até algum hype em torno, mas a função de alguém que analise dados em uma organização sempre será imprescindível.

A questão fundamental é que há um abismo semântico,por exemplo, entre ser um DBA de uma organização ou ser um cientista de dados nela, por isso confesso que, mesmo havendo tanto modismo em torno, ainda perdura mais necessidade do primeiro e uma sazonalidade do segundo. Se quiser ser cientista de dados esteja preparado para realocações, encerramentos abruptos de projetos ou dinamismo de funções, já o DBA é algo mais estável dentro de qualquer empresa.

2 Curtidas