Programação & Data Science

Cientista de dados: a profissão que ganha o mercado de trabalho

Outubro de 2012. A revista Harvard Business Review declarava que a carreira em ciência de dados “era a mais sexy do século 2021”. Além de sexy, esta profissão é uma das mais requisitadas por empresas de diversos setores atuando com diferentes modelos de negócio. O cientista de dados tornou-se um profissional decisivo no trabalho de previsão de tendências, na construção de modelos estatísticos e na tomada de decisão dos executivos de uma corporação.

Em geral, o cientista de dados cria modelos preditivos usando algoritmos de machine learning e suas redes neurais, ajudando as empresas a encontrar padrões ocultos, prever tendências e otimizar processos de negócios para melhores resultados. Consequentemente, a ciência de dados está sendo aplicada em vários setores tecnológicos, como na inteligência artificial e deep learning.

Em contrapartida, não é suficiente para um cientista de dados entender cálculos complexos, estatística e modelagem preditiva. Outras habilidades são igualmente necessárias como a comunicação e a capacidade de construir narrativas. Dessa maneira, a ciência de dados está se tornando mais especializada e, com isso, as habilidades necessárias para o desenvolvimento deste profissional acompanham esta evolução. Outros desafios relacionados à ética no trabalho também estão em pauta.
O que faz um cientista de dados, afinal?

Como dissemos anteriormente, a ciência de dados é empregada em inúmeros setores. Apenas para exemplificar, iremos o utilizar o setor de tecnologia. Primeiramente, os cientistas de dados determinam uma base de dados sólida para executar análises robustas. Nesta etapa, estamos falando de milhares de dados que precisam de processamento e análise. Em seguida, eles realizam experimentos recorrendo a métodos científicos baseados em cálculos matemáticos para alcançar resultados sustentáveis de acordo com os objetivos almejados.

Por fim, estes profissionais criam pipelines de machine learning e produtos de dados personalizados para entender a estrutura de seus negócios e clientes, o que é decisivo na tomada de decisão das empresas. Aliás, um pipeline de dados é um conjunto de ações que recolhem dados brutos de fontes distintas e os movem para um destino para armazenamento e análise. Um pipeline também pode incluir filtragem e recursos que fornecem proteção contra falhas.

Resumindo, quando trata-se do setor de tecnologia, a ciência de dados envolve infraestrutura, testes, machine learning para tomada de decisão e produtos de dados. Um produto de dados é uma tecnologia de inteligência artificial que usa dados para responder a uma pergunta de negócios. Sua aplicação é o método mais direto de trazer uma empresa para a era digital.

Pera aí, tá complicado demais para você?
Como o próprio nome sugere, este projeto é composto por um conjunto de dados que fornece informações sobre todos os passageiros que estavam a bordo do RMS Titanic.
(Quase) salvando os passageiros do Titanic

O projeto Titanic Data Set é um belo exemplo para quem aspira ser um cientista de dados. Como o próprio nome sugere, este projeto é composto por um conjunto de dados que fornece informações sobre todos os passageiros que estavam a bordo do RMS Titanic quando o malfadado navio afundou em de abril de 1912 após colidir com um iceberg no oceano Atlântico. Aposto que você já ouviu essa história muitas vezes.

Bom, este é um conjunto de dados bastante popularizado entre estudante de ciência de dados. Com 891 linhas e 12 colunas, ele traz uma combinação de variáveis ​​com base em características pessoais dos passageiros como idade, classe de ingresso no navio e sexo. Ao testar diferentes habilidades de classificação, o cientista de dados consegue prever a sobrevivência dos que estavam a bordo do Titanic em diferentes cenários.
Nesta lógica, o menor conjunto destinado a fins educacionais e de desenvolvimento contém 100.000 classificações e 1.300 aplicações de tags aplicadas a 9.000 filmes por 700 usuários.
Quer outro exemplo? Com o objetivo de sugerir filmes para os usuários de acordo com suas preferências, outro conjunto de dados conhecido entre estudantes de ciência de dados é o Movie Lens Data Set.

Este gigantesco data set oferece a oportunidade de construção de mecanismos de recomendação de filmes e está disponível em vários tamanhos. Nesta lógica, o menor conjunto destinado a fins educacionais e de desenvolvimento contém 100.000 classificações e 1.300 aplicações de tags aplicadas a 9.000 filmes por 700 usuários. Por sua vez, o maior conjunto destinado ao mesmo propósito contém 26 milhões de classificações e 750.000 aplicações de tags aplicadas a 45.000 filmes por 270.000 usuários. Ele também contém um conjunto de dados de referência estável de 20 milhões de avaliações e 465.000 aplicações de tags aplicadas a 27.000 filmes por 138.000 usuários. Ufa, quanta coisa!
Habilidades em constante evolução

Assim como mencionamos logo no início deste artigo, as habilidades as quais os cientistas de dados precisam desenvolver estão em processo de evolução. Se por um lado criar modelos estatísticos com análises robustas é uma tarefa natural, a capacidade de comunicar o significado destes dados para colaborar com a estratégia de uma empresa ainda é um ponto de melhoria para muitos profissionais. Portanto, a comunicação dos resultados é uma parte crítica do trabalho com dados.

Estamos vendo um rápido desenvolvimento tanto no ecossistema de código aberto de ferramentas disponíveis quanto nas próprias ferramentas comerciais para o processamento de dados. Aliás, especialistas afirmam que também estamos testemunhando uma crescente automação de muitos trabalhos tidos como “manuais” até agora, como a limpeza e a preparação de dados. Segundo a HBR, aproximadamente 80% do tempo de um cientista de dados é geralmente despendido na pesquisa, limpeza e organização de data sets. Apenas 20% do tempo acaba sendo destinado na realização de análises. Já pensou?

Qual será a sua especialização?

A especialização está se tornando mais importante na carreira de um cientista de dados. Por ser uma área de atuação recente, não há ainda um plano de carreira em comum para aqueles que atuam nela. Entretanto, notamos que algumas coisas já se alteram.

Alguns cientistas de dados preferem trabalhar com modelos estatísticos costumeiros para realizar análises tradicionais, enquanto outros apostam na construção de machine e deep learning. Há quem diga que são três as especializações em ciência de dados:
Uma coisa é certa, não há limites para o sucesso nesta carreira.
Qual é o salário de um cientista de dados?

Não vamos desistir. Repetiremos aqui pela milésima vez: não é uma tarefa fácil estipular o salário de uma carreira. Você já sabe por quê. A remuneração de qualquer profissional irá diferenciar muitíssimo de acordo com a localidade, projetos, qualificação, experiência e até ambição pessoal. Obviamente que considerando estas variáveis, até conseguimos ter uma noção sobre a remuneração de um cientista de dados. E as perspectivas são para lá de boas.

O portal Glassdoor.com sugere que a remuneração média deste profissional na cidade de São Paulo é de R$8.357. Todavia, os salários chegam à bagatela de R$ 16 mil reais mensais em startups, empresas de TI e hospitais privados da metrópole. Ainda de acordo com o portal, já o salário médio nacional é de R$7.617. Esta estimativa nacional tem como base os 722 salários enviados sigilosamente ao Glassdoor. Nada mal, certo?

Saiba que estes são apenas exemplos de como você pode ter um retorno financeiro. Ao trabalhar em grandes empresas, você terá sem dúvida a oportunidade de trilhar seu próprio caminho de carreira na ciência de dados e acompanhar o desenvolvimento deste mercado ainda em plena expansão. Se você tiver um perfil mais empreendedor, ter sua própria empresa garante a possibilidade real e concreta de construir sua marca prestando serviços para clientes de inúmeros setores. Uma coisa é certa, não há limites para o sucesso nesta carreira.
Já pensou investir na carreira de cientista de dados?

O cientista de dados será um dos profissionais mais requisitados e bem remunerados do mercado de trabalho pelos próximos anos. Práticas da ciência de dados são aplicadas em todos os setores como produção, vendas, marketing, financeiro, jurídico e qualquer outra área estratégica para o negócio. A demanda é alta e a oferta maior ainda. Pensando nisso, a EBAC lançou o curso Profissão: Cientista de Dados.

Ao final do curso, você irá adquirir conhecimento sobre as principais ferramentas e metodologias mais utilizadas pelos cientistas de dados e aprender a aplicá-las para iniciar sua carreira tais como: visão ampla de negócio, visualização de dados, árvores de decisão, Python, SQL, padronizações, Big Data e machine learning.


Nossos professores


João Serrajordia

Cientista de dados e Estatístico Msc.


Trabalhou os últimos oito anos no Banco Votorantim, desenvolvendo novos métodos de análise de dados. É graduado e mestre em estatística pela Universidade de São Paulo.


Lucas Serra de Assis

Cientista de dados na multinacional Saint-Gobain.


É formado em Engenharia da Computação pela Universidade Federal de São Carlos. Atuou como cientista de dados de crédito e CRM no Banco Votorantim e hoje é cientista de dados na multinacional Saint-Gobain.


Andre Perez

Engenheiro de dados na Stone


Atua como engenheiro de dados e de Machine Learning na Stone, com desenvolvimento e manutenção de pipeline de dados. Conduziu projetos de ciência de dados em Tel-Aviv, Israel.