Programação & Data

Análise Exploratória de Dados (AED): o que é, ferramentas, técnicas e exemplos

A AED é um importante processo do trabalho do cientista de dados e serve para extrair informações de negócios

9 de junho, 2022

Ao procurar no Google “como se tornar um cientista de dados”, mais de quatro milhões de resultados vão aparecer para você. Para refinar a sua resposta, você poderá ir em um ou mais sites, procurar fontes confiáveis e tirar conclusões desta pesquisa. Ao fazer este processo, pode-se dizer que está sendo realizada uma Análise Exploratória de Dados (AED).

Esta Análise Exploratória de Dados faz parte do trabalho de um cientista de dados, só que numa escala bem maior do que uma pesquisa no Google. Para entender mais sobre o assunto, conversamos com o cientista de dados João Serrajordia, que também é professor do curso Profissão: Cientista de Dados da EBAC.

O que é Análise Exploratória de Dados

Em inglês chamado de Exploratory Data Analysis (EDA), a Análise Exploratória de Dados é uma forma de abordagem usada para analisar e investigar dados. É com ela que o profissional tem uma visão panorâmica dos dados, tenta dar algum sentido a eles e extrai conhecimento desses dados.

A Análise Exploratória de Dados é um processo importante do trabalho do cientista de dados porque é a partir dela que o cientista de dados vai obtendo insights e coletando informações que vão alimentar os modelos de machine learning.

Machine Learning (aprendizado de máquina, em português) é uma tecnologia em que os computadores têm a capacidade de identificar padrões e aprender com base nos dados que consomem. A partir disso, os computadores passam a efetuar tarefas específicas de maneira autônoma. Exemplo de ferramentas que usam machine learning são os tradutores automáticos e os recursos de combate a fraudes em sistemas de pagamento.

Como a Análise Exploratória de Dados gera Insights para negócios

A partir da Análise Exploratória de Dados é possível direcionar as tomadas de decisões de negócios. Para entender melhor, vamos imaginar uma planilha do Excel em que são colocadas todas as informações sobre a venda de cursos da EBAC. Ou seja, nesta planilha tem: nomes dos estudantes, faixa etária, o curso adquirido, a área do curso, a data da compra, se algum cupom de desconto foi usado, de qual cidade o estudante é, etc.

Diante de todos esses dados, há várias perguntas que você pode fazer: quantos cursos foram vendidos no total? Qual curso tem o maior número de estudantes? Como foi a venda do curso de Fotografia nos últimos três meses? Como está a compra de cursos na região Nordeste?

A partir desta análise, é possível saber, por exemplo, que um curso específico está tendo uma queda no número de vendas. Neste caso, os responsáveis vão procurar entender o que está acontecendo e definir algumas atitudes a serem tomadas. Fazer promoções, convidar o professor do curso para promover eventos ou falar do curso nas redes sociais são algumas soluções.

É através deste processo que o cientista de dados pode identificar, por exemplo, que quem gostou do curso de Fotografia da EBAC também se inscreveu no curso de Photoshop e gostou. A partir dessa constatação, é possível construir uma oferta direcionada aos estudantes do curso de Fotografia para incentivá-los a fazer o curso de Photoshop.

“Na Análise Exploratória de Dados, você não sabe o que os dados têm para te dizer ainda. Diante de uma base de dados, você faz uma análise exploratória para obter as respostas para as suas perguntas. Neste processo, a gente vai bater um papo com os dados, praticamente. Você pergunta e o software responde. E, assim, insights para negócios são gerados. No final das contas, o que se quer é potencializar um negócio”, explica João.

Como a Análise Exploratória de Dados ajuda a verificar a exatidão de dados

Para gerar insights de negócios tendo como base os dados, é preciso que esses dados estejam corretos. Assim, a probabilidade de o resultado dos insights sair como esperado é maior. E, para assegurar a qualidade dos dados, é possível usar a Análise Exploratória de Dados. Através dela é possível identificar erros e detectar desvios.

Vamos imaginar que uma equipe de marketing de uma loja de roupas quer fazer uma promoção e enviar cupons de desconto via e-mail para seus clientes. O cientista de dados pode identificar quem são os clientes que têm mais chances de usar o cupom.

Porém, para isso, ele precisa checar se as informações dos clientes (e-mail, localização, frequência de compra, por exemplo) que constam na base de dados da loja estão corretas, isto é, fazer uma análise exploratória dos dados. Caso elas estejam incorretas, a ação da equipe de marketing não dará resultado.

“A Análise Exploratória de Dados dá ideia da qualidade dos dados e nos diz se o campo é confiável”, completa João.

Tipos primários de Análises Exploratórias de Dados

Há alguns tipos primários de Análise Exploratória de Dados, entre eles: univariada sem gráficos, multivariada sem gráficos, univariada com gráficos e multivariadas com gráficos.

  • Univariada sem gráficos

Esta é a maneira mais simples de analisar dados. O seu objetivo é descrever os dados e encontrar padrões que possam existir neles. Aqui, o profissional vai olhar apenas uma variável, ou seja, uma única característica do que está sendo analisado. “A análise univariada sem gráficos mais simples que se tem é a média”, explica João.

Imagine que você tem um conjunto de dados onde se tem a lista das notas dos estudantes de um curso e você quer resumir em um único número a nota da sala. Para isso, você pode tirar a média dessas notas. Isto é, somar todas as notas e dividir pela quantidade de estudantes. O número obtido será a nota média da sala. Esta nota média é o resultado de uma análise univariada sem gráficos.

  • Multivariada sem gráficos

Já a análise multivariada sem gráficos vai analisar e descrever a relação entre duas ou mais variáveis. Esta análise pode ser feita por meio de tabulação cruzada, por exemplo.

Vamos supor que uma empresa que produz sucos industrializados entrevistou mil pessoas para descobrir o suco de frutas favorito delas. Para isso, podem ser criadas tabelas onde vão ser listadas a faixa etária dos entrevistados juntamente com as suas respostas.

Diante dessas duas variáveis (suco preferido e idade), pode-se tentar fazer uma relação para ver como a idade pode afetar a preferência de suco das pessoas. Além disso, pode-se listar outras informações como gênero ou de onde a pessoa é, por exemplo.

  • Univariada com gráficos

A análise com gráficos mostra uma imagem dos dados. No caso da univariada, ela vai analisar apenas uma variável. Um tipo comum de gráfico univariado é o histograma.

No histograma, cada barra representa a frequência de casos para uma variedade de valores.

Por exemplo: abaixo, temos uma tabela em que mostra opções de alturas e a quantidade de estudantes que se encaixam nesses dados. Ao lado da tabela, temos um histograma que contém as informações desta tabela.


Fonte das Imagens: Stoodi

O histograma é uma forma simples de aprender rapidamente sobre os seus dados. Com ele, é possível resumir grandes conjuntos de dados de forma visual, comparar os resultados e comunicar as informações de forma rápida. Olhando o histograma acima, é fácil identificar que a maior parte dos estudantes tem entre 1,70m e 1,75m de altura, enquanto apenas 13 têm entre 1,45m e 1,50m.

  • Multivariada com gráficos

A análise multivariada com gráficos utiliza imagens para exibir a relação entre duas ou mais variáveis. Um tipo comum deste tipo de análise é o mapa de calor. Esta é uma representação gráfica de dados em que os valores são retratados por cores.

Se uma empresa deseja entender o comportamento dos consumidores que acessam o seu site, por exemplo, ela pode utilizar o mapa de calor. Neste tipo de representação, uma escala de cores é usada, do vermelho ao azul, em que as cores quentes indicam os locais com maior atividade, e as mais frias, os com menos interações.

Mapa de calor - Fonte da Imagem: Norman Nielsen Group

Analisar este tipo de mapa ajuda a entender o comportamento dos usuários no site e, a partir daí, é possível otimizar a estratégia para incrementar a experiência do usuário.

Técnicas de análises estatísticas usadas na Análise Exploratória de Dados

Além de utilizar os tipos primários de Análise Exploratória de Dados, os cientistas de dados usam técnicas de análise estatística, que são mais sofisticadas, para compreender relações mais complexas entre as variáveis. Entre as técnicas estão a Teoria da Resposta ao Item e a modelagem de equações estruturais.

  • Teoria da Resposta ao Item (TRI)

A teoria de resposta ao item é uma forma de analisar resultados de testes, exames e questionários. Esta é a metodologia usada para a correção e atribuição de notas do Exame Nacional do Ensino Médio (ENEM), por exemplo.

Na TRI são consideradas três características das questões: a capacidade de mostrar se os estudantes têm o conhecimento necessário para respondê-las, o grau de dificuldade e a possibilidade de eles acertarem por acaso. A partir dessas características, a correção analisa o padrão de resposta dos estudantes para determinar o seu grau de proficiência.

A partir da teoria, é possível fazer uma análise comparativa em relação ao desempenho dos estudantes e definir estratégias para melhorar a qualidade de ensino.

  • Modelagem de equações estruturais

Esta técnica analisa simultaneamente múltiplas variáveis que não são diretamente mensuráveis.

“A modelagem de equações estruturais relaciona variáveis não mensuráveis como o burnout e o engajamento de um colaborador na empresa. Através desta análise, a empresa consegue dizer se um funcionário que está passando por uma experiência de burnout vai, por conta disso, ter um desempenho menor nas suas atividades profissionais, por exemplo. Isso é relacionar duas variáveis não mensuráveis”, explica João.

Ferramentas de Análise Exploratória de Dados

Para fazer a Análise Exploratória de Dados, é muito comum os profissionais usarem as linguagens de programação Python e R. Com elas, a análise é realizada de forma automática e, assim, o tempo de trabalho é economizado.

“Linguagens de programação são ferramentas bem gerais, e as linguagens Python e R vão dar bastante flexibilidade para fazer análise de dados”, conta João.

  • Semelhanças entre as linguagens Python e R

Enquanto linguagens de programação, as duas são modernas e versáteis. Além disso, elas também são open source (código aberto). Ou seja, são grátis, o que significa que qualquer pessoa pode usá-las sem custo, modificá-las para atingir os seus próprios objetivos e distribuí-las.

Por serem open source, elas possuem uma forte comunidade de usuários que fazem melhorias e criam novos recursos para deixá-las mais completas, com melhor performance e robustas. Por conta disso, as duas possuem uma gama enorme de recursos validados pela comunidade à sua disposição.

  • Diferenças entre as linguagens Python e R

O Python é uma linguagem de objetivo geral. Ou seja, ele foi projetado para solucionar qualquer tipo de problema que é resolvido através da linguagem de programação. Com ele é possível fazer websites, jogos, aplicativos e análise de dados, por exemplo. Em especial, o Python costuma ser muito usado no desenvolvimento de projetos de machine learning.

O Python tem várias bibliotecas que facilitam a realização de todo tipo de análise exploratória de dados, entre elas: a univariada sem gráficos, multivariada sem gráficos, univariada com gráficos e multivariadas com gráficos. Além disso, ele faz outros procedimentos que estão no dia a dia do cientista de dados.

Já a linguagem R é de objetivo específico. Ela foi criada para fazer análise de dados e é muito popular na comunidade estatística. A TRI, por exemplo, tem recursos complexos, mas foram implementados de forma bastante prática e completa no R. Com isso, é possível usar toda a complexidade da TRI de uma forma prática. Em contrapartida, esses recursos ainda não foram implementados com toda essa riqueza no Python.

Embora tenham as suas especificidades, as duas linguagens resolvem bem a maioria dos problemas de ciência de dados. A escolha de uma ou outra, normalmente, vem de uma preferência pessoal do usuário. No entanto, como conta João, boa parte dos cientistas de dados acaba aprendendo as duas linguagens para tirar proveito das especificidades de cada uma. Inclusive, há interfaces em que você pode usar as duas linguagens e fazê-las conversar entre si.

Além das linguagens de programação, existem outras ferramentas que também podem ser usadas na análise exploratória de dados como o Tableau, Power BI e o Alteryx. Estas são ferramentas usadas para fazer relatórios e painéis dinâmicos, mas que não são tão flexíveis quanto as linguagens de programação como R e Python.

Seja um cientista de dados!

A Análise Exploratória de Dados faz parte do dia a dia de um cientista de dados. Se você quer se tornar um profissional capaz de fazer análises e, mais do que isso, elaborar modelos estatísticos, solucionar problemas e ampliar estratégias de negócios, conheça o curso Profissão: Cientista de Dados da EBAC.

Atualmente com 17 mil vagas abertas no LinkedIn Brasil, o mercado para este profissional está bastante aquecido. Chamado por muitos de “profissão do futuro”, a remuneração para o cientista de dados costuma ser bem atraente. De acordo com pesquisa feita pela Intera, a faixa salarial média de um cientista de dados pode ir de R$ 7.416 a R$ 22 mil, a depender do nível de conhecimento do profissional.

Portanto, esta é uma grande oportunidade para você crescer profissionalmente. Visite a página do curso e saiba mais!