Data Mining: o que é, como funciona e onde é usado
Vamos explicar o que está por trás deste processo que muitas empresas utilizam para criar planejamentos, previsões e visualizar tendências através dos dados.
Economize R$320 na compra do seu curso. Use o código e comece a aprender!
Torne-se um cientista de dados e aprenda a construir modelos estatísticos, resolver problemas e expandir a estratégia de negócios com base em algoritmos de Machine Learning e Big Data. Crie seus primeiros projetos e comece sua carreira em um dos mercados que mais cresce.
O grande volume de dados, como informações pessoais e registros do nosso comportamento online, que geramos a todo momento no mundo permitiu que empresas pudessem obter informações muito valiosas sobre negócios, mercado e consumo.
A organização e análise desse grande volume de dados é feita através de um processo conhecido como data mining, ou mineração de dados em português.
Neste artigo, consultamos o João Serrajordia, proprietário da Mestre dos Dados e professor no curso cientista de dados da EBAC, e separamos algumas informações para você conhecer um pouco mais sobre o que é esse processo, como ele funciona e quais são suas etapas.
O que é mineração de dados e para que serve
No dicionário, a palavra minerar como verbo intransitivo tem o significado de explorar economicamente uma mina. Para o digital, a mineração de dados mantém o sentido de exploração, trocando o minério extraído da mina por dados extraídos de inúmeras fontes.
Mas, indo um pouco além, o data mining é um processo automatizado utilizado para pesquisar e filtrar um grande volume de dados. O objetivo é encontrar padrões consistentes, correlações ou, até mesmo, inconsistências, como crescimento incomum das vendas ou a relação entre dois produtos diferentes que costumam ser comprados por um mesmo cliente.
É importante ressaltar que o data mining não se trata da extração dos dados, mas sim das análises e visualizações de dados que já existem.
O professor João relembra um ditado que diz “os dados são o novo petróleo”, usado para se referir ao grande valor que essas informações possuem como “matéria-prima”, dando origem a muitos outros produtos após serem processados.
Este processo é utilizado para encontrar informações que podem ser úteis a uma empresa, como prever resultados de ações e identificar padrões de comportamento, auxiliando em tomadas de decisões e abrindo caminho para novos insights para os negócios.
Empresas do mundo todo utilizam processos como este para tomadas de decisões e planejamento. Na Nike, por exemplo, serviu para o desenvolvimento de softwares para avaliar a performance de atletas e simpatizantes. Ou na Natura, empresa de cosméticos, que utilizou a análise de dados para decidir investir no projeto de Social Selling para suas consultoras de vendas.
Quem trabalha com mineração de dados?
Além de profissionais como cientistas de dados e analistas de dados, outros profissionais podem se beneficiar das descobertas da mineração de dados na sua área de atuação.
Nessa lista, podemos incluir profissionais como cientistas da computação, arquitetos de rede e analistas de segurança, que podem usufruir da mineração de dados tanto para identificar pontos de otimização em seus projetos como possíveis pontos que apresentam falhas ou anomalias.
Também podemos incluir pesquisadores e analistas de mercado, que podem utilizar a mineração de dados para estudos de marketing e vendas para criar estratégias para aumentar as vendas ou, até mesmo, definir o desenvolvimento de um novo produto.
Como funciona a mineração de dados e quais suas etapas?
O processo de mineração de dados conta com um conjunto de técnicas e ferramentas que se baseiam em aprendizado de máquina (também conhecido como machine learning, em inglês), algoritmos e estatísticas.
De uma forma geral, o processo de data mining possui quatro etapas principais.
Definir o problema a ser solucionado e o objetivo do projeto
É muito importante que o primeiro passo seja a definição de qual o objetivo que se busca alcançar com a mineração de dados. Mesmo que o objetivo seja obter uma resposta para um problema simples, ou um dado de um período específico.
Esse objetivo deve ser bem definido e estar claro para todos, pois ele será o guia para todas as outras etapas do projeto. Até mesmo a escolha das fontes de coleta de dados, que também acontece no início do projeto, deve-se basear no objetivo definido. Afinal, os dados coletados devem ser coerentes com as respostas que se busca encontrar.
Por exemplo, imagine que uma franquia de pizzarias que deseja realizar uma campanha promocional na cidade de São Paulo com o sabor de pizza mais vendido na região. Nesse caso, seu objetivo com a mineração de dados é descobrir qual o sabor mais vendido e, para incrementar a promoção, qual outro produto mais associado à compra dessa pizza.
Reduzir a duplicidade de informações
Como o data mining lida com um grande volume de dados, muitas vezes provenientes de mais de uma fonte, é possível que haja dados duplicados ou redundantes. Isso pode atrasar o processamento das informações para alcançar o objetivo final.
Por isso, as fontes de dados devem ser analisadas separadamente, a fim de eliminar essas duplicidades e redundâncias antes de integrar todos os dados em uma única base.
O professor João Serrajordia comenta que “pode ser tentador dar menos atenção a esta etapa em um projeto mais rotineiro em detrimento de cronograma, mas já vi empresas pagarem preços relativamente altos por negligenciar esta etapa inicial”.
Pensando no exemplo sobre a pizzaria, nessa etapa deve haver uma análise das fontes de dados para eliminar todas as informações duplicadas.
Limpar os dados que não são úteis
Sobre esta etapa, João diz que “na mesma intensidade que temos quantidades enormes de dados, temos todo o tipo de problemas com dados: não preenchimento, dados falaciosos, inconsistentes ou não confiáveis”.
“Nessa etapa se avalia os dados que são importantes, se realiza a limpeza daqueles que podem ser utilizados, a eliminação de dados que não são úteis (por mais que pareçam) e a organização da tabela final de dados no formato necessário para o projeto”.
Levando em consideração o objetivo definido anteriormente, é importante estabelecer os parâmetros de tipos de dados que devem fazer parte da mineração. Na maioria dos casos, o seu processo não precisará utilizar todos os dados que as fontes apresentam.
“Tipicamente é a etapa que mais consome tempo em um projeto de data mining”, conclui o professor.
Voltando ao exemplo da pizzaria, aqui são eliminadas informações desnecessárias, como os dados de franquias de outras cidades ou informações que não são referentes ao público e seus pedidos, mantendo apenas informações que alimentarão as idéias para a campanha.
Realizar a mineração de dados
Após a definição do objetivo do projeto e a preparação das informações, realiza-se então a mineração de dados. Com o auxílio de ferramentas, como Power BI ou Tableau, utiliza-se técnicas de mineração para relacionar os dados e buscar os resultados nos moldes que se deseja apresentar.
Estes resultados podem então ser analisados em busca das respostas propostas pelo objetivo definido no início do processo.
Completando o exemplo da pizzaria, é nessa etapa que são encontradas as informações sobre os sabores mais vendidos e outras compras relacionadas. Dependendo da base de dados, podemos encontrar outras informações como região e dias da semana com maior número de pedidos, o que pode auxiliar na criação de condições para promoções e ofertas aos clientes.
Sugestão do especialista: Framework CRISP-DM
O professor João também indica o uso do CRISP-DM (cross-industry standard process for data mining, ou processo padrão intersetorial para mineração de dados), um framework de mineração de dados criado pela IBM que aborda o processo de mineração de forma similar, mas apoiado em modelos de metodologias ágeis.
O CRISP-DM divide o processo em 6 etapas:
- Compreensão do negócio, onde define-se os interesses e objetivos do projeto;
- Compreensão dos dados, onde se analisa a qualidade e relevância dos dados;
- Preparação dos dados, onde ocorre a escolha e separação dos dados que serão utilizados;
- Modelagem, na qual utilizam-se as técnicas de mineração de dados para gerar os resultados;
- Avaliação, analisando a qualidade e confiabilidade dos resultados obtidos e definindo quais serão os próximos passos;
- Implantação, onde implementa-se o que foi definido a partir dos resultados obtidos.
Principais técnicas de mineração de dados
Um dos principais pontos de trabalhar com mineração de dados é conhecer suas principais técnicas de relação entre as informações que os bancos de dados possuem.
Estas técnicas envolvem tanto o bom entendimento das ferramentas que se utilizam para a mineração, quanto o conhecimento dos modelos de relacionamento dos dados, como os que veremos a seguir.
Análise de cluster (agrupamentos)
O termo cluster vem do inglês e, a grosso modo, tem o significado de aglomerar ou agrupar. Na mineração de dados, o armazenamento em cluster denomina a técnica de agrupar dados altamente semelhantes entre si e, depois, analisar o grande conjunto que todos os grupos formam.
Essa técnica permite visualizar os grupos de forma individual e, ao observar a relação entre os grupos, também permite observar as semelhanças e diferenças entre eles. Isso possibilita a identificação de padrões e, até mesmo, a falta deles.
Essa técnica pode ser utilizada, por exemplo, para agrupar tipos de clientes de acordo com seus comportamentos de compra e identificar algo como clientes mais jovens tendem a comprar de forma mais impulsiva, enquanto clientes a partir de certa idade passam mais tempo avaliando a finalização de uma compra.
Árvore de decisão
Essa é uma técnica muito utilizada para encontrar respostas específicas que podem auxiliar a prever acontecimentos futuros. O modelo é conhecido como “árvore de decisão” por conta das ramificações de respostas que ele gera.
A princípio, a estratégia parte de uma pergunta simples com apenas algumas possibilidades de respostas, encontrada na base de dados. Então, cada resposta gera uma nova pergunta, agora mais específica que a anterior, gerando respostas também mais específicas.
O resultado tem uma apresentação bastante visual que permite aos envolvidos enxergar padrões e prever acontecimentos para diferentes cenários, levando em consideração cada resposta da “árvore”.
Associação ou relação
A técnica de associação, ou relação, é uma das mais conhecidas em data mining. Ela consiste em identificar uma relação entre dois dados diferentes, buscando identificar padrões nessas relações.
Por exemplo, utilizando a técnica de associação podemos notar que a maioria das pessoas que compram celulares também compram capinhas de proteção para eles. Dessa forma, é possível oferecer esse produto secundário para clientes que forem comprar smartphones, aumentando o valor da sua compra e oferecendo uma facilidade ao cliente.
É um modelo muito utilizado para identificar padrões de consumo e está associado com as sessões de “outras pessoas também viram estes produtos” ou “as pessoas também compram”.
Classificação
Como o próprio nome já indica, essa técnica consiste na classificação de dados de acordo com seus atributos. Esta técnica é muito utilizada para classificar itens, objetos e até tipos de clientes e também pode ser utilizada em conjunto com outras técnicas.
A classificação de atributos específicos permite a categorização dos dados. Através das categorias é possível ter uma visualização melhor dos dados, facilitando a identificação de padrões e geração de insights.
Pensando em uma loja de roupas, por exemplo, é possível classificar clientes por idade e identificar qual a faixa etária predominante entre os clientes. Junto com a técnica de associação, é possível relacionar a idade dos clientes aos produtos e descobrir qual tipo de roupa é mais comprado por cada faixa etária.
Padrões sequenciais
Esta é uma técnica utilizada para identificar padrões de eventos que acontecem regularmente de forma sequencial. Os padrões sequenciais ajudam a identificar tendências nos negócios.
Por exemplo, uma loja de roupas pode identificar que na sequência do início do inverno sempre há o aumento nas vendas de determinado produto. Um supermercado pode identificar uma tendência no aumento de vendas de produtos prontos sempre que se inicia o final de semana.
Essas informações podem resultar em insights para ações que gerem aumento nas vendas e até previsões de como podem ser os índices de determinados períodos do ano para a empresa.
Previsão
No dicionário, prever tem o significado de ter uma idéia antecipada de algo que ainda vai acontecer. Em data mining, essa técnica busca o mesmo: analisar a tendência dos dados e antecipar ocorrências antes que elas aconteçam de fato.
Essa técnica é utilizada para analisar tendências históricas nos dados e traçar projeções para o futuro baseado nelas. É comum que ela seja utilizada junto com outras técnicas, como classificação e associação, para identificar os padrões e tendências.
Uma instituição de crédito, por exemplo, pode utilizar essa técnica para prever o risco de crédito de um cliente, auxiliando na decisão de conceder (ou não) um novo cartão de crédito a ele.
Onde usar a mineração de dados?
A mineração de dados pode ajudar a identificar padrões, oportunidades e até mesmo falhas em diversos processos. Portanto, ela pode ser utilizada por diversas áreas e diversos segmentos de empresas.
Bancos
Bancos costumam coletar e armazenar uma grande quantidade de dados de seus clientes, principalmente no que diz respeito à sua vida financeira. Estes dados, quando organizados e analisados, podem fornecer inúmeras informações para essas empresas.
Uma das principais informações que os bancos buscam através da mineração de dados é a análise de crédito para aprovação de financiamentos.
Através do data mining, os bancos podem analisar informações como histórico de pagamento, histórico de crédito, taxa de pagamentos, entre outras informações para identificar se aquele cliente estará apto a pagar parcelas de um financiamento para aprová-lo ou não.
Outro informação que os bancos identificam através da mineração de dados são fraudes e crimes financeiros. Com esse tipo de análise do banco de dados é possível identificar padrões financeiros que, quando acontecem de forma irregular, podem sinalizar possíveis transações fraudulentas.
Educação
O setor da educação utiliza a mineração de dados para entender melhor o perfil dos alunos, o ambiente educacional, os contextos nos quais a aprendizagem realmente ocorre e outros fatores que podem influenciar na aquisição de conhecimento.
Esse modelo de análise permite identificar abordagens de ensino com melhor desempenho, quando os alunos estão mais engajados e criar métodos de personalização do ensino para favorecer as condições de aprendizagem.
Manufatura
No setor de manufaturas, o data mining pode ser utilizado para identificar tendências que podem impactar o fluxo de produção, lucratividade e qualidade dos produtos.
Através da análise de informações do ciclo produtivo e o resultado obtido com os produtos, é possível identificar oportunidades de melhoria na produção, observar gargalos e quantificar problemas através de uma perspectiva financeira.
Por exemplo, uma indústria de manufatura têxtil pode usar data mining para analisar a qualidade do produto final. Para isso, ela coleta informações dos diferentes softwares e sistemas usados ao longo do processo para analisar o resultado e entender como resolver questões relacionadas à qualidade.
Dessa forma, os responsáveis pela manufatura podem tomar decisões mais precisas sobre o que é viável para sua produção e o que não é.
Recursos Humanos
Para recursos humanos, a mineração de dados pode ser valiosa para as tomadas de decisões da empresa em relação aos funcionários.
Por exemplo, é possível identificar que colaboradores com menos experiência tendem a passar mais tempo na empresa, ou que profissionais com formações recentes tendem a ser mais inovadores.
Esse tipo de análise permite identificar oportunidades de otimização no processo de recrutamento e seleção, além de gerar insights sobre os tipos de funcionários que a empresa possui e como aumentar a satisfação desse público interno.
Saúde
Essa é uma área na qual a mineração de dados pode ser muito importante. Através da análise do histórico de dados médicos, pode-se criar correlações entre características e sintomas dos pacientes de determinadas doenças que formam um padrão.
Na área da saúde, a mineração de dados pode ser utilizada de diversas formas. Desde pesquisas científicas na área da saúde, desenvolvimento de produtos farmacêuticos e vacinas, até suporte à condutas médicas.
Dessa forma, é possível realizar indicações médicas mais eficientes, aumentar as chances de identificação de doenças com antecedências ou, até mesmo, realizar tratamentos preventivos para que elas não aconteçam, aumentando as chances de cura e de tratamentos mais adequados.
Por exemplo, há cerca de 20 anos, no Brasil, identificou-se que havia uma relação entre o índice de gestações com má formação de fetos e a falta de ácido fólico na alimentação das gestantes. Portanto, em 2002, tornou-se obrigatório que as farinhas de trigo e milho produzidas no país fossem enriquecidas com ácido fólico e ferro. O resultado foi uma diminuição significativa no índice de gestações com má formação de fetos desde então.
Seguradoras
As seguradoras utilizam o data mining para analisar o perfil de clientes compradores de apólices de seguros. Através dos dados fornecidos por estes clientes, as seguradoras podem identificar riscos, evitar fraudes e definir valores de contrato.
Telecomunicações
No ambiente das telecomunicações, a mineração de dados é muito utilizada para a análise do perfil de clientes e seu comportamento de consumo dos produtos e serviços das empresas.
Essa análise busca prever ocorrências e diminuir a probabilidade de cancelamentos por parte dos clientes. Além disso, as informações obtidas pelo data mining também são utilizadas para identificar novas oportunidades de negócios com os clientes já existentes, o que chamamos de upsell.
Varejo
Para o setor varejista, a mineração de dados é muito utilizada para identificar perfil de compradores, comportamentos de consumo e tendências de compras.
Essas análises permitem às empresas compreender como posicionar melhor seus produtos, quais produtos geralmente são comprados juntos para realizar sugestões, quais produtos escolher para oferecer descontos e realizar promoções, entre outras ações.
Importância da mineração de dados para empresas
Os resultados apresentados pela mineração de dados podem fornecer informações muito importantes para o embasamento de tomadas de decisões e planejamento estratégico das empresas.
Desde a projeção de lucros até a previsão de manutenção de estoques, empresas podem pautar os seus planejamentos de curto, médio e longo prazo nos dados obtidos com o data mining.
Previsão e prevenção de risco
Nem sempre a mineração de dados precisa ser usada para analisar estratégias que funcionam. Podemos utilizar o método para analisar estratégias e ocorrências que não estão apresentando êxito.
Em um site, por exemplo, é possível analisar padrões de evasão dos usuários através de uma página, o que pode indicar um problema naquele local. Ou podemos observar a queda nas vendas quando um produto está em falta em determinado comércio.
A análise dessas informações podem indicar como prevenir que estes problemas se repitam ou continuem acontecendo.
Agrupamento
Através das informações apresentadas pelo data mining, as empresas podem criar grupos para diferentes tipos de ações que podem impulsionar os ganhos de uma empresa.
É possível apresentar aos clientes produtos em grupos que geralmente são comprados juntos ou pelos mesmos consumidores. Também é possível agrupar os próprios consumidores e realizar campanhas específicas para cada grupo.
Análise de comportamento
Conhecer o seu público e consumidor é fundamental para as empresas. Entender como eles se comportam em relação ao seu site, à sua loja física, às suas campanhas, aos produtos e serviços é muito importante para poder criar estratégias que valorizem essa relação.
A mineração de dados permite identificar esses padrões de comportamento fornecendo informações reais sobre o seu público. Dessa forma, é possível resolver problemas ou aproveitar oportunidades estratégicas de forma mais eficiente.
Torne-se um especialista em dados com a EBAC
Podemos ver que a mineração de dados é muito eficiente para diversas áreas e tipos de empresas. Com a grande digitalização da informação em todo o mundo, o volume de dados gerados o tempo todo é muito grande, por isso essa é uma área que cresce cada vez mais.
Mas é importante que o data mining seja executado por profissionais que realmente conhecem o processo e suas técnicas, de forma que os resultados obtidos sejam precisos e não tendenciosos.
Se você tem interesse em saber mais sobre o mundo dos dados, não deixe de conferir os cursos de Análise de Dados e Cientista de Dados da EBAC. São dois cursos completos, que você pode aprender desde o básico até informações avançadas, que conta com aulas de professores experientes e reconhecidos nesse mercado.
Profissão: Cientista de Dados
Economize R$320 na compra do seu curso. Use o código e comece a aprender!
Torne-se um cientista de dados e aprenda a construir modelos estatísticos, resolver problemas e expandir a estratégia de negócios com base em algoritmos de Machine Learning e Big Data. Crie seus primeiros projetos e comece sua carreira em um dos mercados que mais cresce.
Receba artigos do blog, acompanhe as últimas notícias da EBAC e fique por dentro das novidades!