O que é Regressão Logística?

Imagine que você precisa prever se um cliente comprará um produto, se um paciente tem risco de desenvolver uma doença ou se um e-mail é spam. Como transformar dados em respostas objetivas? A regressão logística faz exatamente isto. Ela não apenas fornece previsões, mas atribui probabilidades a cada resultado, tornando a tomada de decisão mais precisa. Neste artigo, você vai entender como esse modelo funciona, as suas aplicações práticas em diferentes setores e como analisá-lo corretamente.
Economize R$320 na compra do seu curso. Use o código e comece a aprender!
Em 11 meses, aprenda do zero os principais conceitos da ciência de dados. Trilhe novos caminhos na sua carreira de TI ou dê o seu primeiro passo.
O que é regressão logística e para que serve
A regressão logística é uma técnica estatística amplamente utilizada para prever o resultado de uma variável dependente categórica com base em uma ou mais variáveis independentes. Ela é especialmente útil quando queremos entender a relação entre variáveis e prever uma probabilidade. Um exemplo clássico é quando tentamos prever se um cliente vai comprar um produto ou não, com base em características como idade, renda e histórico de compras.
A principal diferença entre a regressão logística e outras técnicas de regressão, como a regressão linear, é que a variável de resposta na regressão logística é categórica. Ou seja, ela pode assumir um número limitado de valores, como “sim” ou “não”. A regressão logística usa uma função sigmóide para modelar essa probabilidade, garantindo que a previsão seja sempre um valor entre 0 e 1.
Em resumo, a regressão logística serve para prever a probabilidade de um evento ocorrer, ajudando a tomar decisões baseadas em dados. Ela é amplamente utilizada em áreas como marketing, finanças, medicina e até em pesquisas sociais.
Quais são os diferentes tipos de regressão logística
Existem diferentes tipos de regressão logística, e a escolha do tipo a ser usado depende da natureza da variável dependente e da complexidade do problema. Vamos explorar os três tipos mais comuns.
Regressão logística binária
A regressão logística binária é a mais simples e, provavelmente, a mais conhecida. Como o próprio nome sugere, ela é usada quando a variável dependente tem apenas duas categorias. Por exemplo, se quisermos prever se uma pessoa vai comprar ou não um produto, a variável dependente seria “compra” e teria apenas duas opções: “sim” ou “não”.
Nessa regressão, a função sigmóide é usada para calcular a probabilidade de um evento acontecer (por exemplo, a probabilidade de uma compra). A fórmula da regressão logística binária é ajustada de modo que a probabilidade estimada seja sempre entre 0 e 1, o que a torna ideal para esse tipo de classificação binária.
Um exemplo simples seria usar a regressão logística binária para prever se um paciente tem ou não uma doença com base em variáveis como idade, pressão arterial e hábitos alimentares.
Regressão logística multinomial
Quando a variável dependente possui mais de duas categorias, mas estas categorias não têm uma ordem específica, usamos a regressão logística multinomial. Ao invés de prever se um evento ocorre ou não, esse tipo de regressão prevê a probabilidade de o evento cair em uma de várias categorias possíveis.
Por exemplo, imagine que queremos prever a escolha de transporte de um grupo de pessoas: carro, ônibus, bicicleta ou a pé. Nesse caso, temos quatro opções, e cada uma delas é uma categoria distinta e sem uma ordem natural. A regressão logística multinomial pode nos ajudar a entender as probabilidades de cada pessoa escolher uma destas opções com base em características como distância até o trabalho, tempo disponível e preferências pessoais.
A diferença aqui é que, ao invés de uma simples probabilidade de dois resultados, a regressão multinomial oferece probabilidades para cada uma das várias opções possíveis.
Regressão logística ordinal
A regressão logística ordinal é usada quando a variável dependente tem várias categorias, mas estas categorias possuem uma ordem natural. Um exemplo disso seria a classificação de produtos em um site, como “ruim”, “bom” e “excelente”. Estas categorias têm uma ordem implícita, mas a diferença entre elas não é necessariamente a mesma.
A regressão logística ordinal leva em consideração essa ordem, permitindo prever em qual categoria uma observação provavelmente se encaixa. No caso da classificação de produtos, podemos usar esse tipo de regressão para prever a probabilidade de um produto ser classificado como “bom” ou “excelente”, com base em características como qualidade, preço e avaliações anteriores.
O principal benefício da regressão ordinal é que ela respeita a hierarquia das categorias, o que a torna mais precisa em problemas onde a ordem importa.
Em resumo, a escolha do tipo de regressão logística depende do tipo de variável dependente que estamos tentando prever. A regressão binária é adequada para variáveis com duas categorias, a multinomial para variáveis com mais de duas categorias sem ordem, e a ordinal para variáveis com categorias ordenadas. Cada uma destas técnicas tem a sua aplicação específica, e entender estas diferenças é essencial para escolher a abordagem mais adequada para o seu problema.
Vantagens e desvantagens da regressão logística
A regressão logística é uma das técnicas estatísticas mais populares, especialmente por sua simplicidade e aplicabilidade. Porém, como qualquer modelo, ela tem as suas vantagens e desvantagens.
Vantagens
- Simplicidade e interpretabilidade: A regressão logística é fácil de entender e de implementar. Os seus resultados podem ser interpretados de forma simples, o que facilita a comunicação para tomadores de decisão, especialmente em áreas como marketing ou saúde.
- Previsão de probabilidades: Ao contrário de outras técnicas de classificação, como a regressão linear, a regressão logística fornece probabilidades de ocorrência de um evento, não apenas uma decisão binária. Isto oferece uma visão mais rica, especialmente quando queremos entender o grau de certeza de uma previsão.
- Eficiência computacional: O modelo de regressão logística é menos complexo em termos de computação, o que o torna eficiente, mesmo com grandes conjuntos de dados.
- Boa performance para problemas lineares: Quando a relação entre as variáveis independentes e a variável dependente é aproximadamente linear, a regressão logística tende a fornecer bons resultados com alta acurácia.
- Facilidade de implementação e popularidade: A regressão logística é amplamente suportada por várias bibliotecas de software, como scikit-learn e R, tornando-a acessível tanto para iniciantes quanto para especialistas.
Desvantagens
- Assume linearidade entre variáveis independentes e logaritmo das probabilidades: A regressão logística assume que existe uma relação linear entre as variáveis independentes e o logaritmo das probabilidades da variável dependente. Em muitos casos do mundo real, essa relação pode ser não linear, o que pode reduzir a precisão do modelo.
- Sensibilidade a outliers: Como outros modelos baseados em estatísticas, a regressão logística pode ser sensível a valores extremos (outliers), que podem distorcer os resultados, especialmente se estes dados estiverem presentes em grande quantidade.
- Não lida bem com grandes quantidades de variáveis correlacionadas: Quando há multicolinearidade entre as variáveis independentes (ou seja, quando elas estão altamente correlacionadas), o modelo de regressão logística pode apresentar problemas, como a instabilidade nos coeficientes estimados, o que pode dificultar a interpretação.
- Necessidade de grandes quantidades de dados para treinar: Embora a regressão logística seja eficiente, ela pode não ser a melhor escolha quando se tem um conjunto de dados muito pequeno. Modelos complexos, como redes neurais, podem ser mais apropriados nestes casos.
- Limitações com categorias de mais de dois resultados: Embora existam versões estendidas, como a regressão logística multinomial e ordinal, a regressão logística binária é limitada a duas classes. Para problemas com mais de duas categorias e interações complexas, outras abordagens podem ser mais eficazes.
Como analisar o modelo de regressão logística
Após a construção de um modelo de regressão logística, é fundamental analisar a sua performance e compreender como ele está fazendo as suas previsões. Aqui estão algumas das principais abordagens para avaliar um modelo de regressão logística.
1. Matriz de Confusão
A matriz de confusão é uma tabela que descreve o desempenho de um modelo de classificação. Ela mostra o número de previsões corretas e incorretas, divididas em categorias. Para um modelo binário, a matriz de confusão tem quatro elementos principais:
- Verdadeiros positivos (VP): Casos corretamente classificados como positivos.
- Falsos positivos (FP): Casos incorretamente classificados como positivos.
- Verdadeiros negativos (VN): Casos corretamente classificados como negativos.
- Falsos negativos (FN): Casos incorretamente classificados como negativos.
Com a matriz de confusão, podemos calcular métricas como a precisão, revocação, acurácia e pontuação F1, que ajudam a entender a eficácia do modelo.
2. Curva ROC e AUC
A curva ROC (Receiver Operating Characteristic) é uma representação gráfica do desempenho do modelo, que traça a taxa de verdadeiros positivos (TPR) contra a taxa de falsos positivos (FPR) para diferentes limiares de decisão.
O AUC (Área sob a curva) é uma métrica que indica a habilidade do modelo de discriminar entre as classes. Quanto mais próxima de 1 for a AUC, melhor o modelo.
3. Coeficientes do Modelo
Uma das vantagens da regressão logística é que ela fornece coeficientes que mostram a força e o tipo de relação entre as variáveis independentes e a variável dependente. Estes coeficientes podem ser interpretados em termos de odds ratios, que mostram a multiplicação da probabilidade de um evento para um aumento de uma unidade na variável explicativa.
Por exemplo, um coeficiente de 0,5 significa que, para cada unidade de aumento na variável, a chance de o evento ocorrer será multiplicada por e^0,5 (aproximadamente 1,65). Isto pode fornecer insights úteis sobre o impacto de cada variável no modelo.
4. Avaliação da Significância Estatística
É importante verificar se os coeficientes do modelo são estatisticamente significativos. Isto é feito através de testes de hipóteses, como o teste z para cada coeficiente. Se o valor p de um coeficiente for inferior a um limiar significativo (geralmente 0,05), podemos concluir que a variável correspondente tem um impacto significativo na previsão.
5. Validação Cruzada
A validação cruzada ajuda a garantir que o modelo seja generalizável e não tenha sido ajustado excessivamente aos dados de treino. A técnica envolve dividir os dados em múltiplos subconjuntos, treinando e testando o modelo em diferentes combinações destes subconjuntos.
6. Análise de Resíduos
A análise de resíduos envolve a verificação dos erros do modelo (diferenças entre os valores previstos e reais) para garantir que não há padrões sistemáticos não capturados pelo modelo. Resíduos não aleatórios podem indicar problemas, como a necessidade de incluir mais variáveis no modelo.
Regressão logística e as suas aplicações
A regressão logística pode parecer um conceito estatístico complicado, mas, na prática, ela é uma ferramenta essencial para prever eventos e tomar decisões informadas em diversas áreas. Se você já viu previsões eleitorais, diagnósticos médicos ou recomendações de produtos em um site de e-commerce, há uma grande chance de que tenha se deparado com a regressão logística em ação.
Ao contrário da regressão linear, que prevê valores numéricos, a regressão logística lida com probabilidades e respostas binárias (sim/não, aprovado/reprovado, spam/não spam). Isto a torna ideal para uma série de aplicações. Vamos explorar algumas delas.
Saúde: diagnósticos e previsões médicas
Imagine um médico tentando prever se um paciente tem diabetes com base em fatores como idade, índice de massa corporal (IMC) e nível de glicose no sangue. A regressão logística transforma estas informações em uma probabilidade: “Com 85% de certeza, esse paciente tem diabetes.”
O modelo não apenas prevê o diagnóstico, mas também pode identificar quais fatores são mais importantes. Se o nível de glicose tem o maior peso no cálculo, os médicos podem dar mais atenção a este aspecto ao interpretar os resultados.
Na prática, a regressão logística é amplamente utilizada para:
- Diagnosticar doenças como câncer e diabetes.
- Prever a eficácia de tratamentos médicos.
- Identificar riscos de complicações pós-cirúrgicas.
Política: previsões eleitorais
Em campanhas políticas, os institutos de pesquisa usam regressão logística para prever as chances de um candidato vencer uma eleição. Eles analisam variáveis como idade do eleitor, histórico de votos e preferências políticas para calcular a probabilidade de uma pessoa votar em determinado candidato.
Se a regressão logística indicar que jovens de 18 a 25 anos têm alta probabilidade de apoiar um candidato específico, a equipe de campanha pode direcionar esforços para este grupo.
Além disso, os governos usam essa técnica para prever:
- A probabilidade de abstenção nas eleições.
- O apoio a determinadas políticas públicas.
- A tendência de aprovação ou rejeição de líderes políticos.
Teste de Produto: saber se um produto vai vingar
Empresas frequentemente testam novos produtos em grupos pequenos antes de lançá-los no mercado. Com a regressão logística, elas conseguem prever se um novo item terá sucesso com base em feedbacks iniciais.
Imagine uma empresa que fabrica um novo tipo de tênis esportivo. Durante os testes, os consumidores dão notas para o conforto, durabilidade e design. A regressão logística pode prever se um consumidor compraria ou não o produto, considerando estes fatores.
Isto ajuda as empresas a decidir:
- Se vale a pena lançar um produto em larga escala.
- Quais características mais influenciam a decisão de compra.
- Se ajustes são necessários antes do lançamento.
Marketing: previsão de conversões e fidelização de clientes
No marketing digital, a regressão logística ajuda a prever se um usuário que visita um site ou recebe um e-mail promocional tomará uma ação específica, como fazer uma compra ou se inscrever em um serviço.
Exemplo: um e-commerce quer saber se um cliente comprará um produto com base no seu histórico de navegação, tempo gasto no site e interações anteriores. O modelo pode estimar a probabilidade de conversão e sugerir estratégias para aumentar as vendas.
Outras aplicações incluem:
- Prever quais leads têm maior chance de se tornarem clientes.
- Analisar quais campanhas publicitárias geram mais engajamento.
- Determinar quais fatores levam um usuário a cancelar uma assinatura.
Setor Financeiro: crédito e detecção de fraudes
Bancos e fintechs usam regressão logística para avaliar o risco de inadimplência antes de conceder um empréstimo. O modelo analisa variáveis como histórico de crédito, renda e tempo de emprego para prever a probabilidade de um cliente pagar ou não a sua dívida.
Além disso, a regressão logística é uma ferramenta poderosa para identificar fraudes. Se um cliente que normalmente faz compras pequenas de repente tenta sacar uma grande quantia em um país diferente, o sistema pode calcular a probabilidade de fraude e bloquear a transação automaticamente.
Outras aplicações incluem:
- Análise de risco em investimentos.
- Previsão de falências empresariais.
- Detecção de transações suspeitas em cartões de crédito.
Comércio Eletrônico: recomendações e personalização
Plataformas de e-commerce como Amazon e Mercado Livre usam regressão logística para entender o comportamento dos clientes e oferecer recomendações personalizadas.
Se um cliente costuma comprar produtos para bebês, o sistema pode prever com alta probabilidade que ele se interessa por fraldas ou brinquedos infantis. Essa técnica também é usada para prever se um cliente desistirá de uma compra e sugerir incentivos, como descontos ou frete grátis.
Outras aplicações incluem:
- Estimar a probabilidade de devolução de um produto.
- Prever se um usuário cancelará a sua assinatura de um serviço online.
- Personalizar anúncios e ofertas com base no perfil do consumidor.
Exemplo de regressão logística
Vamos supor que uma seguradora queira prever se um cliente fará um pedido de indenização nos próximos 12 meses. A empresa coleta dados de milhares de clientes, analisando fatores como idade, histórico de sinistros e tipo de veículo.
Com estes dados, um modelo de regressão logística pode ser treinado para prever a probabilidade de um cliente acionar o seguro. O resultado pode ser algo assim:
Cliente | Idade | Sinistros anteriores | Tipo de veículo | Probabilidade de pedido de indenização |
A | 35 | 0 | Sedan | 10% |
B | 22 | 2 | Esportivo | 85% |
C | 50 | 1 | SUV | 40% |
Com base nestes resultados, a seguradora pode ajustar os preços das apólices, oferecer programas de fidelidade ou tomar outras medidas para reduzir riscos.
Conclusão
A regressão logística é uma ferramenta poderosa para prever eventos binários e tomar decisões estratégicas com base em dados. Ela está presente em diversas áreas, ajudando médicos a diagnosticar doenças, políticos a entender tendências eleitorais, empresas a testar produtos e otimizar campanhas de marketing, bancos a avaliar riscos de crédito e detectar fraudes, e e-commerces a personalizar recomendações.
O seu grande diferencial é transformar informações complexas em probabilidades claras, permitindo que organizações tomem decisões informadas e reduzam incertezas. Com sua aplicação crescente, a regressão logística continua sendo um dos pilares da análise preditiva e da inteligência de dados no mundo moderno.






Profissão: Cientista de Dados
Economize R$320 na compra do seu curso. Use o código e comece a aprender!
Em 11 meses, aprenda do zero os principais conceitos da ciência de dados. Trilhe novos caminhos na sua carreira de TI ou dê o seu primeiro passo.
Receba artigos do blog, acompanhe as últimas notícias da EBAC e fique por dentro das novidades!