🚨 Code Against Fraud

Pipeline de detecção de fraudes aplicado a dados financeiros.

🔗 Sobre o Projeto

O Code Against Fraud é um projeto aplicado de Ciência de Dados, desenvolvido como parte do Small Data Lab. Ele simula o ciclo completo de construção de uma solução antifraude — da análise exploratória inicial ao deploy de modelos preditivos.

O projeto abrange engenharia de dados, machine learning supervisionado e boas práticas de MLOps, com foco em modularidade, reprodutibilidade e clareza técnica.

Foi idealizado para:

  • Demonstrar competências analíticas, técnicas e operacionais

  • Simular desafios reais como dados desbalanceados, engenharia de atributos, e avaliação com métricas de negócio

  • Servir como base para evolução futura com automações, APIs e monitoramento de modelos

🎯 Objetivo Geral

Construir um pipeline funcional de detecção de fraudes em dados financeiros, cobrindo:

→ Engenharia de dados
→ Modelagem supervisionada
→ Validação com métricas técnicas e de negócio
→ Deploy modular e escalável via API

🏗️ Estrutura Técnica do Projeto

A estrutura está organizada em cinco etapas principais:

  • Exploração Inicial do Dataset
    Análise preliminar do contexto, variáveis e distribuição de classes.

  • Análise Exploratória (EDA)
    Investigação visual e estatística das variáveis e seus impactos no comportamento fraudulento.

  • Engenharia de Atributos e Pré-processamento
    Criação de novas variáveis, tratamento de outliers, balanceamento e encoding.

  • Modelagem Supervisionada
    Implementação e avaliação de modelos como Árvores de Decisão, Random Forest e Regressão Logística.

  • Validação e Deploy
    Escolha do modelo com melhor desempenho e preparação do pipeline para disponibilização via API.

📍 Status Atual e Próximos Passos

O projeto está atualmente na etapa de Engenharia de Atributos e Pré-processamento.

🧩 Os próximos passos incluem:
→ Avaliação comparativa dos modelos implementados
→ Escolha do modelo ideal com base em métricas técnicas e de negócio
→ Deploy do pipeline como API funcional

Este bloco será atualizado conforme a evolução do projeto.

🛠️ Tecnologias e Ferramentas

  • Machine Learning: scikit-learn, imbalanced-learn

  • Manipulação e Análise: Pandas, NumPy

  • Visualização: Matplotlib, Seaborn

  • Deploy e Gestão: FastAPI (previsto), Git, GitHub, controle de versão e logs

🔍 Dataset

Fonte: Kaggle — Credit Card Fraud Detection
Descrição: Dataset com transações financeiras realizadas com cartões de crédito na Europa, rotuladas como legítimas ou fraudulentas.

Nota: Conjunto altamente desbalanceado e com variáveis anonimizadas via PCA.

🛑 Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Todos os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções aplicadas à detecção de fraudes.

🔗 Acesso ao Código no GitHub

Todo o pipeline, os scripts, os notebooks, os datasets tratados e a documentação técnica deste projeto estão disponíveis publicamente no GitHub.

Acessar o repositório no GitHub