🚨 Code Against Fraud

Pipeline de detecção de fraudes aplicado a dados financeiros.

🔗 Sobre o Projeto

O Code Against Fraud é um projeto aplicado de Ciência de Dados, desenvolvido como parte do Small Data Lab. Ele simula o ciclo completo de construção de uma solução antifraude — da análise exploratória inicial ao deploy de modelos preditivos.

O projeto abrange engenharia de dados, machine learning supervisionado e boas práticas de MLOps, com foco em modularidade, reprodutibilidade e clareza técnica.

Foi idealizado para:

Demonstrar competências analíticas, técnicas e operacionais
Simular desafios reais como dados desbalanceados, engenharia de atributos, e avaliação com métricas de negócio
Servir como base para evolução futura com automações, APIs e monitoramento de modelos

🎯 Objetivo Geral

Construir um pipeline funcional de detecção de fraudes em dados financeiros, cobrindo:

→ Engenharia de dados
→ Modelagem supervisionada
→ Validação com métricas técnicas e de negócio
→ Deploy modular e escalável via API

🏗️ Estrutura Técnica do Projeto

A estrutura está organizada em cinco etapas principais:

Exploração Inicial do Dataset
Análise preliminar do contexto, variáveis e distribuição de classes.
Análise Exploratória (EDA)
Investigação visual e estatística das variáveis e seus impactos no comportamento fraudulento.
Engenharia de Atributos e Pré-processamento
Criação de novas variáveis, tratamento de outliers, balanceamento e encoding.
Modelagem Supervisionada
Implementação e avaliação de modelos como Árvores de Decisão, Random Forest e Regressão Logística.
Validação e Deploy
Escolha do modelo com melhor desempenho e preparação do pipeline para disponibilização via API.

📍 Status Atual e Próximos Passos

O projeto está atualmente na etapa de Engenharia de Atributos e Pré-processamento.

🧩 Os próximos passos incluem:
→ Avaliação comparativa dos modelos implementados
→ Escolha do modelo ideal com base em métricas técnicas e de negócio
→ Deploy do pipeline como API funcional

Este bloco será atualizado conforme a evolução do projeto.

🛠️ Tecnologias e Ferramentas

Machine Learning: scikit-learn, imbalanced-learn
Manipulação e Análise: Pandas, NumPy
Visualização: Matplotlib, Seaborn
Deploy e Gestão: FastAPI (previsto), Git, GitHub, controle de versão e logs

🔍 Dataset

→ Fonte: Kaggle — Credit Card Fraud Detection
→ Descrição: Dataset com transações financeiras realizadas com cartões de crédito na Europa, rotuladas como legítimas ou fraudulentas.

Nota: Conjunto altamente desbalanceado e com variáveis anonimizadas via PCA.

🛑 Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Todos os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções aplicadas à detecção de fraudes.

🔗 Acesso ao Código no GitHub

Todo o pipeline, os scripts, os notebooks, os datasets tratados e a documentação técnica deste projeto estão disponíveis publicamente no GitHub.

→ Acessar o repositório no GitHub