🚨 Code Against Fraud

Pipeline de detecção de fraudes aplicado a dados financeiros.

🔗 Sobre o Projeto

O Code Against Fraud é um projeto aplicado de Ciência de Dados, desenvolvido dentro do Small Data Lab, que simula o ciclo completo de construção de uma solução antifraude.

O projeto abrange desde engenharia de dados, machine learning supervisionado, até o desenvolvimento de pipelines escaláveis e dashboards interativos.

Ele foi projetado para:

  • Demonstrar competências analíticas, técnicas e operacionais.

  • Simular desafios reais como dados desbalanceados, engenharia de features, análise comportamental e escalabilidade.

🎯 Objetivo Geral

Construir um pipeline completo de detecção de fraudes em dados financeiros.

Demonstrar domínio em:

Engenharia de dados
Modelagem estatística e machine learning
Processamento distribuído com Apache Spark
Business Analytics aplicado
Comunicação de resultados por meio de dashboards interativos

🏗️ Arquitetura do Projeto

O projeto está estruturado em três grandes fases:

Fase 1 — Machine Learning + Engenharia de Dados
→ Construção do pipeline tradicional: ingestão, limpeza, engenharia de features, análise exploratória, modelagem e avaliação.

Fase 2 — Business Analytics + Big Data
→ Refino analítico, análise comportamental, estudo de impacto no negócio e desenvolvimento de pipelines escaláveis com Apache Spark.

Fase 3 — Visualização Interativa
→ Criação de dashboards com Streamlit, conectando os outputs dos pipelines e promovendo visualizações operacionais e analíticas.

🚩 Fase Atual - Fase 1: Machine Learning + Engenharia de Dados

Construir um pipeline robusto, modular e escalável para detecção de fraudes.
Desenvolver e avaliar modelos supervisionados de machine learning.
Adotar boas práticas de MLOps desde o início:

  • Estrutura modular de código

  • Reprodutibilidade

  • Controle de versão

  • Logging e organização dos experimentos

🔸 Entregáveis da Fase 1

  • Coleta e exploração inicial do dataset

  • Pipeline de limpeza e engenharia de atributos

  • Modelagem supervisionada (RandomForest, XGBoost, Logistic Regression, entre outros)

  • Avaliação dos modelos com métricas técnicas e de negócio (ROC, AUC, Recall, Precision, F1, etc.)

  • Estrutura modular de scripts

  • Documentação clara e organizada dos processos

🔍 Dataset

Fonte: Kaggle — Credit Card Fraud Detection
Descrição: Dataset com transações financeiras realizadas com cartões de crédito na Europa, rotuladas como legítimas ou fraudulentas.

Observação: Dataset altamente desbalanceado e com variáveis anonimizadas via PCA.

🛠️ Tecnologias e Ferramentas

Linguagem:

  • Python

Machine Learning:

  • scikit-learn

  • XGBoost

  • Pandas

  • NumPy

Visualização:

  • Matplotlib

  • Seaborn

  • Streamlit

Gestão de Projeto:

  • Git

  • GitHub

🚀 Próximos Passos

  • Finalizar o pipeline de modelagem e avaliação

  • Ajuste fino dos modelos e feature engineering

  • Validação com métricas de negócio

  • Documentação dos experimentos

  • Preparação para transição para Fase 2 (Business Analytics + Big Data)

🛑 Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções técnicas aplicadas à detecção de fraudes e à Ciência de Dados.

🔥 Observação Final

O Code Against Fraud faz parte do ecossistema de desenvolvimento do Small Data Lab, funcionando como laboratório prático para aprimoramento das competências em dados, engenharia, machine learning e storytelling analítico.

🔗 Acesso ao Código no GitHub

Todo o pipeline, os scripts, os notebooks, os datasets tratados e a documentação técnica deste projeto estão disponíveis publicamente no GitHub.

Acessar o repositório no GitHub