📊 Data Job Signals #01

Relatório de Vagas em Ciência de Dados no Brasil — Junho de 2025 Produto do projeto Job Data Insight | SDL

🔗 Sobre este relatório

O Data Job Signals é um produto do projeto Job Data Insight, integrante do ecossistema do Small Data Lab.

Este relatório apresenta uma análise investigativa sobre o panorama das vagas para Cientista de Dados no Brasil, a partir de uma amostra de 75 vagas publicadas no LinkedIn, entre os dias 01 e 14 de junho de 2025.

O objetivo central é analisar padrões, tendências e possíveis distorções nas exigências técnicas, comportamentais e na comunicação dos níveis de senioridade nas descrições dessas vagas.

Este relatório não tem caráter definitivo.
O foco está na geração de reflexões, questionamentos e pistas sobre o funcionamento atual do mercado de dados no Brasil.

🧠 Metodologia e Regras Éticas

Amostra:
75 vagas públicas para Cientista de Dados, publicadas no LinkedIn Brasil no período analisado.

Processamento dos dados:
Coleta manual dos links.
Captura dos HTMLs das descrições.
Processamento via agente GPT, responsável por transformar texto livre em dados estruturados:

  • Hard skills

  • Soft skills

  • Idiomas

  • Benefícios

  • Sinais de senioridade

Dados estruturados com:
Nível de experiência declarado
Nível estimado (calculado com base nas exigências técnicas e comportamentais)
Setor de atuação (normalizado manualmente)
Hard skills, soft skills, idiomas e benefícios

Avaliação de coerência:
→ Cada vaga foi classificada conforme a relação entre o nível declarado e o nível estimado:

✔️ Coerente: Nível declarado condizente com as exigências.
⚠️ Subdeclaração: A vaga exige mais do que comunica no nível declarado.
Sobradeclaração: A vaga exige menos do que comunica no nível declarado.
Não informado: A vaga não traz menção explícita ao nível.

Regra de anonimato:
→ As empresas foram anonimizadas com codinomes no formato {Subsetor}{UF}{Número}.
→ Exemplo: Fintech_SP_01, Startup_RJ_02, BancoDigital_MG_03.

✔️ Este procedimento garante uma análise ética, transparente e aberta, sem expor a identidade de nenhuma organização.

🏗️ Organização dos Dados

Durante o tratamento, foi aplicada uma padronização manual nas categorias de setor e subsetor, originalmente pouco estruturadas na fonte.

→ A categorização considera a natureza das atividades de cada empresa, resultando nos seguintes setores macro:

  • Tecnologia

  • Financeiro

  • Indústria

  • Educação

  • Saúde

  • Varejo

  • Serviços

📊 Análises e Resultados

Distribuição das Vagas por Setor Macro

A segmentação revela uma concentração expressiva de vagas nos setores de Tecnologia, Financeiro e Serviços.

→ Esse padrão reflete a dinâmica atual do mercado de dados no Brasil, onde esses segmentos mantêm a maior demanda por profissionais da área.

Distribuição dos Níveis — Declarado x Estimado

A análise comparativa entre os níveis declarados e os estimados com base nas exigências técnicas revela um descompasso claro.

→ A maior parte das vagas está rotulada como Pleno ou Sênior — tanto na declaração quanto na prática — embora muitas tragam requisitos alinhados claramente ao perfil Sênior (ou até superior).

Perfis Júnior ou Assistente são praticamente inexistentes, tanto na comunicação quanto nas exigências observadas.

👉 Este desalinhamento se consolida como um dos pilares centrais desta análise — um indicativo de que o mercado vem ajustando, silenciosamente, suas próprias definições de senioridade.

Avaliação de Coerência nas Vagas

O gráfico revela:

  • 61% das vagas estão em ⚠️ subdeclaração — quando o nível declarado é inferior às exigências.

  • 11% são ✔️ coerentes, com alinhamento entre o nível comunicado e o nível estimado.

  • 11% apresentam ❗ sobradeclaração — sinalizando uma comunicação que indica um nível superior às exigências.

  • 17% não informam explicitamente o nível de senioridade.

Este padrão — mesmo em uma amostra pontualaparece com frequência suficiente para levantar questionamentos relevantes sobre como o mercado define e comunica senioridade.

Incoerências por Setor

→ Presente em todos os setores, mas se destaca com mais intensidade em Tecnologia e Financeiro.
Setores que mais oferecem vagas são também os que mais apresentam desalinhamento entre o nível declarado e as exigências.

Incoerências por Nível Declarado

→ Vagas rotuladas como Pleno/Sênior concentram o maior volume de subdeclarações.
O rótulo Pleno parece estar sendo usado como uma classificação genérica, escondendo demandas que, na prática, se aproximam mais de Sênior.
Perfis Júnior e Assistente são praticamente inexistentes, levantando dúvidas sobre as reais oportunidades para quem está no início da carreira.

🚩 Padrões Emergentes e Incoerências Recorrentes

Incoerências por Nível Estimado

→ O nível Sênior carrega, de fato, as maiores exigências técnicas — seja declarado formalmente ou não.
O mercado eleva a régua técnica, muitas vezes sem explicitar isso no título ou no anúncio.

🔥O Que Revela Esta Análises

→ O fenômeno da subdeclaração não é isolado.
É recorrente, robusto e estrutural.

O desalinhamento entre o que se comunica e o que se exige tecnicamente é um desafio real na comunicação das vagas e na definição dos critérios de senioridade no mercado de dados no Brasil.

→ Embora a análise trabalhe com uma amostra limitada, a consistência dos padrões observados sugere a necessidade de reflexões mais amplastanto por parte dos profissionais quanto das empresas que operam nesse mercado.

Frequência Geral das Hard Skills

→ O gráfico mostra uma base técnica robusta e consistente, liderada por Python, SQL, Machine Learning, Estatística e Pandas.

O que chama atenção:
→ A presença constante de tecnologias como Spark, Databricks, Azure e práticas de MLOps.
Stacks robustas, antes restritas a perfis de engenharia, agora aparecem frequentemente — inclusive em vagas que, em teoria, deveriam contemplar perfis de entrada.

🏗️ Análise de Empilhamento Técnico (Hard Skills)

Heatmap - Hard Skills vs Nível Declarado

→ Nas vagas Pleno/Sênior, a exigência técnica é coerente com perfis avançados.

→ No nível Júnior, Python, SQL, Machine Learning e R aparecem com força, mas dentro de um patamar aceitável.

→ No nível Assistente, há um ponto crítico:
Tecnologias como Spark, Azure, Databricks, além de Machine Learning e Estatística, aparecem com frequência — indicando que essas vagas estão, na prática, muito mais alinhadas a perfis de Pleno do que de entrada.

👉 Este cenário sugere que o nível Assistente vem sendo utilizado de forma equivocada no mercado de dados.

🧭 Discussões e Reflexões Críticas

Os padrões observados — subdeclaração dos níveis e empilhamento técnico — aparecem de forma consistente e recorrente.

→ Sim, é uma amostra limitada e um recorte pontual.

→ Ainda assim, a robustez dos padrões levanta questionamentos legítimos sobre como o mercado comunica senioridade e define critérios técnicos.

Hipóteses levantadas:

  • Pressão seletiva, frente à alta competitividade, onde empresas filtram profissionais mais experientes.

  • Processos de recrutamento pouco estruturados, com descrições desalinhadas da realidade prática.

  • Uma possível redefinição silenciosa dos próprios conceitos de senioridade no mercado.

  • Descompasso interno entre áreas técnicas e recrutamento.

  • Falhas humanas no preenchimento das descrições.

O caso das vagas Assistente é particularmente emblemático:
Essas vagas frequentemente apresentam exigências desproporcionais, reforçando a hipótese de uso equivocado do rótulo ou de uma mudança silenciosa nos critérios de senioridade.

📜 Conclusão Final

→ Este relatório não busca respostas definitivas.
O objetivo é fomentar uma reflexão crítica e madura sobre os critérios e padrões que norteiam as contratações na área de dados no Brasil.

Fica claro:
→ Existe uma pressão técnica crescente.
→ Existe desalinhamento na comunicação dos níveis hierárquicos.

→ Mas permanece a pergunta:
“Esses padrões refletem uma tendência estrutural do mercado ou são um recorte específico deste período e desta amostra?”

👉 As próximas edições do Data Job Signals buscarão responder essa pergunta — com amostras maiores, cruzamento de múltiplos cargos e análises temporais.

🔗 Notebook e Dados no GitHub

→ Acesse o notebook completo com os dados, scripts de análise e geração dos gráficos diretamente no GitHub:
🔗 Acessar notebook no GitHub

🛑 Disclaimer

→ Este relatório é uma análise investigativa, independente e sem qualquer vínculo institucional.
→ Baseado em dados públicos, anonimizados e tratados de forma ética.
→ Seu objetivo é gerar inteligência de mercado sobre o setor de dados no Brasil, apoiar a tomada de decisão estratégica e demonstrar soluções técnicas aplicadas à Ciência de Dados.

🔥 Observação Final

O Data Job Signals — Edição 01 é o primeiro passo de uma investigação contínua sobre o mercado de dados no Brasil.

Não é um relatório definitivo.
Não representa a totalidade do mercado.

Mas oferece um recorte que, apesar de limitado, já revela padrões relevantes — que merecem atenção, acompanhamento e discussões abertas dentro da comunidade de dados.