Se conseguir uma vaga como Cientista de Dados é algo do seu interesse, participe da Semana Data Science na Prática, que vai acontecer entre os dias 06 e 12 de dezembro. Inscreva-se na Semana Data Science na Prática e conheça um plano à prova de falhas para levá-lo do zero à vaga em Ciência de Dados.
Definir o cenário de Data Science no Brasil era algo muito subjetivo, baseado em muitos “achismos” e opiniões próprias.
Agora não é mais. Graças a uma iniciativa do Data Hackers, provavelmente a mais completa já feita no Brasil, temos dados de uma pesquisa respondida por mais de 1.700 pessoas.
São dados sobre a faixa salarial, formação, linguagens utilizadas, entre outros insumos fornecidos pelos participantes desse survey.
Vamos dar uma olhada nesse dataset e tentar responder algumas perguntas de interesse.
Data Hackers Survey 2019
A pesquisa Data Hackers Survey 2019 foi realizada pela comunidade Data Hackers durante o mês de novembro de 2019.
Conduzida de forma online, foram feitas 36 perguntas, e o resultado (anonimizado) foi disponibilizado dentro da plataforma Kaggle. Veja algumas das perguntas feitas:
- Pergunta_1 (P1) = Idade?
- Pergunta_2 (P2) = Gênero?
- Pergunta_8 (P8) = Qual seu nível de ensino?
- Pergunta_10 (P10) = Qual sua situação atual de trabalho?
- Pergunta_16 (P16) = Qual sua faixa salarial atual?
- Pergunta_19 (P19) = Você se considera um profissional que atua na área de Data Science?
- Pergunta_21 (P21) = Quais das linguagens de programação listadas abaixo você utiliza no trabalho?
Para ter acesso ao dicionário de variáveis completo, basta acessar o conjunto de dados completo no link lá em cima.
# importar as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
# melhorar a visualização
pd.set_option('max_columns',170)
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
# importar o dataset para um DataFrame
df = pd.read_csv('https://www.dropbox.com/s/915cbi019cxfpuo/datahackers-survey-2019-anonymous-responses.csv?dl=1')
# extrair o nome da variável da tupla
df.columns = [eval(col)[1] for col in df.columns]
Acima, apenas importei as bibliotecas necessárias e importei o dataset para um DataFrame. Como as colunas são tupla, também extrai o elemento que continha apenas o nome da feature.
Vamos começar a responder algumas perguntas.
Onde vivem os Cientistas de Dados?
Como o objetivo deste artigo é analisar a situação de cientistas de dados, filtrei o DataFrame para os casos em que a resposta para a pergunta “Você se considera um profissional que atua na área de Data Science?” foi sim.
Na sequência, plotei os valores por estados que as pessoas moram atualmente.
# countplot de estado onde mora
plt.figure(figsize=(15,10))
ax = sns.countplot(x="living_state", data=df[df['is_data_science_professional'] == 1], order=df['living_state'].value_counts().index)
plt.title('Cientistas de Dados por Estado', size=14)
plt.xlabel('Estados', size=12)
plt.show()
De acordo com as respostas de profissionais de Data Science, pode-se notar que os estados de São Paulo, Minas e Rio de Janeiro juntos somam 62% dos profissionais do Brasil.
(Des)equilíbrio de gêneros em Data Science no Brasil
Todos sabemos do desequilíbrio que há entre os gêneros femininos e masculinos em Data Science no mundo.
Apesar das diversas iniciativas e conscientização da sociedade nos últimos anos, conseguimos ver que essa balança ainda está longe do ideal.
# plotar gráfico de gêneros
plt.figure(figsize=(8,8))
ax = sns.countplot(x="gender", data=df[df['is_data_science_professional'] == 1], order=df['gender'].value_counts().index)
plt.title('Cientistas de Dados por Gênero', size=14)
plt.xlabel('Gênero', size=12)
plt.show()
Dos participantes do survey que se consideram profissionais de Data Science, apenas 17% se declararam mulheres.
O contraste com os 83% de homens mostra que o desbalanceamento de classes é nítido.
Qual a formação dos cientistas de dados no Brasil?
O retrato mostrado pela pesquisa Data Hacker mostra um cenário brasileiro composto de profissionais que têm em sua maioria o diploma de graduação ou bacharelado.
# ver formação dos profissionais de data science
plt.figure(figsize=(18,10))
ax = sns.countplot(x="degreee_level", data=df[df['is_data_science_professional'] == 1], order=df['degreee_level'].value_counts().index)
plt.title('Cientistas de Dados por Nível Educacional', size=14)
plt.xlabel('Nível Educacional', size=12)
Um detalhe interessante é que, enquanto 32% dos entrevistados possuem graduação ou bacharelado, 21% deles ainda são estudantes de graduação.
Cientistas de Dados com Mestrado ou Doutorado+ representam apenas 13% do universo analisado.
Qual a idade média dos Cientistas de Dados no Brasil?
A idade média do profissional de Data Science é de aproximadamente 30 anos.
Você pode acompanhar o perfil dessa distribuição olhando o histograma abaixo.
# plotar histograma de idade
plt.figure(figsize=(12,6))
ax = sns.distplot(df.age)
plt.title('Cientistas de Dados por Idade', size=14)
plt.xlabel('Idade', size=12)
plt.show()
Outras informações estatísticas da idade puderam ser extraídas usando df.age.describe()
:
- O profissional mais jovem tinha 18 anos de idade
- O profissional mais experiente tinha 50 anos.
Qual o salário de um cientista de dados no Brasil?
Os salários são, talvez, o maior atrativo na narrativa a favor da Ciência de Dados como profissão. Vemos em todos os lugares notícias de salários altíssimos na empresa X, na empresa Y, que são, realmente, excelentes.
Porém, será essa a realidade dos Cientistas de Dados no Brasil?
Vamos dar uma olhada nos dados do nosso dataset, e entender como está essa distribuição de acordo com a nossa realidade.
ordem_salarios = ["Menos de R$ 1.000/mês",
"de R$ 1.001/mês a R$ 2.000/mês",
"de R$ 2.001/mês a R$ 3000/mês",
"de R$ 3.001/mês a R$ 4.000/mês",
"de R$ 4.001/mês a R$ 6.000/mês",
"de R$ 6.001/mês a R$ 8.000/mês",
"de R$ 8.001/mês a R$ 12.000/mês",
"de R$ 12.001/mês a R$ 16.000/mês",
"de R$ 16.001/mês a R$ 20.000/mês",
"de R$ 20.001/mês a R$ 25.000/mês"]
labels = ["Menos de R\$ 1.000",
'de R\$ 1.001 a R\$ 2.000',
"de R\$ 2.001 a R$ 3.000",
"de R\$ 3.001 a R\$ 4.000",
"de R\$ 4.001 a R\$ 6.000",
"de R\$ 6.001 a R\$ 8.000",
"de R\$ 8.001 a R\$ 12.000",
"de R\$ 12.001 a R\$ 16.000",
"de R\$ 16.001 a R\$ 20.000",
"de R\$ 20.001 a R\$ 25.000"]
# plotar o gráfico de salários
ax = sns.countplot(df[df['is_data_science_professional'] == 1].salary_range, order=ordem_salarios)
ax.set_xticklabels(labels=labels, rotation=45, horizontalalignment='right');
Temos, sim, salários altos, com alguns respondentes declarando salários acima dos 25 mil reais mensais. Entretanto, vemos que a maioria dos Cientistas de Dados do Brasil ganham entre 3 e 12 mil reais.
Sendo mais específico, a maior parte dos profissionais pertence à categoria “de R$ 4.001 a R$ 6.000”.
Pode chamar atenção o fato de termos Cientistas de Dados ganhando menos de R$ 3.000; entretanto, precisamos lembrar que essa pesquisa envolve desde estagiários a cargos mais altos da área, o que provavelmente explica esse intervalo.
Qual a linguagem de programação mais usada em Data Science?
Para quem acompanha o Sigmoidal, isto não é novidade: Python é o campeão absoluto nesse quesito.
Ainda na frente do R, temos SQL, que faz sentido, visto que profissionais utilizando das mais diversas tecnologias precisarão acessar seus dados de alguma maneira, o que muitas vezes é feito por meio de queries em SQL.
# plotar linguagens mais usadas
plt.figure(figsize=(10,5))
ax = sns.countplot(x="most_used_proggraming_languages",
data=df.replace("Não utilizo nenhuma das linguagens listadas", "N.D.A."))
plt.title('Cientistas de Dados por Linguagem de Programação Mais Utilizada', size=14)
plt.xticks(rotation= 45,horizontalalignment='right')
plt.xlabel('Linguagem de Programação Mais Utilizada', size=12);
Mesmo tendo um número de adeptos consideravelmente maior que as linguagens restantes, a diferença entre R e Python é realmente significativa.
Ou seja, mais um motivo para você escolher o Python como sua linguagem de programação.
Como Aprender Data Science
Se você se interessou pela área e deseja saber mais sobre carreira, salários e como começar uma carreira do zero, convido-o a participar da Semana Data Science na Prática.
Serão 4 aulas 100% gratuitas, em que vou explicar a minha metodologia para você aprender Data Science. Além disso, vou mostrar na prática como fazer um projeto completo.
Espero-o na nossa Semana Data Science na Prática. Clique no botão abaixo e faça sua inscrição agora.
Depois da inscrição, aproveite para acompanhar todas as novidades e atualizações do evento diretamente pelo meu Instagram. Um forte abraço!
Sensacional a forma didática de como vc consegue expor os dados e até uma pessoa leiga no assunto como eu consigo compreender o essencial de primeira!
Excelente conteúdo.
Poderia também ser analisada as faixas salariais de acordo com a linguagem de programação utilizada pelos Data Scientist.
Muito obrigado pelo comentário! No YouTube eu cheguei a fazer duas lives, se não me engano, analisando com detalhes a pesquisa – tamanha a riqueza de detalhes que podemos extrair. Um forte abraço.
A quase ausência feminina na área corrobora com estudos que já venho participando desde 2015 nos EUA , Brasil e mundo. Gostaria de saber se foi levantado as tecnologias utilizadas por esses profissionais. Tenho percebido que há alguns “gaps” de dominio de ferramentas de coleta, tratamento e análise de dados. Também vejo espaço para incentivar não só mulheres, mas todos profissionais com 40+ que tenham interesse na área, pois poderiam agregar experiência em diferentes setores da economia às analises que venham fazer.
Muito obrigado pelo comentário! Um forte abraço para você.
A pesquisa fez perguntas relacionadas a formação dos cientistas, além do grau de instrução? Seria interessante ver a área de formação (Exatas, Humanas, Biológicas) e curso (Estatística, Engenharias etc)
Muito legal. Acabei de me formar em Tecnologia em manufatura avançada e seu site tem sido pra mim uma fonte de orientações pra começar minha carreira em data science.
Continue assim!!