Se conseguir uma vaga como Cientista de Dados é algo do seu interesse, participe da Semana Data Science na Prática, que vai acontecer entre os dias 06 e 12 de dezembro. Inscreva-se na Semana Data Science na Prática e conheça um plano à prova de falhas para levá-lo do zero à vaga em Ciência de Dados.
Definir o cenário de Data Science no Brasil era algo muito subjetivo, baseado em muitos “achismos” e opiniões próprias.
Agora não é mais. Graças a uma iniciativa do Data Hackers, provavelmente a mais completa já feita no Brasil, temos dados de uma pesquisa respondida por mais de 1.700 pessoas.
São dados sobre a faixa salarial, formação, linguagens utilizadas, entre outros insumos fornecidos pelos participantes desse survey.
Vamos dar uma olhada nesse dataset e tentar responder algumas perguntas de interesse.
Data Hackers Survey 2019
A pesquisa Data Hackers Survey 2019 foi realizada pela comunidade Data Hackers durante o mês de novembro de 2019.
Conduzida de forma online, foram feitas 36 perguntas, e o resultado (anonimizado) foi disponibilizado dentro da plataforma Kaggle. Veja algumas das perguntas feitas:
- Pergunta_1 (P1) = Idade?
- Pergunta_2 (P2) = Gênero?
- Pergunta_8 (P8) = Qual seu nível de ensino?
- Pergunta_10 (P10) = Qual sua situação atual de trabalho?
- Pergunta_16 (P16) = Qual sua faixa salarial atual?
- Pergunta_19 (P19) = Você se considera um profissional que atua na área de Data Science?
- Pergunta_21 (P21) = Quais das linguagens de programação listadas abaixo você utiliza no trabalho?
Para ter acesso ao dicionário de variáveis completo, basta acessar o conjunto de dados completo no link lá em cima.
# importar as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
# melhorar a visualização
pd.set_option('max_columns',170)
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
# importar o dataset para um DataFrame
df = pd.read_csv('https://www.dropbox.com/s/915cbi019cxfpuo/datahackers-survey-2019-anonymous-responses.csv?dl=1')
# extrair o nome da variável da tupla
df.columns = [eval(col)[1] for col in df.columns]
Acima, apenas importei as bibliotecas necessárias e importei o dataset para um DataFrame. Como as colunas são tupla, também extrai o elemento que continha apenas o nome da feature.
Vamos começar a responder algumas perguntas.
Onde vivem os Cientistas de Dados?
Como o objetivo deste artigo é analisar a situação de cientistas de dados, filtrei o DataFrame para os casos em que a resposta para a pergunta “Você se considera um profissional que atua na área de Data Science?” foi sim.
Na sequência, plotei os valores por estados que as pessoas moram atualmente.
# countplot de estado onde mora
plt.figure(figsize=(15,10))
ax = sns.countplot(x="living_state", data=df[df['is_data_science_professional'] == 1], order=df['living_state'].value_counts().index)
plt.title('Cientistas de Dados por Estado', size=14)
plt.xlabel('Estados', size=12)
plt.show()
De acordo com as respostas de profissionais de Data Science, pode-se notar que os estados de São Paulo, Minas e Rio de Janeiro juntos somam 62% dos profissionais do Brasil.
(Des)equilíbrio de gêneros em Data Science no Brasil
Todos sabemos do desequilíbrio que há entre os gêneros femininos e masculinos em Data Science no mundo.
Apesar das diversas iniciativas e conscientização da sociedade nos últimos anos, conseguimos ver que essa balança ainda está longe do ideal.
# plotar gráfico de gêneros
plt.figure(figsize=(8,8))
ax = sns.countplot(x="gender", data=df[df['is_data_science_professional'] == 1], order=df['gender'].value_counts().index)
plt.title('Cientistas de Dados por Gênero', size=14)
plt.xlabel('Gênero', size=12)
plt.show()
Dos participantes do survey que se consideram profissionais de Data Science, apenas 17% se declararam mulheres.
O contraste com os 83% de homens mostra que o desbalanceamento de classes é nítido.
Qual a formação dos cientistas de dados no Brasil?
O retrato mostrado pela pesquisa Data Hacker mostra um cenário brasileiro composto de profissionais que têm em sua maioria o diploma de graduação ou bacharelado.
# ver formação dos profissionais de data science
plt.figure(figsize=(18,10))
ax = sns.countplot(x="degreee_level", data=df[df['is_data_science_professional'] == 1], order=df['degreee_level'].value_counts().index)
plt.title('Cientistas de Dados por Nível Educacional', size=14)
plt.xlabel('Nível Educacional', size=12)
Um detalhe interessante é que, enquanto 32% dos entrevistados possuem graduação ou bacharelado, 21% deles ainda são estudantes de graduação.
Cientistas de Dados com Mestrado ou Doutorado+ representam apenas 13% do universo analisado.
Qual a idade média dos Cientistas de Dados no Brasil?
A idade média do profissional de Data Science é de aproximadamente 30 anos.
Você pode acompanhar o perfil dessa distribuição olhando o histograma abaixo.
# plotar histograma de idade
plt.figure(figsize=(12,6))
ax = sns.distplot(df.age)
plt.title('Cientistas de Dados por Idade', size=14)
plt.xlabel('Idade', size=12)
plt.show()
Outras informações estatísticas da idade puderam ser extraídas usando df.age.describe()
:
- O profissional mais jovem tinha 18 anos de idade
- O profissional mais experiente tinha 50 anos.
Qual o salário de um cientista de dados no Brasil?
Os salários são, talvez, o maior atrativo na narrativa a favor da Ciência de Dados como profissão. Vemos em todos os lugares notícias de salários altíssimos na empresa X, na empresa Y, que são, realmente, excelentes.
Porém, será essa a realidade dos Cientistas de Dados no Brasil?
Vamos dar uma olhada nos dados do nosso dataset, e entender como está essa distribuição de acordo com a nossa realidade.
ordem_salarios = ["Menos de R$ 1.000/mês",
"de R$ 1.001/mês a R$ 2.000/mês",
"de R$ 2.001/mês a R$ 3000/mês",
"de R$ 3.001/mês a R$ 4.000/mês",
"de R$ 4.001/mês a R$ 6.000/mês",
"de R$ 6.001/mês a R$ 8.000/mês",
"de R$ 8.001/mês a R$ 12.000/mês",
"de R$ 12.001/mês a R$ 16.000/mês",
"de R$ 16.001/mês a R$ 20.000/mês",
"de R$ 20.001/mês a R$ 25.000/mês"]
labels = ["Menos de R\$ 1.000",
'de R\$ 1.001 a R\$ 2.000',
"de R\$ 2.001 a R$ 3.000",
"de R\$ 3.001 a R\$ 4.000",
"de R\$ 4.001 a R\$ 6.000",
"de R\$ 6.001 a R\$ 8.000",
"de R\$ 8.001 a R\$ 12.000",
"de R\$ 12.001 a R\$ 16.000",
"de R\$ 16.001 a R\$ 20.000",
"de R\$ 20.001 a R\$ 25.000"]
# plotar o gráfico de salários
ax = sns.countplot(df[df['is_data_science_professional'] == 1].salary_range, order=ordem_salarios)
ax.set_xticklabels(labels=labels, rotation=45, horizontalalignment='right');
Temos, sim, salários altos, com alguns respondentes declarando salários acima dos 25 mil reais mensais. Entretanto, vemos que a maioria dos Cientistas de Dados do Brasil ganham entre 3 e 12 mil reais.
Sendo mais específico, a maior parte dos profissionais pertence à categoria “de R$ 4.001 a R$ 6.000”.
Pode chamar atenção o fato de termos Cientistas de Dados ganhando menos de R$ 3.000; entretanto, precisamos lembrar que essa pesquisa envolve desde estagiários a cargos mais altos da área, o que provavelmente explica esse intervalo.
Qual a linguagem de programação mais usada em Data Science?
Para quem acompanha o Sigmoidal, isto não é novidade: Python é o campeão absoluto nesse quesito.
Ainda na frente do R, temos SQL, que faz sentido, visto que profissionais utilizando das mais diversas tecnologias precisarão acessar seus dados de alguma maneira, o que muitas vezes é feito por meio de queries em SQL.
# plotar linguagens mais usadas
plt.figure(figsize=(10,5))
ax = sns.countplot(x="most_used_proggraming_languages",
data=df.replace("Não utilizo nenhuma das linguagens listadas", "N.D.A."))
plt.title('Cientistas de Dados por Linguagem de Programação Mais Utilizada', size=14)
plt.xticks(rotation= 45,horizontalalignment='right')
plt.xlabel('Linguagem de Programação Mais Utilizada', size=12);
Mesmo tendo um número de adeptos consideravelmente maior que as linguagens restantes, a diferença entre R e Python é realmente significativa.
Ou seja, mais um motivo para você escolher o Python como sua linguagem de programação.
Como Aprender Data Science
Se você se interessou pela área e deseja saber mais sobre carreira, salários e como começar uma carreira do zero, convido-o a participar da Semana Data Science na Prática.
Serão 4 aulas 100% gratuitas, em que vou explicar a minha metodologia para você aprender Data Science. Além disso, vou mostrar na prática como fazer um projeto completo.
Espero-o na nossa Semana Data Science na Prática. Clique no botão abaixo e faça sua inscrição agora.
Depois da inscrição, aproveite para acompanhar todas as novidades e atualizações do evento diretamente pelo meu Instagram. Um forte abraço!
Sensacional a forma didática de como vc consegue expor os dados e até uma pessoa leiga no assunto como eu consigo compreender o essencial de primeira!
Excelente conteúdo.
Poderia também ser analisada as faixas salariais de acordo com a linguagem de programação utilizada pelos Data Scientist.
Muito obrigado pelo comentário! No YouTube eu cheguei a fazer duas lives, se não me engano, analisando com detalhes a pesquisa – tamanha a riqueza de detalhes que podemos extrair. Um forte abraço.
A quase ausência feminina na área corrobora com estudos que já venho participando desde 2015 nos EUA , Brasil e mundo. Gostaria de saber se foi levantado as tecnologias utilizadas por esses profissionais. Tenho percebido que há alguns “gaps” de dominio de ferramentas de coleta, tratamento e análise de dados. Também vejo espaço para incentivar não só mulheres, mas todos profissionais com 40+ que tenham interesse na área, pois poderiam agregar experiência em diferentes setores da economia às analises que venham fazer.
Muito obrigado pelo comentário! Um forte abraço para você.
A pesquisa fez perguntas relacionadas a formação dos cientistas, além do grau de instrução? Seria interessante ver a área de formação (Exatas, Humanas, Biológicas) e curso (Estatística, Engenharias etc)
Muito legal. Acabei de me formar em Tecnologia em manufatura avançada e seu site tem sido pra mim uma fonte de orientações pra começar minha carreira em data science.
Continue assim!!
Bom dia
Tenho 45 anos e 20 anos de experiência em Finanças e Controladoria. No momento atual e diante dos cenários me vejo diante de várias oportunidades em Data Science. Hoje temos aí o Power BI que está dominando boa parte das empresas e acredito que num breve espaço de tempo, uns 5 anos, será a área de IA e Data Science que será uma realidade consolidada.
Eu lhe pergunto, com a idade média de 30 e poucos anos e eu com 45, até estudar praticar deverá levar uns 3 anos, com isso e pelas suas experiências estarei no caminho certo para esta mudança, ou apenas prevalecerá os mais jovens. Se somarmos uma meta de 10 anos estarei com 55 anos aproximadamente, a idade pesa para uma empresa mesmo com uma boa experiência na área de Data Science? Ou para esta área não tem limite de idade, apenas vontade de aprender e tocar o barco. Vocês podem me ajudar com as vossas experiências e tudo mais quais os perigos que eu posso enfrentar na minha idade vs. trabalhar com Data Science?
Obrigado!
PS. Caso não tenha ficado claro as minhas perguntas na resposta do email posso complementar melhor